EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf ·...

34
ENFA - Bulletin du GRES n°3 –juin 1996 page 0 Contact : Conf [email protected] EDITORIAL Constitution du G.R.E.S. au 15 Juin 1996 ANGELIQUE Françoise LEGTA de NANCY FAGES Jean ENFA TOULOUSE FAURE Jean-Claude LEGTA de CARCASSONNE GAUMET Jean-Pascal LEGTA LE ROBILLARD MALEGANT Jean-Yves ENITIAA de NANTES MARTIN Henri LEGTA de DIJON-QUETIGNY MELLAN André LEGTA de LA ROCHE SUR FORON MERCIER Alain ENFA TOULOUSE PARNAUDEAU Jean-Marie LEGTA de VENOURS PAVY Jacques LEGTA LE ROBILLARD PRADIN Jean LEGTA de MOULINS RIOU Alexis LEGTA de QUIMPER URDAMPILLETTA Vincent LEGTA de SURGERES VARLOT Chantal LEGTA de CHALONS SUR MARNE

Transcript of EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf ·...

Page 1: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 0 Contact : Conf [email protected]

EDITORIAL

Constitution du G.R.E.S. au 15 Juin 1996 ANGELIQUE Françoise LEGTA de NANCY FAGES Jean ENFA TOULOUSE FAURE Jean-Claude LEGTA de CARCASSONNE GAUMET Jean-Pascal LEGTA LE ROBILLARD MALEGANT Jean-Yves ENITIAA de NANTES MARTIN Henri LEGTA de DIJON-QUETIGNY MELLAN André LEGTA de LA ROCHE SUR FORON MERCIER Alain ENFA TOULOUSE PARNAUDEAU Jean-Marie LEGTA de VENOURS PAVY Jacques LEGTA LE ROBILLARD PRADIN Jean LEGTA de MOULINS RIOU Alexis LEGTA de QUIMPER URDAMPILLETTA Vincent LEGTA de SURGERES VARLOT Chantal LEGTA de CHALONS SUR MARNE

Page 2: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 1 Contact : Conf [email protected]

Jean-Marie PARNAUDEAU « C’est l’étude des jeux de hasard étendue bientôt jusqu’à former une branche distincte des mathématiques, le « calcul des probabilités », qui vient donner à la Science statistique sa justification théorique et ses méthodes propres. » André VESSEREAU fait ainsi le partage entre statistique et probabilité. Le calcul des probabilités, ce sont des mathématiques « propres » au sens où il y a des définitions, des théorèmes, des propriétés… Pour nous enseignants de mathématiques souvent peu formés aux probabilités et encore moins aux statistiques, nous nous retrouvons en terrain connu. L’enseignement de la statistique est plus délicat. Il s’agit d’une discipline nouvelle, la plupart des résultats datent du début de ce siècle, et le raisonnement est de type inductif. Pour paraphraser SNEDECOR, il s’agit d’une « méthode de mesure de l’incertitude des conclusions inductives. » C’est pourquoi nous avons tous des difficultés lorsqu’il s’agit d’aborder cette partie des programmes. Le ratio nombre de reçus sur nombre de candidats fait que le CAPESA interne est un concours accessible. Le GRES a publié dans le bulletin n°2 une partie du sujet de l’épreuve n°2. Dans ce numéro, vous trouverez une proposition de corrigé de l’exercice 2. Pour l’avenir, une partie du bulletin sera consacrée à ceux d’entre nous qui préparent ce concours, en particulier le corrigé des sujets. Comme il s’agira principalement des points du programme du CAPESA ayant un rapport direct avec notre enseignement en BTSA, ces rubriques pourront donc intéresser chacun d’entre nous. Ce numéro est particulièrement centré sur les tests statistiques. Il s’agit essentiellement, dans ce bulletin, de donner une méthodologie et quelques exemples. Rappelons que la pratique de certains tests n’est enseignée actuellement que dans les modules D4x. Suite à vos demandes, les représentations « tiges et feuilles » apparues dans le programme du futur Bac Pro, font l’objet d’un article. Dans le bulletin n°4, nous aborderons les « box plot » qui figurent dans les recommandations pédagogiques du programme du module D11. A ce propos, dès que vous recevrez les propositions de nouveaux programmes de ce module, n’hésitez pas à faire part de vos remarques à la DGER. Le bulletin du GRES se veut un outil de communication entre enseignants du Ministère de l’Agriculture. C’est la seule revue (au Monde !) qui n’est protégée par aucun droit d’auteurs, c’est pourquoi tous les articles sont libres de photocopies et de modifications, n’ayez aucune gêne à en profiter. Bonnes vacances à tous.

Page 3: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 2 Contact : Conf [email protected]

F comme FISHER Trois britanniques ont fortement influencé la statistique au début de ce siècle ; K. PEARSON, W.S. GOSSET (STUDENT) et R.A. FISHER. Mais, par ses nombreuses contributions tant au niveau théorique qu'expérimental, on peut considérer R.A. FISHER comme le fondateur de la statistique moderne. Sa collaboration avec STUDENT a déjà été évoquée dans le numéro 2. Ronald Aylmer FISHER est né en 1890, il a fait des études de mathématiques mais il s’est intéressé également aux travaux de MENDEL et de GALTON. C'est donc avec une formation de mathématicien et de biométricien qu'il commence à travailler et à publier. Ce qui est remarquable, lorsque l’on se penche sur ses travaux personnels (prés de 400 publications), ce sont les «va et vient» incessants entre pratique et théorie. Dès 1912, il jette les bases de la méthode du maximum de vraisemblance ; Gauss avait déjà utilisé cette méthode dans des cas particuliers, mais c'est FISHER qui propose de l'utiliser pour construire des estimateurs ; poursuivant ce travail, il en a étudié les propriétés asymptotiques en 1925. Une partie de ses recherches ont porté sur les estimateurs efficaces et asymptotiquement efficaces. En particulier, FISHER, mais il ne fut pas le seul, a établi clairement la distinction entre estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer) de la population étudiée. En 1915, il publie dans Biometrica un article sur la distribution d'échantillonnage du coefficient

de corrélation, en travaillant non pas sur le R mais sur le Z, où ZRR

=+−

⎛⎝⎜

⎞⎠⎟

12

11

ln , FISHER

montre que la distribution du Z est asymptotiquement normale et que de plus il y a indépendance entre E(Z) et V(Z). L'idée de cette transformation est géométrique. En 1918, il publie un article dans lequel il présente l'analyse de la variance. De 1919 à 1933, il travaille à la station de ROTHAMSTED, c'est là qu'il imaginera et mettra en place les grands principes de l'expérimentation agronomique (randomisation, plans d'expériences...) ; principes et méthodes qui sont encore appliqués de nos jours au moins en agronomie. Dès 1900, K PEARSON a proposé le test du χ2 (ajustement d'une distribution observée à une distribution théorique). En 1922, FISHER établit la méthode du minimum du χ2. Profitant des travaux de LAPLACE (1812) et de WILSON (1927), il développe une méthode générale de détermination des intervalles de confiance pour un paramètre en 1930. C'est NEYMAN qui developpera la théorie générale des intervalles de confiance et le lien avec la théorie des tests. Pour la petite histoire, si les relations entre R.A.FISHER et W.S. GOSSET furent toujours cordiales et fructueuses sur le plan scientifique, il n’en fut pas de même entre FISHER d’une part et J. NEYMAN et K. PEARSON d’autre part. Lorsqu’il prend sa retraite, en 1957, FISHER quitte la Grande-Bretagne et s’installe en Australie. Il y meurt en 1962. Si les ouvrages de statistiques ont souvent des tirages «confidentiels», parmi les «best-sellers» de la statistique figurent deux livres de R.A. FISHER :

Page 4: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 3 Contact : Conf [email protected]

- «Statistical tables for biological, agricultural and medical research» Paru en 1938, en collaboration avec son collègue de ROTHAMSTED, F. YATES. Ces tables, de nombreuses fois rééditées, constituent sûrement l’ouvrage de statistiques le plus pillé (on dirait actuellement «photocopillé») de toute l’histoire de la statistique. - «Les méthodes statistiques adaptées à la recherche scientifique» De nombreuses fois réédité, depuis sa parution en 1925, ce livre est le résultat du travail de R.A.FISHER, de l’équipe de ROTHAMSTED, mais aussi de W.S.GOSSET.

Dans la préface de la dixième édition (1946), on peut lire : «un contact journalier avec les problèmes statistiques, tels qu’ils se présentent à l’homme de laboratoire, stimula les recherches purement mathématiques qui servirent de base à de nouvelles méthodes (...) Nous avons pensé, en nous attachant aux problèmes des petites séries et à leur intérêt, qu’il devait être possible d’appliquer des tests précis aux données pratiques.». Enfin, à titre de méditation, ces deux phrases de 1946 mais toujours d’actualité : «Certains cours universitaires de Statistique élémentaire, par le maintien stéréotypé d’approximations inutiles et de conventions inadéquates, empêchent encore de nombreux étudiants de se servir de méthodes exactes. En lisant ce livre, ils devront se rappeler qu’on ne s’est pas écarté de la tradition par caprice, mais seulement quand on y trouvait un avantage certain.».

Page 5: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 4 Contact : Conf [email protected]

PRINCIPE GENERAL DES TESTS D'HYPOTHESES 1. Hypothèses à tester

La première étape d'un test consiste à définir l'hypothèse à tester. Cette hypothèse, notée H0 et appelée hypothèse nulle ou hypothèse principale, doit être "précise" : il s'agit en général d'une égalité. Nous verrons plus loin pourquoi.

On définit ensuite l'hypothèse alternative H1 : Si H0 est "μ μ1 2= ", H1 peut être "μ ≠ μ1 2 " ou "μ < μ1 2 " ou "μ > μ1 2 "

Dans le premier cas il s'agit d'un test bilatéral, dans les deux autres cas de tests unilatéraux.

Dans la pratique c'est souvent H1 qui s'exprime dans la question qu'on se pose : "le second traitement donne-t-il, en ce qui concerne la moyenne des rendements, de meilleurs résultats que le premier ?" donne " H1 : μ μ1 2< ", dans ce cas, on a pour H0 : "les deux traitements donnent, en ce qui concerne la moyenne des rendements, des résultats semblables", qui peut s’écrire :

" H0 : μ μ1 2= ". H0 concerne une ou des population(s), le but du test est de décider, à partir

d'échantillon(s), si H0 doit être rejetée ou non. L'observation d'un (d')échantillon(s) fait en général apparaître une contradiction avec

l'hypothèse H0 . Le problème est de savoir si cette contradiction observée est révélatrice ou non d'une contradiction au niveau de la (des) population(s).

On se pose le problème de la façon suivante : si H0 est vraie, quelle est la distribution des différences possibles ? (pour les variances il s'agira de quotients et non de différences).

Exemple : test de "conformité" d'une moyenne : H0 : μ μ= 0 (ne parlons pas de H1 pour l'instant) µ est la moyenne (inconnue) de la population. µ0 est une valeur fixée (par exemple 250). On prélève dans la population un échantillon aléatoire simple de taille n. On appelle X la

variable aléatoire moyenne d’échantillonnage (elle prend pour valeurs les moyennes des échantillons aléatoires simples de taille n).

2.Choix du modèle Dans le cas le plus simple où la population est distribuée normalement avec une variance

σ2 connue, X est de loi normale Nn

μσ,⎛

⎝⎜⎞⎠⎟

, c'est-à-dire, si H0 est vraie, de loi

Nn

μσ

0 ,⎛⎝⎜

⎞⎠⎟

.

Page 6: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 5 Contact : Conf [email protected]

On utilise la forme centrée réduite :

( )Si H est vraie UX

n

est de loi N0 00 0 1=

− μσ

, .

Ceci sera ce qu'on appelle la variable de décision ou modèle du test considéré (l'indice 0, facultatif, pour la variable U rappelle qu'on travaille sous H0 ).

On comprend ici pourquoi H0 doit être "précise" : en effet si, par exemple H0 était une inégalité on aurait affaire à un modèle "flottant" inutilisable.

La question qui se pose alors est la suivante : à partir de quelle valeur-seuil va-t-on considérer que u0 (valeur observée de U0 sur l'échantillon, u0 est une expression de la différence observée) est trop éloignée de 0 pour qu'on puisse accepter H0 ?

3. Risques associés

Il existe deux risques : - le risque de rejeter H0 alors qu'elle est vraie, il est appelé risque de première

espèce et noté α . - le risque d'accepter H0 alors qu'elle est fausse, il est appelé risque de

deuxième espèce et noté β . On a le tableau suivant :

Réalité

Décision H0 vraie H0 fausse

acceptation de H0

1− α β

rejet de H0

α 1 − β

Le risque α étant fixé au départ, la règle de décision est construite à partir de l'hypothèse

H1 et de la colonne " H0 vraie" de ce tableau. A l'aide du modèle défini sous H0 , on détermine une zone d'acceptation de H0 et une

zone de rejet de H0 de probabilité α . -Dans le cas d'un test bilatéral la zone de rejet est constituée de deux intervalles disjoints

de probabilité α2

chacun, l'un à droite et l'autre à gauche.

En revenant à l'exemple du paragraphe 2, nous avons le schéma de décision suivant : H1: μ μ≠ 0

Page 7: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 6 Contact : Conf [email protected]

On accepte H0 si - a < u0 < a, on rejette H0 sinon. -Dans le cas d'un test unilatéral, la zone de rejet est entièrement à droite ou entièrement à

gauche ("du côté de H1") : Pour le même exemple que précédemment avec " H1 : μ μ< 0 " on a le schéma suivant :

On accepte H0 si u0 > - b, on la rejette sinon. Et le risque β ? Il dépend de plusieurs facteurs : - le type de test - le risque de première espèce,α - la taille de l'échantillon - le degré de "fausseté" de H0 . Toujours sur le même exemple, pour le test bilatéral, on peut le représenter ainsi :

β est représenté par l'aire noire. La valeur de la moyenne μ étant inconnue, on ne peut pas connaître β . On raisonne, au

moment de la définition du protocole du test, sur des courbes représentant β en fonction du degré de fausseté de H0 . Ces courbes sont appelées courbes d'efficacité, il en existe pour chaque type de test. On peut les trouver dans les normes AFNOR, en particulier dans la norme NF X06 064.

1-β est appelé puissance du test, la courbe représentant 1-β est la courbe de puissance du test considéré.

Exemple :

On prélève 37 fromages d'une fabrication de façon aléatoire et simple (type EAS). X est la variable aléatoire qui prend pour valeur la masse d'un élément pris au hasard dans la fabrication.Il s'agit d'une variable normale. Voici les statistiques : La masse totale de l'échantillon est de: ∑xi = 3795 La somme des carrés des masses est de: ∑x²i = 960195 1) Calculer la moyenne et la variance de cet échantillon. 2) La moyenne de la fabrication est-elle de 249g ? (on prendra α = 0,05)

Proposition de corrigé : 1) Calcul de la moyenne et de la variance de l'échantillon:

µ0

Densité de X si H0 était vraie

Densité de X

Page 8: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 7 Contact : Conf [email protected]

x g

sXi

=

= − =∑252

37252² 16

2) Test * Hypothèses de ce test : H0 μ= 249 H1 μ ≠249 (il s'agit d'un test bilatéral)

* Risque de la décision de rejet de H0 :

Nous prenons pour le risque de première espèce α = 0,05 * Loi de probabilité de la statistique : La variable aléatoire T est distribuée par une loi de Student-Fisher à 36 degrés de liberté (ddl) * Régle de décision : La lecture de la table inverse de Student pour α=0,05 bilatéral nous donne : T(0,975;36) = 2,03 NB : Si vous n'avez pas de table de Student donnant cette valeur, ou le tableur EXCEL, alors vous pouvez utiliser une valeur approximative issue de la loi normale , dans ce cas 1,96. La règle de décision est la suivante : Si la "valeur critique" t est à l'extérieur de l'intervalle [-2,03 ; 2,03 ] alors nous rejetons Ho de façon significative. H1 H0 H1 -2,03 +2,03 * Calcul de la valeur critique : Tout d'abord le dénominateur de l'expression T qui vaut ici :

sn 1−

= =46

23

La valeur calculée à partir de l'échantillon vaut :

t =−

=252 249

23

4 5,

* Conclusion : Après application de la règle nous rejetons l'hypothèse nulle H0. Remarque : Il est souhaitable de vérifier qu'il est possible de rejeter H0 avec un risque plus faible . Pour cela nous allons établir une nouvelle règle à partir d'un risque α de 0,01. La valeur de Student correspondante vaut : T(0,995;36) = 2,72

TX

Sn-1

=−μ

Page 9: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 8 Contact : Conf [email protected]

Si la "valeur critique" t est à l'extérieur de l'intervalle [-2,72; 2,72] alors nous rejetons Ho de façon "hautement significative". Conclusion finale : Après application de la règle nous rejetons l'hypothèse nulle Ho de façon "hautement significative". "La moyenne de la fabrication de ces fromages est différente de 249g".

Page 10: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 9 Contact : Conf [email protected]

EXERCICES CORRIGES EXERCICE 1 L’objectif de l’exercice suivant est de calculer les valeurs des risques α et β associés aux deux hypothèses H0 (μ = 117) et H1 (μ = 120). C’est l’exercice de base pour comprendre comment l’on calcule ces valeurs. Dans la pratique, on testerait plutôt l’hypothèse H0 (μ = 117) et (contre) H1 (μ > 117). Pour obtenir l’évolution des valeurs de la probabilité d’acceptation de l’hypothèse H0 alors que H1 est vraie, on prend une suite de valeurs supposées de la moyenne μ de la population sur l’intervalle ]117 ; +∞[ (On prendra par exemple μ =118, μ =118,5, μ = 119, μ = 120... ). On obtient ainsi le tracé point par point de la courbe d’efficacité correspondant au test. Cet aspect sera développé lors du deuxième exercice. Calculer les risques α et β dans le cas suivant : H0 : µ = 117 g H1 : µ = 120 g L’écart-type σ de la fabrication vaut 5 g. La taille n de l’échantillon est 25. La règle de décision est la suivante : si la moyenne de l’échantillon est supérieure à 119 g alors on décide H1. Proposition de corrigé : Posons les hypothèses: H0 : " μ = 117 " opposée à H1 : " μ = 120 "

Modèle : σ est connu, la V.A. U = X

n

− μσ

suit la loi N (0 , 1)

sous H0 :

α = > = >−

= > =prob X prob U prob U( ) ( ) ( ) ,119 119 117525

2 0 0228

Le risque de refuser H0 alors que H0 est vraie est d' environ 0,023. sous H1 :

β = < = <−

= < − =prob X prob U prob U( ) ( ) ( ) ,119 119 120525

1 0 1587

Le risque d' accepter H0 alors que H0 est fausse est d' environ 0,16. Remarque : La puissance du test est donc de 1-0,16 soit 0,84.

Page 11: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 10 Contact : Conf [email protected]

EXERCICE 2 : On se propose d’effectuer un contrôle de réception de pièces fabriquées en série. π étant le pourcentage de pièces défectueuses fabriquées, on confronte les deux hypothèses suivantes : H0 : π = 0,05 il s’agit d’un lot conforme H1 : π = 0,08 il faut renvoyer le lot. Afin de prendre une décision, on extrait de façon aléatoire (EAS) un échantillon de 400 pièces et on fixe à 0,06 la valeur critique pour le pourcentage de pièces défectueuses de l’échantillon. Calculer les risques de première et de deuxième espèce dans cette situation. Proposition de corrigé : On pose H0 : " π = 0,05 " opposée à H1 : " π = 0,08 " Modèle : n > 30, la variable aléatoire P : "proportion de pièces défectueuses dans un échantillon de 400 éléments" est approximativement distribuée selon la loi normale :

N ( π ; π π( )1

400−

)

La règle de décision est la suivante : si on note p la proportion de pièces défectueuses observées dans l' échantillon : si p < 0,06, on accepte Ho si p > 0,06, on refuse Ho. Sous H0 :

α

α

= > = >−×

= >

=

prob P prob U prob U( , ) ( , ,, ,

) ( , )

,

0 06 0 06 0 050 05 0 95

400

0 92

0 1788

Le risque de refuser Ho alors qu' elle est vraie est d' environ 0,18. Sous H1 :

β

β

= < = <−×

= < −

=

prob P prob U prob U( , ) ( , ,, ,

) ( , )

,

0 06 0 06 0 080 08 0 92

400

1 47

0 0708

Le risque d' accepter Ho alors qu' elle est fausse est d' environ 0,07.

Page 12: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 11 Contact : Conf [email protected]

Remarques sur les risques α et β : α est le risque de refuser Η0 alors que Η0 est vraie. On peut dire aussi que c'est le risque de refuser un lot qui, pourtant, est conforme. Le calcul de α se fait donc sous l' hypothèse Η0, ce qui veut dire que dans ce cas, on connaît soit la valeur de μ ,s' il s' agit d' un contrôle de moyenne (exercice 1 : μ = 117 ), soit la valeur de π, s' il s' agit d' un contrôle de proportion (exercice 2 : .π = 0,05 ) Le risque β est le risque d' accepter Η0 alors qu' elle est fausse .Ou encore celui d' accepter un lot qui n' est pas conforme. Pour calculer β, il faut donc se placer sous Η1. Dans les exercices précédents, pour que ce soit plus simple, l' hypothèse Η1 était, comme Η0, formulée sous forme d' une égalité ( exercice 1 : μ = 120 ; exercice 2 : .π = 0,08) Ce n' est pas toujours le cas. Pour l' exercice 1, Η1 pourrait être " μ ≠ 117 " ( test bilatéral ) où " μ > 117 " ( test unilatéral ). Cela signifie que sous Η1 on ne connaît plus la valeur de μ ou de π. Il faut donc envisager d' autres valeurs pour ces paramètres. Reprenons par exemple l' exercice n° 2 Il s' agit, en fait, d' un test de conformité, pour lequel nous poserions les hypothèses ainsi : H0 " π = 0,05 " et H1 " π > 0,05 ". Un test unilatéral étant ici plus adapté. Si H1est vraie alors π est supérieure à 0,05, mais nous ne connaissons pas sa valeur. Il faut envisager plusieurs cas, il est intéressant de reprendre le calcul de β pour d' autres valeurs de π, par exemple pour 0,06, 0,07, 0,08, 0,09, 0,1 etc... β est fonction du degré de fausseté de H0. On peut alors représenter ce que l' on appelle la courbe d' efficacité du contrôle : en abscisse les valeurs de π et en ordonnée la probabilité d' accepter H0. Sur cette courbe, on peut retrouver le risque α, lorsque π vaut 0,05 (H0 est vraie ). Le risque β, lui, dépend de la valeur de π lorsque H1 est vraie. Les calculs, que vous ne manquerez pas de faire, donnent les résultats suivants : si π = 0,05 alors prob (accepter H0) = 1 - α = 0,8212

si π = 0,06 β = 0,5000 si π = 0,07 β = 0,2177 si π = 0,08 β = 0,0708 si π = 0,09 β = 0,0179 si π = 0,1 β = 0,0038 ...etc

_=_=_=_=_=_=_=_=_

Page 13: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 12 Contact : Conf [email protected]

ETUDE D’UN TEST STATISTIQUE BASE SUR LE MODELE BINOMIAL Afin d'effectuer une épreuve de discrimination de deux produits alimentaires, on met en place un "jury" de n personnes, aptes à juger dans le domaine "sensoriel". On réunit par exemple 12 "jurés", après une sélection rigoureuse, afin de vérifier qu’il est difficile, voire presque impossible, de différencier du point de vue de "l’acidité" les yaourts des marques "Prosper" et "Yoplaboum". Ce jury est mis en place à partir d’un protocole écrit et normalisé. Le laboratoire dans lequel cette expérience a lieu est également normalisé, afin que chaque juré opère de façon autonome et que les résultats soient indépendants. Le travail se fait donc dans des cabines isolées les unes des autres. Les épreuves les plus courantes sont la "triangulaire" et celle du "2 parmi 5". Dans l’épreuve triangulaire, on propose au jury d'écarter d'un lot de trois éléments celui qui leur paraît différent des deux autres. Pour tous, il y a une chance sur trois d'effectuer le "bon choix" sans goûter ou, ce qui revient au même, si aucune différence n’apparaît. Dans l’épreuve "2 parmi 5", on propose au jury d'écarter d'un lot de cinq éléments les deux qui lui paraissent différents des autres. L'"animateur", organisateur de la séance, connaît les résultats "vrais" car il a soigneusement numéroté et répertorié les "échantillons". Il dénombre à la fin les "bons choix" , soit l'observation kr : nombre de "réussites" sur n tentatives. Dans notre exemple , 5 personnes sur 12 ont mis de côté les deux yaourts "Prosper" , les séparant ainsi de leur concurrent , au cours d’un "2 parmi 5". Quelle conclusion peut-on apporter à cette expérience ? Pour répondre à cette question , il faut mettre en place un test d’hypothèses. Nous proposons l’étude de l’épreuve "2 parmi 5" décrite plus haut et concernant ces fameux yaourts. Nous utiliserons le schéma classique pour mener à bien ce test : * mise en place des hypothèses , * choix du risque de première espèce

* choix d’un modèle probabiliste qui va de pair avec la mise en place de la statistique étudiée à partir de cet échantillon,

* mise en place de la règle de décision basée sur le modèle , la définition des (de la ) zones de rejet,

* observation, * application de la règle et expression de la conclusion.

HYPOTHESES :

Page 14: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 13 Contact : Conf [email protected]

Dans notre exemple, il s'agit de tester les hypothèse suivantes :

H0 : les choix sont le fait du hasard.

Tout se passe comme si on n'avait pas pris la peine de goûter les produits. Passons à l’hypothèse secondaire ou alternative H1.

H1: Il est peu probable qu’autant de personnes fassent "le bon choix" au hasard

! RISQUE : Dans un premier temps, nous avons choisi un risque α de 0,05. Si nous rejetons Ho, alors nous verrons pour 0,01. MODELE: Sous Ho, s’agissant de n répétions d’épreuves de Bernoulli indépendantes, nous pouvons définir X, variable aléatoire qui prend pour valeur le nombre total de résultats "vrais" sur les 12 résultats obtenus, comme un aléa binomial. Sous Ho, X est distribuée selon la loi binomiale de paramètres n, taille de l’échantillon (ici, nombre de personnes constituant le "jury"), égale à 12 et p, probabilité de réussite d’une épreuve de Bernoulli, égale à 0.1 (car il y a 10 choix, C5

2 , possibles pour chaque jury, un seul étant le bon). Le modèle utilisé dans ce test est le modèle binomial. Nous voyons à présent pourquoi tant de précautions sont prises pour isoler les cabines les unes des autres, pour former les "jurés" et pourquoi les bavards sont exclus ! REGLE DE DECISION : La règle de décision est très simple, il suffit de calculer à l’aide d’une table, ou avec un logiciel, une valeur critique, kc, qu’il faut atteindre afin que la probabilité q (voir schéma) soit inférieure ou égale à 0,05. Dans notre exemple : Prob(X ≤ 2) = 0,8891 Prob(X ≤ 3) = 0,9744 d’où Prob(X ≥ 4) ≤ 0.05 La valeur critique correspondant à 0,05 est : kc = 4, d'où la règle de décision :

Si le nombre de discriminations réussies atteint ou dépasse 4, alors Ho est rejetée de façon significative.

Pour un risque α de 0,01, la valeur critique correspondante est : kc = 5.

Page 15: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 14 Contact : Conf [email protected]

Schéma représentant la zone de rejet : p q

0-------------------------1------------------------3 4------ ------12 < Zone de Rejet de Ho OBSERVATION Nous avons observé au cours de cette séance 5 résultats "vrais". CONCLUSION Nous rejetons l'hypothèse nulle de façon hautement significative car la valeur critique de la règle à 0,01 est atteinte. "So, do reject with higthly significance Ho", HS ou ** comme le diraient nos amis anglo-saxons. Nous écrirons dans notre rapport d’expertise : "Nous pouvons affirmer que les deux marques de yaourts présentent une différence d’acidité nettement perceptible". Vous trouverez en annexe une table des valeurs critiques de décision pour ces tests, table qui a été construite au cours d’un TP sur la loi binomiale à l’aide d’EXCEL IV.

Page 16: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 15 Contact : Conf [email protected]

5 4 5 5 3 36 5 6 6 3 46 5 6 6 3 47 5 6 7 3 48 6 7 8 3 49 6 7 9 4 410 7 8 10 4 511 7 8 11 4 512 8 9 12 4 513 8 9 13 4 514 9 10 14 4 515 9 10 15 5 616 9 11 16 5 617 10 11 17 5 618 10 12 18 5 619 11 12 19 5 620 11 13 20 5 721 12 13 21 6 722 12 14 22 6 723 12 14 23 6 724 13 15 24 6 725 13 15 25 6 726 14 15 26 6 827 14 16 27 6 828 15 16 28 7 829 15 17 29 7 830 15 17 30 7 831 16 18 31 7 832 16 18 32 7 933 17 18 33 7 934 17 19 34 7 935 17 19 35 8 936 18 20 36 8 937 18 20 37 8 938 19 21 38 8 1039 19 21 39 8 1040 19 21 40 8 1041 20 22 41 8 1042 20 22 42 9 1043 20 23 43 9 1044 21 23 44 9 1145 21 24 45 9 1146 22 24 46 9 11

47 22 24 47 9 11

48 22 25 48 9 11

49 23 25 49 10 11

50 23 26 50 10 11

Table des valeurs critiques pour un test de discrimination

Pour un test triangulaire : p=1/3

Taille du Effectif Critique kc α=0,05

Pour un Test "2 parmi 5": p=0.1

Taille du JuryEffectif Critique kc α=0,05

Page 17: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 16 Contact : Conf [email protected]

QUAND DEUX TESTS SE REJOIGNENT... Voici un exercice bien classique : On sait qu'une maladie atteint 10% des jeunes ovins d'une région donnée. Un chercheur a expérimenté un nouveau traitement sur un échantillon de n agneaux. il a alors recensé 6% de malades. A l'aide d'un test que l'on précisera, au seuil de risque de 5%, déterminer la valeur minimale de n qui permet au chercheur de conclure que les résultats avec le nouveau traitement sont différents des résultats précédents. A :Une première méthode consiste à faire un test de conformité de la proportion. Nous disposons d'un échantillon de taille n, dans lequel la proportion de malades est p = 0,06. Cet échantillon est extrait d'une population dans laquelle la proportion de malades est π. La valeur de ce paramètre est inconnue. La référence est π0 = 0,10. 1 Posons les hypothèses: H0 : "π = π " et H1 : "π ≠ π0". Le test est bilatéral. 2 Définissons le modèle : En supposant que n est grand, la variable aléatoire P qui, à chaque échantillon de taille n, associe la proportion de malades, est approximativement

normale, de moyenne π, et d'écart type π π( )1−

n .

Sous Ho, la V.A. U P

n

=−×0 10

0 10 0 90,

, ,est normale centrée réduite.

3 Le risque � est fixé à 0,05. 4 La valeur critique est donc 1,96..car prob (-1,96 < U < 1,96) = 0,95. 5 La valeur observée, pour l' échantillon prélevé, est :

u

n

nobs =

−×

=−0 06 0 10

0 10 0 900 4

3, ,, ,

,.

6 Règle de décision: On rejette Ho si uobs < - 1,96 ou uobs > 1,96.. 7 Conclure à une différence revient à rejeter H0 .Puisque uobs est négatif, il faut donc que uobs soit inférieur à -1,96, soit n supérieur à 216. Le chercheur pourra conclure à une différence, au risque 5% de se tromper, si l'échantillon contient au minimum 217 agneaux. B Une autre méthode consiste à faire un test de Khi-Deux d' ajustement.

Page 18: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 17 Contact : Conf [email protected]

Attention, ce test permet de comparer des effectifs, et non des proportions. Dans l' échantillon de n agneaux il y a ( 0,06 × n ) agneaux malades et ( 0,94 × n ) agneaux sains . 1 Posons les hypothèses : Ho" les effectifs observés sont conformes aux effectifs théoriques ". H1 " ils ne le sont pas ". 2 Le modèle : Sous H0, les effectifs théoriques sont (0,10 × n) pour les malades et ( 0,90 × n ) pour les sains .

La V A χ22

=−∑ ( )n cc

i i

iclasses suit la loi de Khi-Deux à (p - 1) ddl où p = 2. p étant le

nombre de classes, ci l' effectif théorique et ni l' effectif observé de la i-ème classe. Rappelons que le test de Khi Deux est toujours unilatéral. 3 Le risque � est fixé à 0,05. 4 La valeur critique est 3,84 puisque prob ( χ ² < 3,84 ) = 0,95 pour 1 ddl. 5 La valeur observée pour l'échantillon :

ni ci malades 0,06 n 0,10 n

sains 0,94 n 0,90 n

χobsn n

nn n

nn2

2 20 06 0 100 10

0 94 0 900 90

0 169

=−

+−

=( , , )

,( , , )

,,

6 Décision : On rejette H0 dès que χ ² obs > 3,84 soit n > 216 7 Conclusion : Il est rassurant de constater que les deux tests aboutissent au même résultat. La similitude entre ces deux méthodes ne s'arrête pas là. En effet, avez vous remarqué que : le carré du uobs ( 1ere méthode ) est égal au χ ² obs ( 2eme méthode ) et que 1,96 ² = 3,84 . C' est magique, non ? Est ce le hasard ? Il intervient si souvent dans nos discours.... Non, bien sur.Essayons de comprendre pourquoi. La somme des carrés de n variables aléatoires normales centrées réduites indépendantes est une variable aléatoire distribuée selon la loi de Khi-Deux à n degrés de liberté. Si n = 1, une V A de Khi Deux à 1 ddl est donc le carré d' une V A normale centrée réduite, d'où la similitude étroite entre les deux tests. De plus, prob (U ² < a) = prob (− < <a U a ) pour a positif, le test de Khi Deux unilatéral correspond bien à un test gaussien bilatéral.

Page 19: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 18 Contact : Conf [email protected]

A ce propos, certains diront qu' un test unilatéral aurait été plus adapté pour la première méthode, on cherche en effet à mettre en évidence l' efficacité du nouveau traitement. Dans ce cas, on compare le uobs à 1,645. Or 1,645² = 2,71 et 2,71 est la valeur critique d' une V A de Khi Deux à 1 ddl, mais au risque de 10%, vous l' aviez compris.

___________________________________

Nous retrouvons cette similitude entre le test d'indépendance du Khi-Deux (si chacun des deux caractères n'a que 2 modalités) et le test de comparaison de deux proportions. Vous pouvez le vérifier sur l'exemple suivant : Enoncé On a relevé les résultats à un examen dans deux centres A et B . Dans le centre A on a : 40 élèves reçus pour 70 canditats présentés. Dans le centre B on a : 50 élèves reçus pour 70 canditats présentés. Peut-on admettre que le taux de réussite est le même pour les deux centres ? A vous de jouer ! Eléments de correction : Pour le test de comparaison en comparant par exemple, les taux de réussite,

uobs =

5570

6070

115140

25140

( 170

170

) 1,10

× += − où

115140

représente une estimation du taux

commun de réussite (nombre total de reçus / nombre total de candidats) Pour un risque � égal à 0,05, comme - 1,96 < uobs < 1,96, on ne rejette pas Ho, donc nous admettons que le taux de réussite est le même pour les deux centres. Pour le test d'indépendance entre le caractère "centre" et le caractère "résultat"

χobs2

2 2 2 257 557 5

15 12 512 5

60 57 557 5

10 12 512 5

1 22=−

+−

+−

+−

=(55 , )

,( , )

,( , )

,( , )

,,

Au même risque �, puisque χ ²obs < 3,84, on ne rejette pas H0 .Nous admettons que le taux de réussite est le même pour les deux centres. Bien entendu, 1,10 ² = 1,22 ( tenez compte des arrondis ) et 1,96 ² = 3,84 .

Page 20: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 19 Contact : Conf [email protected]

A PROPOS DU TEST F Première partie L'objet de ce premier article est d'apporter quelques précisions sur le test F de comparaison de deux variances. Les bases théoriques de ce test ont été établies par R.A. FISHER (1920). La notation F a été donnée par G. W. SNEDECOR en l'honneur de ce dernier. QUELQUES RAPPELS ET NOTATIONS Dans la suite, on se place dans le cas de deux populations normales notées P1 et P2, et on prélève dans chaque population un échantillon aléatoire (chaque élément est prélevé au hasard) et simple (les éléments sont prélevés indépendamment les uns des autres) ; en abrégé un échantillon aléatoire et simple est noté EAS. On prélève un échantillon, de taille n1, provenant de la population P1 et on prélève un échantillon, de taille n2, provenant de la population P2. On suppose de plus que les échantillons ont été prélevés indépendamment les uns des autres ; on dit alors que le plan d'échantillonnage est un plan d'échantillonnage aléatoire simple et indépendant (en abrégé plan EASI). Les notations utilisées sont celles définies dans le bulletin N°1 page 14. LA PROBLEMATIQUE DU TEST F

On note σ12 la variance de la population P1 et σ2

2 la variance de la population P2. Ces deux variances existent, mais sont inconnues. On suppose que les moyennes de ces deux populations sont inconnues.

Le problème est donc de comparer σ12 et σ2

2, à partir des données obtenues sur les deux échantillons. Pour cela, on calcule, à partir de ces données, la variance de chacun des deux échantillons; elles sont notées respectivement s1

2 et s22 .

Si on note S12 ( respectivement S2

2 ) la variable aléatoire qui à chaque échantillon issu de la population P1 (respectivement P2) de taille n1 ( respectivement n2 ) la variance de cet échantillon,

alors, on sait que la distribution de probabilité de la variable aléatoire n S1 1

2

12σ

(respectivement

n S2 22

22σ

) est une distribution du χ2 à n1 - 1 degrés de liberté (respectivement n2-1 degrés de liberté)

; cela est lié au caractère EAS de chacun des échantillons.

Page 21: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 20 Contact : Conf [email protected]

De plus ces deux variables aléatoires sont indépendantes, cela est du au fait que les echantillons ont été prélevés indépendament l’un de l’autre (le I de EASI).

Par suite, la variable aléatoire F égale à

n S

n

n S

n

1 12

1 12

2 22

2 22

1

1

( )

( )

σ

σ

est distribuée selon une loi de FISHER-

SNEDECOR à n1-1 et n2-1 degrés de liberté.

Sous l’hypothèse «σ12 = σ2

2 » est vraie, alors F s'écrit

n Sn

n Sn

1 12

1

2 22

2

1

1

( )

( )

soit aussi SS

12

22 ; ce dernier

rapport peut être interprété comme le rapport des deux estimateurs de σ12 et σ2

2 . De plus, sous cette hypothèse, ce rapport ne doit pas être trop différent de 1 ; soit plus grand que 1, soit plus petit que 1. Par nature, le test F d'égalité de deux variances est un test bilatéral.

La variable de décision sera la variable F. On calcule Fobs , Fobs =

n sn

n sn

1 12

1

2 22

2

1

1

( )

( )

.

Pour un risque α choisi, on rejette l’hypothèse ( d'égalités des deux variances ) si F Fobs ≤ α

2

ou si F Fobs ≥−1

2α .

Fα2

et F1

2−α sont lus dans les tables de la distribution de FISHER-SNEDECOR à k1 et k2

degrés de liberté ; k1 est le nombre de degrés de liberté du numérateur et k2 est le nombre de degrés de liberté du dénominateur. Ici on a k1 = n1-1 et k2 = n2-1 REMARQUES COMPLEMENTAIRES : 1°) Historiquement, les tables des distributions F n'ont été établies que pour des valeurs supérieures à 1. Par suite, dans la pratique, on calcule le Fobs en prenant pour numérateur la plus grande des

deux quantités n s

n1 1

2

1 1( )− et

n sn

1 22

1 1( )− et l'autre pour dénominateur.

Dans ce cas, on rejette l’hypothèse d'égalité des deux variances si F Fobs ≥−1

2α .

Il convient donc d'être très attentif aux tables utilisées (certaines étant qualifiées d'unilatérales, d'autres de bilatérales, d'autres ne portant aucune mention). De même, lors de l'utilisation d'un logiciel il faudra être attentif à la valeur renvoyée (EXCEL en particulier).

Page 22: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 21 Contact : Conf [email protected]

Des compléments, sur cette première remarque, seront publiés ultérieurement.

2°) Quelques simplifications d'écriture : on peut remarquer que Fobs peut aussi s'écrire Fobs = ss12

22 .

De plus, dans le cas où n1 = n2 l'écriture du Fobs se simplifie, Fobs = s

s12

22

3°) Ce test de comparaison de deux variances ne doit pas être confondu avec le test F utilisé en analyse de la variance qui lui est un test unilatéral.

4°) Prenons un exemple, supposons que n1 = 9, n2 = 7 et que s12 = 280 et s2

2 = 54. On a alors Fobs = 5. Pour un risque choisi de 0,05, dans la table à 8 et 6 degrés de liberté le F théorique (F0,975) est de 5,60. On est conduit à ne pas rejeter l'hypothèse d'égalité des variances des deux populations. Si comme on le voit parfois, on avait choisit le F0.95, qui est de 4,15, on aurait rejeté l'hypothèse d'égalité. REFENCES : [1] DAGNELIE P. Théorie et méthodes statistiques P.A. de Gembloux 1973 T2 p 50 et 51 [2] SNEDECOR G. W. et COCHRAN W. G. Méthodes statistiques 1971 p 128 à 130

Page 23: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 22 Contact : Conf [email protected]

LE COIN DU DEBUTANT TIGE et FEUILLE ou encore STEM and LEAF En 1977, dans son ouvrage Exploratory Data Analysis, John W. TUKEY a indiqué une méthode pour organiser ou représenter un ensemble de données numériques qu’il a appelée STEM and LEAF et que l’on traduit en Français par TIGE et FEUILLE. Il s’agit d’une disposition originale des données numériques qui peut être utilisée pour - dépouiller ces données, - archiver ces données, - donner une représentation semi-graphique de ces données. Expliquons la méthode sur un exemple : Soit l’ensemble de données suivant qui représente l’ensemble des tailles, en cm, des élèves d’une classe de BTSA : 145 172 161 170 155 161 161 175 155 158 156 156 197 178 175 165 160 178 154 168 173 183 161 165 170 181 172 167 170 169 Nous allons ranger ces nombres en 2 temps : 1°) - chaque nombre est décomposé en 2 parties : 145 ------> 14 et 5 partie principale feuille - on range sur une même ligne (appelée TIGE) tous les nombres ayant la même partie principale (starting part). La partie principale est inscrite une seule fois en début de ligne, les feuilles sont inscrites au fur et à mesure du dépouillement. On obtient ainsi :

14* 5 15* 5 5 8 6 6 4 16* 1 1 1 5 0 8 1 5 7 9 17* 2 0 5 8 5 8 3 0 2 0 18* 3 1 19* 7

- on sépare les parties principales des feuilles par une ligne verticale.

Page 24: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 23 Contact : Conf [email protected]

2°) On reécrit le tableau en rangeant, sur chaque tige, les feuilles dans l’ordre croissant, d’où la disposition finale :

14* 5 15* 4 5 5 6 6 8 16* 0 1 1 1 1 5 5 7 8 9 17* 0 0 0 2 2 3 5 5 8 8 18* 1 3 19* 7

On remarque que l’on obtient ainsi une sorte de diagramme en bâtons horizontal de la série statistique. Avantages du TIGE et FEUILLE : * C’est une méthode pratique, simple et efficace pour réaliser un dépouillement en ordonnant les données. * Cette méthode donne rapidement, et sans outil de dessin, un aperçu graphique d’une série statistique sans perte d’information sur les valeurs numériques. * Cette méthode permet d’obtenir facilement les quartiles d’une série statistique : Médiane : la série précédente comporte 30 valeurs, la médiane est donc la demi somme des valeurs des 15ème et 16ème individus, ces valeurs étant rangées dans l’ordre croissant. Il suffit donc de compter, à partir du haut du tige et feuille, les 15ème et 16ème feuilles sont 7 et 8 sur la tige 16 d’où la médiane me = 167,5 cm Quartiles d’ordre 1 et 3 : il suffit de compter 8 feuilles à partie du haut du tige et feuille Q1 = 160 cm et 8 feuille à partir du bas du tige et feuille Q2 = 173 cm * Cette méthode peut être utilisée pour comparer visuellement deux séries statistiques : dans la série précédente, les 12 premières valeurs correspondent aux tailles des filles de la classe, les autres valeurs correspondent, bien sûr, aux tailles des garçons. On peut construire le double TIGE et FEUILLE suivant :

5 14* 8 6 6 5 5 15* 4

1 1 1 16* 0 1 5 5 7 8 9 5 2 0 17* 0 0 2 3 5 8 9

18* 1 3 19* 7

Remarques : * Il existe plusieurs variantes du TIGE et FEUILLE selon l’ordre de grandeur des données à traiter ainsi que la plus ou moins grande dispersion des données : par exemple, si l’on a la série suivante :

Page 25: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 24 Contact : Conf [email protected]

1453 1128 937 472 1175 1017 1215 1183 1036 1260 1151 1238 1189 1310 1247 on prendra des feuilles à 2 chiffres :

4** 72, 5** 6** 7** 8** 9** 37, 10** 17, 36, 11** 28, 51, 75, 83, 89, 12** 15, 38, 47, 60, 13** 10, 14** 53,

On constate que la valeur 472 se « détache » du reste de la série. On peut aussi arrondir à la dizaine tous les nombres et représenter alors le nombre de dizaines (ce qui revient à changer d’unité). Il y a dans ce cas une légère perte d’information :

4* 7 unité 10 5* 6* 7* 8* 9* 4 10* 2 4 11* 3 5 7 8 9 12* 1 4 5 6 13* 1 14* 5

* On peut rajouter sur le diagramme certains renseignements statistiques : - les effectifs cumulés croissants, - une marque indiquant la classe qui contient la médiane, - un résumé en 5 nombres de la série statistique.

Page 26: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 25 Contact : Conf [email protected]

1 14* 5 7 15* 4 5 5 6 6 8 (17) 16* 0 1 1 1 1 5 5 7 8 9 167,5 27 17* 0 0 0 2 2 3 5 5 8 8 160 173 29 18* 1 3 145 197 30 19* 7

premier quartile médiane troisième quartile parenthèses indiquant la tige contenant la médiane minimum maximum Ce résumé en 5 nombres permet de faire une représentation graphique de la série appelée Boîte à moustaches, imaginée toujours par le même TUKEY dans son ouvrage cité en début d’article. Nous verrons ces boîtes dans le bulletin n° 4, à suivre... REFERENCES : - Exploratory Data Analysis John W. TUKEY - Les certitudes du hasard Arthur. ENGEL ALEAS Editeur

Page 27: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 26 Contact : Conf [email protected]

CAPESA interne session 1996 Proposition de corrigé de l'exercice 2 Partie A Soit X la variable aléatoire "masse d'un élément de la fabrication". La loi de probabilité de X est la loi normale N( ; )μ σ donc la loi de probabilité de la variable X est la loi normale

N( ; )μσn

et la loi de probabilité de la variable U X

n

=− μσ

est la loi normale centrée réduite

N( ; )0 1 . La représentation graphique de la densité de la loi de probabilité de X , présentée à la fin du corrigé, permet de représenter les probabilités données :

prob( , ) , ; ( , ) ,X prob X> = < =252 8 0 1587 244 4 0 0228 Notons Φ la fonction de répartition de U. 1°) Les systèmes suivants sont équivalents :

prob X

prob X

( , ) ,

( , ) ,

> =

< =

⎨⎪

⎩⎪

252 8 0 1587

244 4 0 0228

;

prob X

prob X

( , ) ,

( , ) ,

≤ =

< =

⎨⎪

⎩⎪

252 8 0 8413

244 4 0 0228

prob U

n

prob U

n

≤−

⎜⎜⎜⎜

⎟⎟⎟⎟=

<−

⎜⎜⎜⎜

⎟⎟⎟⎟=

⎪⎪⎪⎪

⎪⎪⎪⎪

252 8 0 8413

244 4 0 0228

, ,

, ,

μσ

μσ

;

Φ Φ

Φ Φ

252 8 1

244 4 2

, ( )

, ( )

−⎛

⎜⎜⎜⎜

⎟⎟⎟⎟=

−⎛

⎜⎜⎜⎜

⎟⎟⎟⎟= −

⎪⎪⎪⎪

⎪⎪⎪⎪

μσ

μσ

n

n

252 8 1

244 4 2

,

,

−=

−=−

⎪⎪⎪

⎪⎪⎪

μσ

μσ

n

n

; μ

σ

μσ

+ =

− =

⎨⎪⎪

⎩⎪⎪

n

n

252 8

2 244 4

,

, ;

μσ=

=

⎧⎨⎪

⎩⎪

250

2 8n

,

2°) Pour μ = 250 et n = 25, on obtient σ = 14. Partie B

Page 28: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 27 Contact : Conf [email protected]

La loi de probabilité de la variable X est la loi normale N( ; )μ1516

donc la loi de probabilité

de la variable U X=

− μ1516

est la loi normale N( ; )0 1 .

1°) Il s’agit de calculer le risque de première espèce, c’est-à-dire la probabilité

[ ]prob (X 245,8) (X 260,2< ∪ > ) , dont une représentation graphique est présentée à la fin

du corrigé. Notons α cette probabilité. Sous l'hypothèse " μ = 253 ", la loi de probabilité de la variable X est la loi normale

N( ; )253 1516

donc la loi de probabilité de la variable U X=

− 2531516

est la loi normale

N( ; )0 1 .

( )

( )

1

1 245 8 2533 75

260 2 2533 75

1 1 92 1 921 2 1 92 1 2 0 9726 1

0 0548

− = ≤ ≤

− =−

≤ ≤−⎛

⎝⎜⎞⎠⎟

− = − ≤ ≤

− = × − = × −=

α

α

α

αα

prob

prob

prob

245,8 X 260,2

U

U

,,

,,

, ,( , ) ,

Le seuil de décision est 0,0548. 2°) Il s’agit de calculer la probabilité ( )prob 245,8 X 260,2≤ ≤ , c’est-à-dire le risque de

seconde espèce, noté β, dont une représentation graphique est présentée à la fin du corrigé . Sous l'hypothèse " μ = 263 ", la loi de probabilité de la variable X est la loi normale

N( ; )263 1516

donc la loi de probabilité de la variable U X=

− 2631516

est la loi normale

N( ; )0 1 .

( )

( )

β

β

β

ββ

= ≤ ≤

=−

≤ ≤−⎛

⎝⎜⎞⎠⎟

= − ≤ ≤ −

= −=

prob

prob

prob

245,8 X 260,2

U

U

245 8 2633 75

260 2 2633 75

4 59 0 754 59 0 75

0 2266

,,

,,

, ,( , ) ( , )

,Φ Φ

Page 29: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 28 Contact : Conf [email protected]

La probabilité de décider que la moyenne de la fabrication est égale à 253 alors qu'elle est égale à 263 est 0,2266. 3°) Soit n la taille que doit avoir l’échantillon pour que le seuil de décision soit de 0,01. Sous l'hypothèse "μ = 253", la loi de probabilité de la variable X est la loi normale

N( ; )253 15n

donc la loi de probabilité de la variable U X

n

=− 25315 est la loi normale

N( ; )0 1 . La représentation graphique du seuil de décision 0,01 est présentée à la fin du corrigé.

( )

( )

1 0 01 0 99

0 99 245 8 25315

260 2 25315

0 99 0 48 0 48

0 99 2 0 48 1

0 48 0 995 2 58 0 995

0 48 2 58 28 89

− = = ≤ ≤

=−

≤ ≤−

⎜⎜⎜⎜

⎟⎟⎟⎟

= − ≤ ≤

= × −

= =

= =

, ,

, , ,

, , ,

, ( , )

' ( , ) , ( , ) ,

, , ,

prob

prob

n n

prob n n

n

d où n or

donc n et n

245,8 X 260,2

U

U

Φ

Φ Φ

Les fonctions Φ et "Racine carrée" étant croissantes, Φ Φ( , ) , ( , ) ,0 48 28 0 995 0 48 29 0 995< >et

L'entier n est donc égal à 29. Pour que le seuil de la décision soit de 0,01 la taille de l'échantillon à prélever doit être égale à 29.

Page 30: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)
Page 31: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 29 Contact : Conf [email protected]

COURRIER Peu de courrier depuis le numéro2, certainement le surmenage dû au troisième trimestre. Cependant, l’équipe de rédaction et plus particulièrement les personnes chargées du courrier des lecteurs commencent à se désespérer de ce "silence radio" ; nous aimerions avoir davantage de réactions à nos écrits, aussi bien hostiles qu’approbatrices, le pire étant l’absence de réaction. Nous espérons que vous allez profiter nombreux des vacances pour fourbir vos stylos et nous souhaitons crouler sous vos lettres à la rentrée1. En réponse à Mlle PERRET, un article sur le Tige et Feuille figure dans "Le coin du débutant" ; dans le numéro 4 la suite de cet article traitera des Boîtes à Moustaches. Dans le bulletin 4 également une réponse concernant tests et intervalles de confiance. Pour ce numéro 3 une proposition de M. Jacques TEXIER du LEGTA de VENOURS. C’est une séance de Travaux Dirigés qu’il a effectuée avec une classe de BTSA ACSE. Nous le remercions pour son envoi très intéressant, imitez-le !, envoyez-nous vos idées nous les publierons.

ECHANTILLONNAGE, ESTIMATION PONCTUELLE ET INTERVALLE DE CONFIANCE

Jacques TEXIER LEGTA de VENOURS

Séance de deux heures de travaux dirigés effectuée en classe entière en BTSA ACSE. But : Echantillonnage d’une population. Estimation ponctuelle d’un pourcentage. Intervalle de confiance d’un pourcentage. Idée : Faire estimer un pourcentage, en faire calculer un intervalle de confiance et faire comprendre ce que peut signifier "au seuil de 95%". Ne pas utiliser une boîte noire (ordinateur ou calculatrice) dont on peut suspecter les résultats. Procédure : La population étudiée est l’ensemble des lettres du texte donné en Annexe 2. Le caractère étudié est la fréquence d’une lettre qui est précisée au début des calculs d’estimation et d’intervalle de confiance. Déroulement : 1 Ecrivez à Jean FAGES ENFA B.P. 87 31326 CASTANET TOLOSAN cedex ou Jean Marie PARNAUDEAU LEGTA de POITIERS VENOURS "Xavier Bernard" 86480 ROUILLE

Page 32: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 30 Contact : Conf [email protected]

Le texte comporte 1290 lettres (seules les lettres sont comptées). Tous les élèves sont munis d’une table de nombres au hasard dont un extrait est donné en Annexe 1. Ils doivent tous en extraire 30 nombres compris entre 1 et 1290. Un nombre peut apparaître plusieurs fois (tirage avec remise) et, pour éviter des erreurs de calculs, les nombres supérieurs à 1290 sont rejetés. On aurait pu décider, pour avoir moins de "déchets", que 1291 correspond à 1 et ainsi de suite. Les élèves repèrent ensuite dans le texte les 30 lettres correspondant aux nombres qu’ils ont obtenus. Chaque élève reporte ses résultats sur une feuille numérotée de 1 à n (nombre d’élèves). Pour obtenir des échantillons de taille plus grande, les feuilles sont regroupées 2 par 2 par tirage au sort. On obtient ainsi, pour une classe de 30 élèves, 30 échantillons de taille 60 numérotés de 1 à 15. La lettre dont on veut estimer la fréquence est alors donnée (choisir une lettre dont la fréquence est supérieure à 0,1). Ici c’est la lettre «e» qui est choisie, é, è, ê sont comptées pour «e». Les résultats obtenus pour les différents échantillons sont rapidement comptabilisés et inscrits au tableau pour l’ensemble de la classe. Exploitation des résultats : Chaque élève doit compléter l’Annexe 3 à partir des résultats inscrits au tableau. Chaque élève doit, pour chaque échantillon, donner l’estimation ponctuelle, déterminer l’intervalle de confiance au seuil de 95% et représenter chacun des intervalles sur le graphique. Le pourcentage de «e» est enfin donné et doit être reporté sur le graphique. Le pourcentage réel de «e» dans ce texte est 16,6% (214/1290). Conclusion : Il est intéressant de remarquer dans ces résultats (mais cela n’est pas très important en ce sens que même si l’on avait 2 ou 3 ou aucun intervalle ne contenant pas le pourcentage réel, la conclusion est tout aussi facile à faire passer) qu’un seul intervalle ne contient pas le pourcentage réel. Un intervalle sur 15 c’est-à-dire 6,67%, le lien avec le risque 5% est alors très facile à faire comprendre. Annexe 1 Extrait de la table de nombres au hasard utilisée 02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08 00 47 85 76 34 51 40 44 62 93 65 99 72 64 09 34 01 13 09 74 90 65 00 88 96 79 38 24 77 00 70 91 47 43 43 82 71 67 49 90 37 09 64 29 81 85 50 47 36 50 91 19 09 15 98 75 60 58 33 15 51 44 94 03 80 04 21 49 54 91 77 85 00 45 68 23 12 94 23 44 36 88 42 28 52 73 06 41 37 47 47 31 52 99 89 82 22 81 86 55 99 09 09 27 52 72 49 11 30 93 33 29 54 17 54 48 47 42 04 79 18 64 54 68 64 07 85 32 05 96 54 79 57 43 96 97 30 72 12 19 41 70 .......... Annexe 2

Page 33: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 31 Contact : Conf [email protected]

Le texte suivant est extrait du livre de George W. Snedecor et William G. Cochran. (Chapitre 1 pages 16 et 17)

ligne caractères

1 2 5

10

15

20

1

27 87 149 207 233 287 348 407 452 501 564 626 690 754 812 850 903 971 1034 1091 1139 1198 1259

La population échantillonnée. Nous avons déjà appris que si nous souhaitons obtenir des

informations concernant une population trop grande pour être complètement étudiée, on peut en tirer au hasard un échantillon et construire les estimations ponctuelles et par intervalle.

Cette technique, qui consiste à tirer des conclusions à partir de l’échantillon et à les appliquer à la population est le principal outil de l’analyse des données. Les données, bien sûr, représentent l’échantillon, mais le concept de population demande qu’on y revienne.

Pour de nombreux travaux on a collecté des données dans une population parfaitement définie, bien qu’il puisse y avoir des problèmes de définition: les malades d’un hôpital un jour particulier, les recettes d’une société pendant le précédent exercice, etc.. Dans de tels cas le chercheur tire un simple échantillon aléatoire, ou utilise des méthodes d’échantillonnage plus élaborées qui sont présentés au chapitre 17, et fait ses déductions directement de l’échantillon à la population.

Dans les échantillonnages de population humaine, cependant, la population réellement échantillonnée peut être plus étroite que la population d’origine car on ne trouve pas certaines que l’on avait échantillonnés, elles sont malades, ou elles refusent de répondre aux questions posées. Des absences de réponses de ce genre, de 5 à 10% de l’échantillon, sont courantes. La population à laquelle on peut appliquer les conclusions statistiques est l’ensemble des personnes qui auraient répondu si elles avaient été tirées dans l’échantillon.

149 signifie que la lettre p située au début de la 4 ième ligne de ce texte est la 149 ième lettre du texte. Seules les lettres sont comptées. Le texte comporte 1290 lettres. Annexe 3 Pourcentage de la lettre «e» obtenu dans les différents échantillons. Le tirage des lettres a été effectué en utilisant une table de nombres au hasard. Tous les échantillons sont de taille 60. n° des résultats estimation estimation par échantillons nombre ponctuelle en intervalle de

Page 34: EDITORIAL - Air de Math (ENSFEA)r2math.ensfea.fr/wp-content/uploads/sites/8/2010/07/GRES-B3.pdf · estimation (valeur d’un estimateur sur un échantillon) et paramètre (à estimer)

ENFA - Bulletin du GRES n°3 –juin 1996 page 32 Contact : Conf [email protected]

d’occurences pourcentage confiance 1 10 16,67 [7,2 ; 26,1] 2 9 15 [6,0 ; 24,0] 3 10 16,67 [7,2 ; 26,1] 4 11 18,33 [8,5 ; 28,1] 5 17 28,33 [16,9; 39,7] 6 9 15 [6,0 ; 24,0] 7 11 18,33 [8,6 ; 28,1] 8 12 20 [9,9 ; 30,1] 9 10 16,67 [7,3 ; 26,1] 10 13 21,66 [11,2; 32,1] 11 9 15 [6,0 ; 24,0] 12 14 23,33 [12,6; 34,1] 13 6 10 [2,4 ; 17,6] 14 8 13,33 [4,7 ; 22,0] 15 10 16,67 [7,2 ; 26,1]

occurrences en pourcentage