Intervalle de fluctuation Intervalle de confiance · 2013-06-02 · Les différences entre S et ST...

Post on 31-May-2020

3 views 1 download

Transcript of Intervalle de fluctuation Intervalle de confiance · 2013-06-02 · Les différences entre S et ST...

Lequel utiliser ?

Pourquoi ?

Intervalle de fluctuation

Intervalle de confiance

1

Des questions qui se posent

Q1: Dans un pays, 10 % des plages étaient atteintes par des algues toxiques. On a modifié le

processus de rejets chimiques : on admet que le nouveau processus de rejet, très différent du précédent, pourrait modifier cette proportion.

On prend un échantillon aléatoire de 150 prélèvements, on constate que 18 présentent

des traces d’algues toxiques. Peut-on penser que le nouveau traitement a un impact sur le pourcentage de plages polluées ?

Pour toutes les questions :

Est-ce au programme ?

Quels sont les outils qui vont permettre de répondre à ces questions ?

2

Q2: Partie 1

Pour analyser l’effet d’un polluant sur l’environnement, on procède par prélèvement

aléatoire d’échantillons (randomisation des surfaces).

On tire un échantillon de taille 100 et on constate que 11 parcelles présentent des traces de

polluant.

Le service communication se réjouit et affirme que la proportion de 12 % n’est pas

atteinte.

Une association s’élève en faux et affirme au contraire qu’on peut penser que l’hypothèse

de 17 % qu’elle avance depuis longtemps n’est pas contredite.

3

Partie 2

Sous la pression des habitants, la municipalité demande au service statistique de définir

une procédure permettant d’affirmer :

- qu’on peut raisonnablement penser que la proportion de parcelles polluées est 12%

- que penser que cette proportion de 17% est déraisonnable

Que proposez vous?

4

Q3 :

Un industriel fabrique des smartphones.

Pour contrôler la qualité de la production, il en teste 200 : 92% fonctionnent

correctement. Que peut-on conclure pour l’ensemble de la production?

Durant 6 mois, l’entreprise de smartphones travaille à améliorer la qualité de sa

production.

Un nouvel échantillon de 200 smartphones est prélevé : 97% fonctionnent correctement.

Est-il raisonnable de penser que la production s’est améliorée?

5

Q4 :

La proportion d’ampoules à économie d’énergie non-conformes dans la production

d’une entreprise est p = 0,07.

L’entreprise souhaite fournir des lots d’ampoules pour lesquels elle puisse «garantir»

qu’environ 95% d’entre eux ont une fréquence d’ampoules non-conformes entre 0,06

et 0,08.

Quelle est la taille du lot à prendre pour répondre à cette contrainte?

6

Intervalles de fluctuation

Dans une population un caractère est présent dans une proportion p.

A chaque échantillon (avec remise) de taille n, on associe la

fréquence de ce caractère dans l’échantillon. On définit ainsi une

variable aléatoire Fn.

Définir un intervalle de fluctuation de Fn au seuil 𝟏 − 𝜶,

c’est déterminer un intervalle In tel que 𝑷 𝑭𝒏 ∈ 𝑰𝒏 ≥ 𝟏 − 𝜶

Remarque : on choisit souvent 𝛼 = 5%

7

En classe de seconde

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

fréq

uen

ces o

bserv

ées

valeurs de p

intervalles de fluctuation à 95% pour n = 50

approché

approché

𝐼𝑛 = 𝑝 −1

𝑛, 𝑝 +

1

𝑛≈ 0,4586 ; 0,7414

8

En classe de première

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

fréq

uen

ces o

bserv

ées

valeurs de p

intervalles de fluctuation à 95% pour n = 50

exact

exact

𝐼𝑛 =𝑎

𝑛,

𝑏

𝑛=

23

50,

36

50= 0,46 ; 0,72

9

En classe de terminale

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

fréq

uen

ces o

bserv

ées

valeurs de p

intervalles de fluctuation à 95% pour n = 50

asymptotique

asymptotique

𝐼𝑛 = 𝑝 − 1,96𝑝 1 − 𝑝

𝑛, 𝑝 + 1,96

𝑝 1 − 𝑝

𝑛

10

𝐼𝑛 ≈ 0,4642 ; 0,7358

De la seconde à la terminale

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

fréq

uen

ces o

bserv

ées

valeurs de p

intervalles de fluctuation à 95% pour n = 50

exact

exact

approché

approché

asymptotique

asymptotique

11

L’effet de la taille des échantillons sur les approximations

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Fré

quence

f o

bserv

ée

Proportion p dans la population

Intervalle de fluctuation à 95 % pour des échantillons de taille 30

a/n

b/n

p -1/rac(30)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Fré

quence

f o

bserv

ée

Proportion p dans la population

Intervalle de fluctuation à 95 % pour des échantillons de taille 100

a/n

b/n

p -1/rac(100)

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Fré

quence

f o

bserv

ée

Proportion p dans la population

Intervalle de fluctuation à 95 % pour des échantillons de taille 1 000

a/n

b/n

p -1/rac(1000)

12

L’intervalle de fluctuation

Intervalle de fluctuation = prise de décision sur la qualité d’un

échantillon

Population

Proportion p

Echantillon

Fréquence Fn

p connu

IF

13

Intervalle de fluctuation = prise de décision (confirmation ou non de

la supposition)

Population

Proportion p

Echantillon

Fréquence Fn

p supposé

IF

L’intervalle de fluctuation

14

Population

Proportion p

Echantillon

Fréquence Fn

p inconnu

IC

Intervalle de confiance = estimation de p

Les intervalles de confiance

15

Intervalle de fluctuation = prise de décision

Population

Proportion p

Echantillon

Fréquence Fn

p connu ou supposé

p inconnu

IF

IC

Intervalle de confiance = estimation

Deux intervalles pour deux problématiques

16

La problématique des intervalles de fluctuation et de confiance

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

fréq

uen

ces o

bserv

ées

valeurs de p

intervalles de fluctuation à 95% pour n = 50

asymptotique

asymptotique

IC

IF

17

Les différences entre S et ST

Intervalle de fluctuation

(p connu ou supposé)

Intervalle de confiance

niveau de confiance 95% (f observé)

2nde Conditions: n ≥25 et 0,2 ≤ p ≤ 0,8

seuil de 95 %

Forme:

Sensibilisation

1ère Conditions : aucune.

Forme obtenue à l’aide de la loi binomiale :

IF exact

Term

Conditions: n ≥ 30, np ≥ 5 et n (1 - p) ≥ 5.

IF asymptotique

Forme:

Seuil 1- α

Forme:

Seuil 95%

Conditions: n ≥ 30, np ≥ 5 et n(1- p) ≥ 5.

Forme:

Forme :

n

ppup

n

ppup

)1(,

)1(

nf

nf

1,

1

n

ppp

n

ppp

)1(96,1,

)1(96,1

n

fff

n

fff

)1(96,1,

)1(96,1

np

np

1,

1

S

ST

S ES

ES ST 18

Une différence entre S et ST

Quand , n ≥ 30, np ≥ 5 et n(1- p) ≥ 5 il est courant de faire les calculs impliquant une variable binomiale en la remplaçant par une variable suivant une loi normale de mêmes espérance et variance.

Seul le programme de STI2D-STL mentionne cette pratique, qui ne doit donc pas être mise en œuvre dans les autres filières où tous les calculs de probabilités se font à la calculatrice en utilisant la loi exacte (au programme), quelle qu’elle soit.

(document ressource page 21)

19

Revenons aux exemples

20

L’utilisation classique de l’intervalle de fluctuation:

rejet ou non d’une hypothèse sur une proportion

Q1:

Dans un pays, 10% des plages étaient atteintes par des algues toxiques. On a modifié le processus de rejets chimiques : on admet que le nouveau processus de rejet, très différent du précédent, pourrait modifier cette proportion.

On prend un échantillon aléatoire de 150 prélèvements, on constate que 18 présentent des traces d’algues toxiques. Peut-on penser que le nouveau traitement a un impact sur le pourcentage de plages polluées ?

21

Réponse

1) On fait l’hypothèse que la proportion de plages polluées après la mise en œuvre

du procédé est p = 10%

2) On considère l’échantillon de n = 150 plages et on détermine la fréquence de

plages polluées : f = 18/150 = 0,12

3) On détermine l’intervalle de fluctuation I au seuil de 95% correspondant à n, p :

4) On prend une décision : f = 18/150 appartient à 0,047 ; 0,153

On en déduit qu’au seuil de 95% on ne rejette pas l’hypothèse que p = 10% ; le

hasard seul peut expliquer la différence entre les valeurs 10% de p et 12% de f

0,1 − 1,960,1×0,9

150; 0,1 +1,96

0,1×0,9

150= 0,047 ; 0,153

22

Q2: Partie 1

Pour analyser l’effet d’un polluant sur l’environnement, on procède par prélèvement

aléatoire d’échantillons (randomisation des surfaces).

On tire un échantillon de taille 100 et on constate que 11 parcelles présentent des

traces de polluant.

Le service communication se réjouit et affirme que la proportion maximale de 12 %

n’est pas atteinte.

Une association s’élève en faux et affirme au contraire qu’on peut penser que

l’hypothèse de 17 % qu’elle avance depuis longtemps n’est pas contredite.

23

Si p = 0,12 Si p = 0,17

Les intervalles de fluctuations asymptotiques : Utilisation des formules

𝑝 − 1,96𝑝 × 1 − 𝑝

𝑛; 𝑝 +1,96

𝑝 × (1 − 𝑝)

𝑛

[ 0,056 ; 0,183] pour p=0,12 [ 0,096 ; 0;243] pour p=0,17

24

Les intervalles de fluctuations asymptotiques :

[ 0,056 ; 0,184] pour p=0,12 [ 0,096 ; 0,245] pour p=0,17

ST

S

Si p = 0,12 Si p = 0,17

Les intervalles de fluctuations exacts :

f = 0,11 est dans les deux intervalles de fluctuation exacts :

[ 0,06 ; 0,18] pour p=0,12 [ 0,10 ; 0;24] pour p=0,17

Avec f = 0,11 l’intervalle de confiance de p au niveau 95% est :

[ 0,01 ; 0;21] en TS

[ 0,048 ; 0,172] en TSTI/TSTL 25

Une remarque :

dans un débat contradictoire, on définit et propose le protocole

aux deux parties avant la prise d’information

Pas de conclusion possible…

26

Partie 2

Sous la pression des habitants, la municipalité demande au service statistique de définir

une procédure permettant de penser :

- qu’on peut raisonnablement penser que la proportion de parcelles polluées est 12%

- Que penser à une proportion de 17% est déraisonnable

Que proposez vous?

27

On propose de déterminer n tels que les deux intervalles de fluctuations soient disjoints

𝑝1 − 1,96𝑝1(1−𝑝1)

𝑛 𝑝1+1,96

𝑝1(1−𝑝1)

𝑛 𝑝2 − 1,96

𝑝2(1−𝑝2)

𝑛 𝑝2 + 1,96

𝑝2(1−𝑝2)

𝑛

Ce qui se traduit par 𝑝1 + 1,96𝑝1(1−𝑝1)

𝑛≤ 𝑝2 − 1,96

𝑝2(1−𝑝2)

𝑛

Ce qui donne avec 𝑝1 = 0,12 et 𝑝2 = 0,17 , 𝑛 > 754

Ce n’est pas la procédure la « moins coûteuse », mais toute autre ne relève

pas du programme de la classe terminale

28

Q4 : la proportion d’ampoules à économie d’énergie non-conformes dans la production d’une entreprise est p = 0,07. L’entreprise souhaite fournir des lots d’ampoules pour lesquels elle puisse «garantir» qu’environ 95% d’entre eux ont une fréquence d’ampoules non-conformes entre 0,06 et 0,08.

Quelle taille du lot à prendre pour répondre à cette contrainte?

29

Traduction : Si on note Fn la variable qui à un lot de n ampoules associe la fréquence d’ampoules défectueuses, on va chercher un intervalle In autour de 0,07 tel que p( Fn appartient à In) ≥ 0,95 L’intervalle de fluctuation à 95% répond à la question On cherche n tel que Ln ≤ 0,02 où Ln est la longueur de l’intervalle de fluctuation au seuil de 95%

soit, : avec p = 0,07

D’où n ≥ 2501 Un conditionnement par lot d’au moins 2501 ampoules convient

0,06511,96 0,01

(1,96)² 0,0651d'où

(0,01)²

n

n

30

Une première utilisation:

l’estimation d’une proportion inconnue

Q3 : Un industriel fabrique des smartphones. Pour contrôler la qualité de la production, il en teste 200 : 92% fonctionnent correctement. Qu’en conclure sur l’ensemble de la production?

31

Ici: n = 200 et f = 0,92.

On détermine l’intervalle de confiance au niveau de confiance de 95%:

[0,882 ; 0,958].

On conclut que la probabilité que p soit dans [0,882 ; 0,958] est au moins égale à 0,95:

NON !

p est un réel fixe qui est ou qui n’est pas dans [0,882 ; 0,958]: il n’y a pas d’aléatoire ici.

On conclut qu’à partir de cet échantillon de 200 smartphones, la proportion de smartphones fonctionnant correctement sur l’ensemble de la production est dans l’intervalle [0,882 ; 0,958] au niveau de confiance de 95%.

32

33

Intervalle de confiance et probabilité :

- il n’y a pas un intervalle de confiance, mais autant que de valeurs obtenues de la

fréquence f

S

ST

- la probabilité n’est pas dans le résultat mais dans la démarche :

si on note 𝐹𝑛 la variable aléatoire fréquence définie sur chaque

échantillon, on a pour 𝑛 assez grand :

𝑃(𝑝 ∈ 𝐹𝑛 −1

𝑛; 𝐹𝑛 +

1

𝑛) ≥ 0,95

Ou mieux :

𝑃(𝑝 ∈ 𝐹𝑛 − 1,96𝐹𝑛 1 − 𝐹𝑛

𝑛; 𝐹𝑛 + 1,96

𝐹𝑛 1 − 𝐹𝑛

𝑛) ≥ 0,95

Une seconde utilisation : la notion de différence significative

Durant 6 mois, l’entreprise de smartphones travaille à améliorer la

qualité de sa production. Un nouvel échantillon de 200 smartphones

est prélevé: 97% fonctionnent correctement. Est-il raisonnable de

penser que la production s’est améliorée?

ST

34

Avant « amélioration » :

n=200 et f=0,92.

Intervalle de confiance à 95% : [0,882 ; 0,958].

Après « amélioration » :

n=200 et f=0,97.

Intervalle de confiance à 95% : [0,946 ; 0,994].

Conclusion:

[0,882 ; 0,958] et [0,946 ; 0,994] ne sont pas disjoints

La différence entre les deux échantillons n’est pas significative: on ne peut pas affirmer qu’il y a une évolution significative de la qualité de la production au niveau de confiance de 95%.

35

Ce que disent les programmes

ST

36

S

ES

37

S

ES

S

38

La simulation :

Pour faire comprendre les notions d’intervalle de confiance et de niveau

de confiance

39

La simulation donne du sens à la notion d’intervalle de confiance par

une visualisation graphique

ST

40

S

ES

41

Avec le tableur

42

43

simulation STI Simulation S et ES

Avec R

p = 0,45

44

Quelle exploitation de cette simulation ?

Donner du sens à la notion d’intervalle de confiance (pas d’unicité)

Mettre en évidence qu’un intervalle de confiance peut ne pas contenir p (mais pas souvent…)

Mettre en évidence que deux intervalles de confiance peuvent être disjoints (mais peu souvent…)

Les peignes

45

En conclusion

On utilise un intervalle de fluctuation :

Pour prendre une décision sur une valeur de p supposée

On utilise un intervalle de confiance :

Pour estimer une valeur de p inconnue

Pour comparer l’efficacité de deux processus

ST

46

retour sur la surréservation

47

Une compagnie aérienne dispose d'un avion de 300 places et vend n réservations.

(n supérieur à 300)

La probabilité qu’un acheteur se présente à l’embarquement est p = 0,9 et l'absence d'une

personne à l'embarquement n'influe pas sur celle d'une autre.

L'objectif est d'évaluer la probabilité de surréservation de cette compagnie, autrement dit le

risque que plus de 300 passagers se présentent à l'embarquement.

On cherche à maitriser le risque de telle façon que la probabilité de surbooking ne dépasse

pas 5%

Quelle est la valeur maximum de n?

Au moins trois moyens de traiter le problème…

48

En classe de première

Soit Xn la variable aléatoire dont la valeur est égale au nombre de

passagers se présentant à l’embarquement

Xn suit une loi binomiale de paramètres (n ; 0,9)

On cherche n tel que

Ce qui se traduit par

95,0)300( nXP

05,0)300( nXP

49

Avec un algorithme

Fichier Scilab

50

Avec GeoGebra

Recherche par essais en faisant varier le curseur et les valeurs de n

Avec le tableur

Surréservation.xls

51

En classe de terminale

52

Ce que propose le document ressource

une utilisation d’un intervalle de fluctuation asymptotique

On s’intéresse à la fréquence Xn/n On va chercher une condition moins forte :

Comme n > 300 et p = 0,9 on a np > 5 et n(1- p) > 5 on peut utiliser l’intervalle

de fluctuation asymptotique au seuil de 0,95 de Xn/n

et par conséquent P (Xn/n < 300/n) sera supérieure à 0,95 dès que (perte

d’information) [ 0, 300/n ] contiendra l’intervalle de fluctuation

In =

Ce qui se traduit par Que l’on résout et avec p = 0,9 on obtient : la valeur maximum de n est 321

n

ppp

n

ppp

)1(96,1,

)1(96,1

nn

ppp

300)1(96,1

53

Soit Xn la variable aléatoire dont la valeur est égale au nombre de passagers se

présentant à l’embarquement

Xn suit une loi binomiale de paramètres (n ; 0,9)

On cherche n tel que

Or

Ce qui est très proche de

Où Z suit une loi normale centrée réduite

)09,0

9,0300

09,0

9,0(lim)300(lim

n

n

n

nXPXP

n

nn

n

)09,0

9,0300(

n

nZP

95,0)300( nXP

Ce que permet le programme : avec le théorème central mais sans

intervalle de fluctuation

54

On remplace alors

par

ce qui se traduit par

ce qui donne

Avec un changement de variable, on obtient que la valeur maximale de n

est 323

95,0)300( nXP

64,109,0

9,0300

n

n

009,064,19,0300 nn

Recherche de la valeur 1,64

95,0)09,0

9,0300(

n

nZP

55

Pour aller plus loin :

On peut généraliser l’exemple précédent et

- pour un risque a ,

- avec une probabilité p pour chaque passager de venir à l’aéroport

- un avion de taille N assez grande,

déterminer une valeur approchée de la valeur maximale n de réservation à faire

n est alors solution de l’équation

Où T est tel que, si Z suit la loi normale centrée réduite, alors

0)1( nppTpnN

1)( TZP

56