Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas...

20
Estimation SØance 9 S.Herrmann (UBFC) Echantillonnage et estimation 1 / 20

Transcript of Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas...

Page 1: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Estimation

Séance 9

S.Herrmann (UBFC) Echantillonnage et estimation 1 / 20

Page 2: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Cas d’une proportion : estimation

Etude de casTest d’efficacité d’une méthode d’apprentissage de la lecture.Sur un échantillon de 400 élèves de CP, 320 ont obtenu des résultatssatisfaisants. Quelle est la proportion de résultats satisfaisants sur l’ensembledes élèves scolarisés en CP ?

La proportion p (fréquence) dans la pop.totale des enfants de CP (notée P) estinconnue.pe proportion observée ou expérimentale.Ici pe = 320

400 = 0, 8 soit 80%

Idée intuitive : proportion au sein de la pop.totale p ≈ 0, 8 mais en fait, il n’y a aucunechance que p = 0, 8 précisément.

Pb: autre échantillon alors autre valeur pour pe et donc autre estimation de p...

S.Herrmann (UBFC) Echantillonnage et estimation 2 / 20

Page 3: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

But: trouver un intervalle centré en 0, 8 t.q. p ait de forte chance de s’y trouver.

Forte chance: trouver l’intervalle Iα(p) tel que

P[p ∈ Iα(p)] = 1− α

où c = 1− α s’appelle la confiance et α s’appelle le risque (de se tromperlorsqu’on affirme que p ∈ Iα(p)).Valeur standard de c = 1− α est 95%Intervalle centré:

Aucune raison pour que la vraie proportion p soit plutôt inférieure quesupérieure à la valeur observée !pe sera donc le milieu de l’intervalle Iα(p)

Iα(p) =[pe − aα, pe + aα

].

Comment trouver la valeur de aα ?

S.Herrmann (UBFC) Echantillonnage et estimation 3 / 20

Page 4: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Intervalles pour la loi normale centrée réduite

Soit Z ∼ N (0, 1).Challenge : Trouver Iα centré en 0 tel que P[Z ∈ Iα] = 1− α.

Propriété de la loi normale centrée réduite

Il existe une unique valeur positive zα tel que P[−zα ≤ Z ≤ zα] = 1− α.

α représente l’aire "des bords" et la confiance c = 1− α l’aire "du milieu".

−zα zα

Aire : 1− α

Aire : α

S.Herrmann (UBFC) Echantillonnage et estimation 4 / 20

Page 5: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Cas particulier : α = 0, 05

0, 95 = P[−z0,05 ≤ Z ≤ z0,05] = F (z0,05)− F (−z0,05)

= 2F (z0,05)− 1.

Lecture inverse (table) : prendre zα avec F (zα) = 1− α/2.Pour F (z0,05) = 0, 975, on trouve z0,05 = 1, 96

–1,96 1,96

Aire : 0,05

Cas particulier : α = 0, 01

–2,576 2,576

Aire : 0,01

S.Herrmann (UBFC) Echantillonnage et estimation 5 / 20

Page 6: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Vers une procédure pour l’estimation

Cadre d’un échantillon de grande taille (n ≥ 30) uniquement, pas decorrection de continuité pour simplifier l’estimation.

Rappel (p connu): X = nPn où Pn est la proportion dans un échantillonaléatoire satisfait:

X = nPn ≈ N(np;√np(1− p)

)Ainsi

P[|p − Pn| ≤ 1, 96

√p(1− p)

n

]= P

[|np − nPn| ≤ 1, 96

√np(1− p)

]= P

[np − 1, 96

√np(1− p) ≤ nPn ≤ np + 1, 96

√np(1− p)

]= P

[− 1, 96

√np(1− p) ≤ nPn − np ≤ 1, 96

√np(1− p)

]= P

[− 1, 96 ≤ nPn − np√

np(1− p)≤ 1, 96

]= P[−1, 96 ≤ Z ≤ 1, 96] = F (1, 96)− F (−1, 96) ≈ 0, 95

S.Herrmann (UBFC) Echantillonnage et estimation 6 / 20

Page 7: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

1 Si p la fréquence au sein de la population P est connue, il y a 95% de

chance d’observer |p − Pn| ≤ 1, 96√

p(1−p)n .

2 Si p est inconnue et pe observé sur l’échantillon E , le résultat est toujoursvalide. Ainsi

|p − pe | ≤ 1, 96

√p(1− p)

n≈ 1, 96

√pe(1− pe)

n

Avec une confiance de 95%, la fréquence p se trouve dans l’intervalle

I0,05(p) =

[pe − 1, 96

√pe(1− pe)

n; pe + 1, 96

√pe(1− pe)

n

]

Pour un niveau de confiance général 1− α, il suffit de remplacer 1, 96 par zα(par ex, pour une confiance de 99% on remplace 1,96 par 2,576).

S.Herrmann (UBFC) Echantillonnage et estimation 7 / 20

Page 8: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Procédure générale pour une proportion (tirage avec remise ou N > 10× n)

Condition : n ≥ 30, npe ≥ 5 et n(1− pe) ≥ 5.

On se donne le niveau de confiance c = 1− α.1 Dans la table de la loi normale, on cherche zα tel que F (zα) = 1− α/2.

confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005zα 1, 645 1, 960 2, 054 2, 326 2, 576 2, 807

2 Calcul de aα: aα = zα

√pe(1−pe)

n

3 Avec confiance c = 1− α, on affirme que p est dans l’intervalle

Iα(p) =[pe − aα; p + aα

]

S.Herrmann (UBFC) Echantillonnage et estimation 8 / 20

Page 9: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Etude de casTest d’efficacité d’une méthode d’apprentissage de la lecture.Sur un échantillon de 400 élèves de CP, 320 ont obtenu des résultatssatisfaisants. Quelle est la proportion de résultats satisfaisants sur l’ensembledes élèves scolarisés en CP ?

1 valeur expérimentale pe =320400 = 0, 80

2 confiance c = 0, 95 (erreur de 5%). La table fournit z0,05 = 1, 96.3 marge d’estimation

a0,05 = 1, 96

√0, 80× 0, 20

400≈ 0, 0392

4 intervalle de confiance:

I0,05(p) =[0, 80−0, 0392; 0, 80+0, 0392

]=[0, 7608; 0, 8392

]≈ [76%; 84%]

5 Interprétation: avec une confiance de 95%, on affirme que la proportion(ou fréquence) des résultats satisfaisants sur l’ensemble de la population estcompris entre 76% et 84%.S.Herrmann (UBFC) Echantillonnage et estimation 9 / 20

Page 10: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Autour de la taille de l’échantillon

Étude de cas : marge ou précision del’estimation

a0,05 = 0, 0392 = 3, 92%.

L’estimation de p est précise à 3, 92%.

Pour augmenter la précision del’estimation (par exemple obtenirune précision h = 1%), il suffitd’augmenter n, mais de combien ?

Précision en général:

aα = zα ·√

pe(1−pe)n .

Taille minimale pour une précision h

avec échantillon de référence,

n > z2α

pe(1− pe)

h2

sans échantillon de référence,

n > z2α

14h2

Application à l’étude de cas:

Pour une confiance de 98% et une pré-cision h = 1%, on a la taille minimale:

–> Avec échantillon de référence

2, 3262 × 0, 80× 0, 200, 012 ≈ 8 656, 24

–> Sans échantillon de référence2, 3262

4× 0, 012 ≈ 13 525, 7

Echantillon de réf. : taille + petiteS.Herrmann (UBFC) Echantillonnage et estimation 10 / 20

Page 11: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Cas d’une moyenne : estimation

Notations :

µ : moyenne de la variable statistique X pour la pop. totale P.Mn moyenne de la variable X pour un échantillon de taille n choisi auhasard, Vn la variance et Sn =

√Vn

me , se et se : la moyenne, l’écart-type et l’écart-type corrigé observéssur un échantillon particulier.

S.Herrmann (UBFC) Echantillonnage et estimation 11 / 20

Page 12: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Principe général (échantillonnage de moyenne)

Grand échantillon.

Si n ≥ 30, alors Mn ∼ N(µ;

se√n − 1

)= N

(µ;

se√n

)

−6 −4 −2 0 2 4 60

0.1

0.2

0.3

0.4 d.d.l = 100

d.d.l = 1

d.d.l = 2d.d.l = 5 Petit échantillon.

Si n < 30 et si X suit une loinormale, alors

Tn =Mn − µ

Sn

√n − 1

∼ Student(n − 1)

Une loi de Student à (n − 1)degrés de liberté (d.d.l)

S.Herrmann (UBFC) Echantillonnage et estimation 12 / 20

Page 13: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Moyenne : grand échantillon

La moyenne µ de la variable statistique X pour la population totale est inconnue.

Principe : grand échantillon n ≥ 30

1 Dans la table de la loi normale, chercher zα tel que F (zα) = 1− α2 .

confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005zα 1, 645 1, 960 2, 054 2, 326 2, 575 2, 807

2 Avec la confiance c = 1− α, on affirme que µ se trouve dans l’intervalle :

Iα(µ) = [me − aα,me + aα] où aα = zα.se√n − 1

= zα.se√n

S.Herrmann (UBFC) Echantillonnage et estimation 13 / 20

Page 14: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Etude de cas : estime de soi et phobie sociale

Échantillon de 45 sujets souffrant de phobie sociale : le score moyen d’estime desoi est me = 29, 22 et l’écart-type est se = 4, 35. Donner une estimation duscore moyen dans la population totale des phobiques sociaux avec une confiancede 95%.

Grand échantillon : n = 45 ≥ 30.Ici c = 95% et α = 0, 05.table (normale) z0,05 = 1, 96.marge de l’estimation

a0,05 = z0,05se√n − 1

= 1, 96× 4, 35√44

≈ 1, 285.

L’intervalle de confiance de µ:

[me − a0,05;me + a0,05]

= [29, 22− 1, 29; 29, 22+ 1, 29]= [27, 93; 30, 51]

Il y a 95% de chance que le scored’estime de soi chez les phobiques so-ciaux soit entre 27, 9% et 30, 5%.

S.Herrmann (UBFC) Echantillonnage et estimation 14 / 20

Page 15: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Petit échantillon E (n < 30): la loi de probabilité de référence est la loi deStudent à (n − 1) d.d.l

−tα tα

Aire : 1− α

Aire : α

N (0; 1)

Student(1)

Tn une variable aléatoire qui suit une loi de Student à (n − 1) d.d.l.On se donne une confiance c = 1− α (souvent c = 95%).

But : trouver tα tel que

P[−tα ≤ Tn ≤ tα] = 1− α.

S.Herrmann (UBFC) Echantillonnage et estimation 15 / 20

Page 16: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Trouver tα tel queP[−tα ≤ Tn ≤ tα] = 1− α.

revient à trouver tα tel queP[Tn ≥ tα] = α/2,

Relation entre la probabilité p = P[Tn ≥ tα] et la confiance c .

confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005lire sur la table pour p = 0, 05 0, 025 0, 02 0, 01 0, 005 0, 0025

Table inverse de la loi de Student

p = P[Tn ≥ tα] . . . 0, 05 0, 04 0, 03 0, 025 . . .

d.d.l. 1 . . . 6, 3138 7, 9158 10, 5789 12, 7062 . . .d.d.l. 2 . . . 2, 9200 3, 3198 3, 8964 4, 3027 . . .d.d.l. 3 . . . 2, 3534 2, 6054 2, 9505 3, 1824 . . .

Exemple : Student à 2 d.l.l., on a

P[−4, 3027 ≤ T3 ≤ 4, 3027] = 0, 95.

De manière générale, tα se lit donc dans la table inverse de la loi de Student.S.Herrmann (UBFC) Echantillonnage et estimation 16 / 20

Page 17: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Idée de l’estimation de la moyenne

Même méthode pour un grand ou petit échantillon : seule la loi de probabilitéest différente. Lorsque n < 30 et X suit une loi normale

Tn =Xn − µSn

√n − 1 ∼ Student(n − 1).

Si µ est connu, avec confiance 1−α,

|Tn| ≤ tα.

Ainsi |Xn − µ| ≤ tαSn√n − 1

.

Si µ est inconnu, alors on mesureme et se sur un échantillon et

|me − µ| ≤ tαse√n − 1

,

avec une confiance 1− α.

L’intervalle de confiance Iα(µ) est:[me − tα

se√n − 1

;me + tαse√n − 1

]Intervalles de confiancesimilaires entre petiteou grande taille.

Seule différence :zα (loi normale)tα (Student)

S.Herrmann (UBFC) Echantillonnage et estimation 17 / 20

Page 18: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Récapitulatif : petit échantillon n < 30 et X suit une loi normale

1 Dans la table de la loi de Student, chercher tα tel que

P[−tα 6 Tn 6 tα] = c .

Cela revient à lire sur la table de Student la valeur tα avec p = α2 pour

n − 1 degrés de liberté (d.d.l).

confiance : c 0, 9 0, 95 0, 96 0, 98 0, 99 0, 995risque d’erreur : α 0, 1 0, 05 0, 04 0, 02 0, 01 0, 005lire sur la table pour p = 0, 05 0, 025 0, 02 0, 01 0, 005 0, 0025

2 Avec la confiance c = 1− α, on peut affirmer que µ se trouve dansl’intervalle :

Iα(µ) = [me − aα,me + aα] où aα = tα.se√n − 1

= tα.se√n

S.Herrmann (UBFC) Echantillonnage et estimation 18 / 20

Page 19: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Etude de cas : estime de soi et personnalité évitante

Échantillon de 25 individus ayant une personnalité évitante, le score moyend’estime de soi est me = 31, 16 et l’écart-type est se = 5, 57. En admettantque les scores varient selon une loi normale, donner une estimation du scoremoyen avec une confiance de 95%.

Petit échantillon : n = 25 < 30.Ici c = 95% et α = 0, 05.table (Student à 24 d.d.l):t0,05 = 2, 0639.marge de l’estimation est

a0,05 = t0,05se√n − 1

= 2, 0639× 5, 57√24≈ 2, 34.

L’intervalle de confiance de µ:

[me − a0,05;me + a0,05] = [31, 16− 2, 34; 31, 16+ 2, 34] = [28, 82; 33, 5]S.Herrmann (UBFC) Echantillonnage et estimation 19 / 20

Page 20: Chapitre 5 : Estimationherrmann.perso.math.cnrs.fr/stat-seance4-loi-normale-2019-trans.pdf · Cas d’une proportion : estimation Etudedecas Testd’efficacitéd’uneméthoded’apprentissagedelalecture.

Discussion autour de la taille de l’échantillon

Dans l’exemple, la précision est

a0,05 ≈ 2, 34.

L’estimation de la moyenne est préciseà 2,34 près.

Augmenter la taille de l’échantillon,c’est augmenter la précision.

Pour avoir une précision inférieure à h,

on passe d’un petit à un grandéchantillon (si E est petit audépart)puis on utilise la marge suivante:

aα = zαse√n − 1

.

Taille minimale pour une précision h

Pour un précision h avec uneconfiance 1− α, la condition est:

n > z2α

s2e

h2 .

Il est nécessaire d’avoir un échantillonde référence !

Application à l’étude de cas (person-nalités évitantes) pour une précision deh = 0, 5 avec une confiance de 95%

n > 1, 962 × 5, 572

0, 52 ≈ 476, 7

Echantillon de taille 477 au minimum.

S.Herrmann (UBFC) Echantillonnage et estimation 20 / 20