Cours de statistiquescouture.perso.math.cnrs.fr/L2Socio/Chapitre0.pdf0.2. LOIS DE PROBABILITÉS...

12
Cours de statistiques sociologie 2 ème année

Transcript of Cours de statistiquescouture.perso.math.cnrs.fr/L2Socio/Chapitre0.pdf0.2. LOIS DE PROBABILITÉS...

  • Cours de statistiquessociologie 2ème année

  • 2

  • Chapitre 0

    REVISIONS ET COMPLEMENTS.

    0.1 Rappels : moyenne, variance , écart type.1. Moyenne et écart types simples.

    On considère une variable x qui prend une fois chaque valeur x1, x2, . . . , xn.– Sa moyenne, notée m(x) ou bien x est :

    m(x) = x = x1 + x2 + · · ·+ xnn

    = 1n

    n∑k=1

    xk

    – Sa variance v(x) est :

    v(x) = m(x2)−(m(x)

    )2 = x21 + x22 + · · ·+ x2nn

    − x2 = 1n

    n∑k=1

    x2k −( 1n

    n∑k=1

    xk

    )2– Son écart type s(x) est : s(x) =

    √v(x).

    N.B. L’écart type (ou la variance ) mesure la dispersion des valeurs de x autour de sa moyenne x .2. Moyenne et écart types pondérés. Cette fois, x est une variable qui prend les valeurs x1, . . . , xp mais

    chacune est obtenue un certain nombre de fois (on dit aussi que les données sont pondérées). On résumedans le tableau suivant :

    valeurs de x x1 x2 · · · xp total

    effectifs n1 n2 · · · npp∑k=1

    nk = N

    fréquences f1 = n1N f2 =n2N · · · fp =

    npN

    p∑k=1

    fk = 1

    – Sa moyenne, notée m(x) ou x est :

    m(x) = x = n1x1 + n2x2 + · · ·+ npxpN

    = 1N

    p∑k=1

    nkxk =p∑k=1

    fkxk

    – Sa variance v(x) = m(x2)−(m(x)

    )2 est :v(x) =

    n1.x21 + n2.x22 + · · ·+ np.x2p

    N− x2 = 1

    N

    p∑k=1

    nk.x2k −

    ( 1N

    p∑k=1

    nk.xk

    )2=

    p∑k=1

    fk.x2k −

    ( p∑k=1

    fk.xk

    )2

    3

  • 4 CHAPITRE 0. REVISIONS ET COMPLEMENTS.

    0.2 Lois de probabilités usuelles.

    0.2.1 Lois discrètes.

    Loi binomiale.

    Description. Lors d’une expérience aléatoire E , admettons qu’un événement A a la probabilité p de seréaliser. On répète n fois l’expérience dans les mêmes conditions et on désigne par X la variable aléatoire quicompte “le nombre de fois que A est réalisé”. Alors X suit une loi binomiale de taille n et de paramètre p.

    Exemples.

    1. Expérience E : “ on lance un dé ” Événement A : “ on obtient 1 ou 6 ” p = 26 =13 .

    Si le dé est lancé 10 fois, X B(10, 13 ).

    2. Expérience E : “ on lance deux dés simultanément ” Événement A : “ on obtient au moins un 6 ”p = 1136 . Si le dé est lancé 8 fois, X B(8,

    1136 ).

    Modèle : tirages avec remise. Une urne contient des boules blanches et des boules noires. On désigne parp = nombre de boules blanchesnombre de boules la proportion de boules blanches (q = 1− p est celle des boules noires ). On effectuen fois l’opération suivante : on tire une boule au hasard, on note sa couleur et on la remet dans l’urne. On noteX le nombre de boules blanches tirées. .

    Notation : X B(n, p)Loi de X : P[X = k] =

    (nk

    )pkqn−k pour 0 ≤ k ≤ n.

    Espérance (ou moyenne) de X : E(X) = np.Variance de X : V(X) = npq.

    Écart-type de X : σ(X) = √npq.

    Exemples. (suite)

    1. Exemple 1 : P[X = k] =( 10k

    )( 13 )

    k( 23 )10−k

    P[X = 3] =( 10

    3

    )( 13 )

    3( 23 )7 = 26, 0% P[2 ≤ X ≤ 4] =

    4∑k=2

    ( 10k

    )( 13 )

    k( 23 )10−k = 19, 5%+26, 0%+22, 8% = 68, 3%.

    k 0 1 2 3 4 5 6 7 8 9 10P(X = k) en % 1, 73 8, 67 19, 51 26, 01 22, 76 13, 66 5, 69 1, 63 0, 30 0, 03 0, 002P(X ≤ k) en % 1, 73 10, 40 29, 91 55, 93 78, 69 92, 34 98, 03 99, 66 99, 96 99, 998 100P(X ≥ k) en % 100 98, 27 89, 60 70, 09 44, 07 21, 31 7, 66 1, 97 0, 34 0, 04 0, 002

    E(X) = 103 = 3, 33 V(X) =209 = 2, 22 σ(X) = 1, 49.

    2. Exemple 2 : p[X = k] =( 8k

    )( 1136 )

    k( 2536 )8−k

    P[X = 3] =( 8

    3

    )( 1136 )

    3( 2536 )5 = 25, 8% P[X > 5] =

    8∑k=6

    ( 8k

    )( 1136 )

    k( 2536 )8−k = 1, 1%.

    k 0 1 2 3 4 5 6 7 8P(X = k) 5, 41% 19, 04% 29, 32% 25, 80% 14, 19% 5, 00% 1, 10% 0, 14% 0, 01%P(X ≤ k) 5, 41% 24, 45% 53, 77% 79, 57% 93, 76% 98, 76% 99, 85% 99, 99% 100, 00%P(X ≥ k) 100% 98, 27% 89, 60% 70, 09% 44, 07% 21, 31% 7, 66% 1, 97% 0, 34%

    E(X) = 2, 44 V(X) = 1, 70 σ(X) = 1, 30.

  • 0.2. LOIS DE PROBABILITÉS USUELLES. 5

    Loi hypergéométrique.

    Description. Comme dans le cas de la binomiale, une même expérience est réalisée un certain nombre nde fois, mais contrairement au cas précédent, l’expérience n’est plus réalisée à chaque étape dans les mêmesconditions : chaque réalisation de l’expérience modifie la suivante.

    Modèle : tirages sans remise (ou exhaustifs). Une urne contient N boules, dont N1 blanches et N −N1boules noires. On note p = nombre de boules blanchesnombre de boules =

    N1N la proportion de boules blanches (q = 1 − p est celle

    des boules noires ). On effectue n fois l’opération suivante : on tire une boule au hasard, on note sa couleur eton ne la remet pas dans l’urne et on recommence (si bien que la fois d”après, le nombre de boules dans l’urnea été modifié). Le nombre aléatoire X de boules blanches tirées suit alors une loi hypergéométrique.Remarque : cela revient au même si on tire simultanément n boules et on note le nombre de boules blanches).

    Exemple. Dans un amphi de 60 personnes, 35 sont des étudiantes et 25 des étudiants. On choisit au hasard 10 personnes.Le nombre de filles X suit une H (60, 35, 10).

    Notation : X H (N,N1, n)

    Loi de X : P[X = k] =

    (N1k

    )(N−N1n−k

    )(Nn

    ) pour 0 ≤ k ≤ n.Espérance de X : E(X) = np.Variance de X : V(X) = npq × N−nN−1 .

    Ecart-type de X : σ(X) = √npq ×√

    N−nN−1 (

    √N−nN−1 : coefficient d’exhaustivité).

    Remarque. L’espérance est la même que pour un tirage avec remise, mais la variance est plus faible. Si N estgrand, le coefficient d’exhaustivité est proche de 1 et on peut approximer la loi H (N,N1, n) par une B(n, p)où p = N1N (par exemple si N = 100 000 et n = 100 alors

    √N−nN−1 = 99, 95%).

    Exemple. P[X = k] =( 35k

    ) ( 2510−k

    )( 6010

    )P[X = 3] = (

    353 )( 257 )( 6010 )

    = 4, 17% P[2 ≤ X10 ≤ 4] =4∑k=2

    ( 35k )( 2510−k )( 6010 )

    = 0, 85% + 4, 17% + 12, 30% = 17, 33%.

    k 0 1 2 3 4 5 6 7 8 9 10P(X = k) 0, 004% 0, 09% 0, 85% 4, 17% 12, 30% 22, 88% 27, 23% 20, 51% 9, 37% 2, 34% 0, 24%P(X ≤ k) 0, 004% 0, 10% 0, 95% 5, 13% 17, 43% 40, 30% 67, 54% 88, 05% 97, 42% 99, 76% 100%P(X ≥ k) 100% 99, 996% 99, 90% 99, 05% 94, 87% 82, 57% 59, 70% 32, 46% 11, 95% 2, 58% 0, 24%

    E(X) = 10× 3560 = 5, 83 V(X) = 10×3560 ×

    2560 ×

    5059 = 2, 060 σ(X) = 1, 435.

    Loi de Poisson.

    Description. Lors d’une expérience aléatoire E pendant un laps de temps T donné, on s’intéresse à la variablealéatoire X donnant le nombre de fois qu’un événement A se réalise.Trois conditions sont requises :indépendance : entre avant et après la réalisation de l’événement A .non-simultanéité : l’événement A ne se produit pas plusieurs fois simultanément.porportionalité : le nombre moyen de fois que l’événement A se réalise est proportionnel à la durée de T .

    Exemples. 1. Nombre de voitures passant à un péage d’autoroute par minute (avec un flux assez régulier :entre 9h et 11h par exemple) ;

  • 6 CHAPITRE 0. REVISIONS ET COMPLEMENTS.

    2. Nombre de voitures se trouvant en même temps dans un tunnel long de 3 km (la longueur du tunnel jouantle rôle du laps de temps) ;

    3. Nombre de coups de SMS en 30 min qui arrivent sur le mobile de d’un de mes enfants ;4. Nombre de naissances multiples par mois dans une maternité.

    Si m est le nombre de fois que A se réalise en moyenne durant le laps de temps T , la variable aléatoire X suitalors une loi de Poisson de paramètre m (et on a donc m = E(X)).

    Notation : X P(m)

    Loi de X : P[X = k] = mk

    k! e−m pour k entier positif ou nul.

    Espérance de X : E(X) = m.Variance de X : V(X) = m.

    Ecart-type de X : σ(X) =√m.

    Exemple. Si en moyenne 5 véhicules passent à un péage d’autoroute par minute, le nombre aléatoire X de véhiculespassant en une minute suit une loi de Poisson P(5) : P[X = k] = e−5 5

    k

    k! .

    P[X = 4] = e−5 54

    4! = 17, 55% P[3 ≤ X ≤ 7] =7∑k=3

    e−5 5k

    k! = 74, 20%

    P[X ≥ 4] = 1− P[X ≤ 3] = 1−3∑k=0

    e−5 5k

    k! = 1− 26, 5% = 73.5%.

    k 0 1 2 3 4 5 6 7 8 9 · · ·P(X = k) 0, 67% 3, 37% 8, 42% 14, 04% 17, 55% 17, 55% 14, 62% 10, 44% 6, 53% 3, 63% · · ·P(X ≤ k) 0, 67% 4, 04% 12, 47% 26, 50% 44, 05% 61, 60% 76, 22% 86, 66% 93, 19% 96, 82% · · ·P(X ≥ k) 100% 99, 33% 95, 96% 87, 53% 73, 50% 55, 95% 38, 40% 23, 78% 13, 34% 6, 81% · · ·

    Remarque : on utilisera plutôt la loi de Poisson comme approximation de la loi binomiale pour des événementsrares (p assez petit), la taille n de la binomiale jouant le rôle du “laps de temps T”. On reviendra là-dessus unpeu plus tard.

    0.2.2 Loi normale.Loi normale centrée réduite.

    Une variable Z suit une loi normale centrée réduite si sa densité de probabilité est la fonction

    f(x) = 1√2πe−

    x2

    2 .

    Notation : Z N (0; 1).

    Loi de Z : P[a ≤ Z ≤ b] =∫ ba

    1√2π e− x

    2

    2 dx = aire(f, a, b)

    Espérance de Z : E(Z) = 0.

    Variance de Z : V(Z) = 1.

    Utilisation de la table :- lecture directe : on note ϕ(z) =

    ∫ z0

    1√2πe−

    x2

    2 dx pour z ≥ 0.

    si 0 ≤ a ≤ b, P[a ≤ Z < b] = ϕ(b)− ϕ(a) si 0 ≤ a, P[a ≤ Z] = 0, 5− ϕ(a)si a ≤ 0 ≤ b, P[a ≤ Z < b] = ϕ(b) + ϕ(|a|) si a ≤ 0, P[a ≤ Z] = 0, 5 + ϕ(a)si a ≤ b ≤ 0, P[a ≤ Z < b] = ϕ(|a|)− ϕ(|b|) si a ≥ 4, P[0 ≤ Z < a] = ϕ(a) ' 0, 5

  • 0.3. ÉCHANTILLONNAGE ET ESTIMATION. 7

    - interpolation linéaire : formule d’interpolation : y = y1 + y2−y1x2−x1 (x− x1) ou encore

    y = y1 +x− x1x2 − x1

    (y2 − y1)

    “ position = [position initiale] + [position relative]×[écartement] ”

    On veut calculer ϕ(1, 544). La table donne : ϕ(1, 54) = 0, 4392 et ϕ(1, 55) = 0, 4394.{x : 1, 54 < 1, 544 < 1, 55y : 0, 4382 < ϕ(1, 544) < 0, 4394

    donc ϕ(1, 544) = 0, 4382 + 0,4394−0,43821,55−1,54 × (1, 544− 1, 54) = 0, 4387.

    - lecture inverse :On cherche z tel que ϕ(z) = 0, 3270.La lecture inverse de la table donne : ϕ(z1) = 0, 3264 pour z1 = 0, 94 et ϕ(z2) = 0, 32895 pourz2 = 0, 95. {

    x : 0, 3264 < 0, 3270 < 0, 3289y : 0, 94 < z < 0, 95

    donc z = 0, 94 + 0,95−0,940,3289−0,3264 × (0, 3270− 0, 3264) = 0, 942.

    Loi normale (cas général).

    Une variable X de moyenne µ et d’écart-type σ suit une loi normale si Z = X − µσ

    suit une loi normalecentrée réduite.

    Notation : X N (µ, σ).

    Loi de X : P[a ≤ X < b] = P[a−µσ ≤ Z <b−µσ ] =

    ∫ ba

    1√2π e− 12 (

    x−µσ )

    2dx.

    Espérance de X : E(X) = µ.

    Variance de X : V (X) = σ2.

    Exemple. Admettons que la taille X d’un homme adulte (en mètre) suit une loi normale N (µ, σ) de moyenne µ = 1, 76met d’écart-type σ = 7cm. La probabilité qu’un homme choisi au hasard fasse entre 1, 62m et 1, 83m est :

    P[1, 62 ≤ X < 1, 83] = P[−0, 14

    0, 07 ≤ Z <0, 070, 07

    ]= P[−2 ≤ Z < 1] = ϕ(2) + ϕ(1)

    = 0, 3413 + 0, 4772 = 0, 8185 ' 81, 9%.

    La probabilité qu’un homme choisi au hasard fasse plus de 1, 90m est

    P[X > 1, 90] = P[Z >

    0, 140, 07

    ]= P[Z > 2] = 0, 5− ϕ(2) = 0, 5 + 0, 4772 = 0, 0228 ' 2, 3%.

    0.3 Échantillonnage et estimation.0.3.1 Théorèmes d’approximations.Théorème 1. Si X suit une B(n, p) avec n > 30, np < 5 et p < 10%, alors la loi de X peut être approximéepar une loi de Poisson P(m), où m = np, c’est à dire :

    P[X = k] =(nk

    )pk(1− p)n−k ∼= e−np

    (np)k

    k! .

  • 8 CHAPITRE 0. REVISIONS ET COMPLEMENTS.

    Exemple. Si p = 1, 5% est la proportion de naissances multiples, le nombre X de naissances multiples sur 200 accouche-

    ments suit une B(200, 1, 5%) que l’on peut approximer par une P(3) : P[X = k] =(200k

    )(0, 015)k(0, 985)200−k ∼= e−3

    3k

    k!

    k 0 1 2 3 4 · · ·P(X = k) (binomiale) 4, 87% 14, 82% 22, 46% 22, 57% 16, 93% · · ·P(X = k) (Poisson) 4, 98% 14, 94% 22, 40% 22, 40% 16, 80% · · ·

    P[X ≥ 5] = 1− p[X ≤ 4] = 1− e−3(1 + 3 + 32

    2 +336 +

    3424 ) = 18, 47% (18, 35% avec la binomiale).

    Théorème 2. 1. si une variable X suit une loi B(n, p) avec n > 30, np ≥ 5, nq ≥ 5 (q = 1 − p) et0, 1 ≤ p ≤ 0, 9 alors la loi de X peut être approximée par une loi N

    (np,√npq

    ).

    2. si une variable X suit une loi H (N,N1, n) avec n > 30, np ≥ 5, nq ≥ 5 (où p = 1 − q = N1N ) et0, 1 ≤ p ≤ 0, 9 alors la loi de X peut être approximée par une loi N

    (np,√npq

    √N−nN−1

    ).

    0.3.2 Échantillonnage et estimation. Cas d’une proportion.Échantillonnage d’une proportion.

    Dans une population P, un caractère C est représenté par une proportion p d’individus. D’un échantillon àl’autre, on ne peut évidemment pas espérer obtenir la même proportion d’individus ayant le caractère C dansl’échantillon, mais on imagine bien que plus la taille d’un échantillon est grande, plus on a de chance d’avoirune valeur proche de la proportion p de la population. L’échantillonnage consiste justement à répondre à laquestion suivante :Question. Comment varie la proportion d’individus ayant le caractère C sur les échantillons de n individus ?

    Exemple : Dans la population P des élèves passant leur bac en 2014, on s’intéresse au caractère C : “l’élève n’a jamais redoublé ”. On suppose que c’est le cas de 60% des élèves. On prélève un échantillon de nélèves.

    On note Xn le nombre aléatoire d’individus ayant le caractère C sur les échantillons de taille n et Pn = Xnn laproportion aléatoire associée.

    Théorème : (Echantillonnage).(1) Si l’échantillon est non exhaustif (avec remise, ou si la population est assez grande devant la taille de

    l’échantillon), Xn suit une B(n, p). Si de plus n > 30, np ≥ 5 et nq ≥ 5 (q = 1− p) alors la loi de Xn peut êtreapproximée par une loi N (np,√npq), et celle de Pn par une loi N

    (p,√

    pqn

    ).

    (2) Si l’échantillon est exhaustif (sans remise, avec une population de taille N), Xn suit une H (N, pN, n).Si de plus n > 30, np ≥ 5 et nq ≥ 5 (p = 1 − q) alors la loi de Xn peut être approximée par une loiN(np,√np(1− p)

    √N−nN−1

    )et celle de Pn par une loi N

    (p,√

    p(1−p)n

    √N−nN−1

    ).

    Remarques :- si n ≤ 30 on utilise la binômiale.- si n > 30, np < 5 et p < 10% on utilise la loi de Poisson.- si n > 30 np ≥ 5, nq ≥ 5 10% ≤ p ≤ 90%, lorsqu’on approxime la loi binomiale par une loi normale, on

    fait une correction de continuité : supposons que X B(n, p), que X̃ N (np,√npq) est une approximationde X par une variable qui suit une loi normale et si k et k′ sont deux entiers, on remplace :

    k ≤ X ≤ k′ par k − 0, 5 ≤ X̃ ≤ k′ + 0, 5k < X ≤ k′ par k + 0, 5 ≤ X̃ ≤ k′ + 0, 5k ≤ X < k′ par k − 0, 5 ≤ X̃ ≤ k′ − 0, 5k < X < k′ par k + 0, 5 ≤ X̃ ≤ k′ − 0, 5

    (Il faut penser que lorsqu’on fait cette approximation, la valeur k “s’étale” de k − 0, 5 à k + 0, 5). On obtientainsi des résultats plus précis que tiennent compte du fait que X fait des sauts d’une valeur à l’autre alors queX̃ n’en fait pas. Cette correction est moins plus importante si n est est assez grand.

  • 0.3. ÉCHANTILLONNAGE ET ESTIMATION. 9

    Lorsqu’on utilise les proportions aléatoires, on oubliera la correction de continuité, par souci de simplicité.

    Exemple : avec l’exemple ci-dessus : on note Z = Xn−np√npq

    = Pn−p√pq/n

    .

    - si n = 15, P[7 ≤ X15 ≤ 10] =10∑k=7

    ( 15k

    )(0, 6)k(0, 4)15−k ' 0, 688 = 68, 8%

    - si n = 30, P[15 ≤ X30 ≤ 20] =

    P[

    14,5−18√7,2 ≤ Z ≤

    20,5−18√7,2

    ]' 0, 7282 = 72, 82% avec correction de continuité

    P[

    14−18√7,2 ≤ Z ≤

    20−18√7,2

    ]' 0, 7040 = 70, 40% sans correction de continuité

    La variable X30 qui suit une loi binomiale fait “des sauts” dans les valeurs : on passe de 14 à 15 et de 20à 21. Comme la variable Z est continue (pas de saut dans les valeurs), on compense les sauts de la binomialeen prenant les valeurs intermédiaires 14,5 et 20,5 pour la loi normale : on a une meilleure approximation(avec la loi binomiale, on aurait trouvé 72,7%).

    - si n = 100, P[55% ≤ P100 ≤ 65%] = P[−0,05

    0,049 ≤ Z ≤0,05

    0,049

    ]' 69, 5%.

    Estimation d’une proportion.

    Cette fois, dans une population P, le caractère C est représenté par une proportion p d’individus inconnue,que l’on veut estimer.Question : A partir d’un échantillon expérimental, peut-on estimer cette proportion ? Plus précisément : dansquelle fourchette peut-on situer la vraie valeur de p autour de la valeur expérimentale pexp, si on veut être sûrde ce qu’on affirme avec une confiance α = 95% ?

    Exemple : Dans la population P des élèves qui passeront leur bac en 2014, on s’intéresse au caractèreC : “ l’élève n’a jamais redoublé ”. On suppose qu’on ne connait pas la proportion d’élèves n’ayant jamaisredoublé. On fait un sondage auprès de 200 élèves de terminale d’un lycée type : 110 d’entre eux n’ont jamaisredoublé, soit une proportion expérimentale pexp = 110200 = 55%.

    Au vu de cet échantillon, avec une confiance 1−α = 95%, quelle estimation peut-on faire de la proportionp d’élèves qui n’ont jamais redoublé sur la population totale des élèves qui vont passer le bac ?

    On cherche donc la valeur de aα telle que p ∈ [pexp − aα; pexp + aα] avec confiance 1 − α. La proportionaléatoire Pn sur un échantillon théorique de taille n = 200 élèves suit une loi proche d’une N

    (p,√

    p(1−p)n

    )'

    N(p,√

    pexp(1−pexp)n

    )et la loi de Z = Pn−p√

    pexp(1−pexp)n

    est proche d’une N (0, 1).

    Dans notre exemple,√

    pexp(1−pexp)n

    =√

    55%×45%200 = 3, 518% donc la loi de Pn est proche de N (p; 3, 518%)

    .

    Alors P[Pn − aα ≤ p ≤ Pn + aα] = P[|Pn − p| ≤ aα] = P[|Z| ≤ zα] = 2ϕ(zα) = 1− α avec zα = aα√ pexp(1−pexp)n

    .

    Calcul de l’intervalle de confiance :– On calcule zα tel que ϕ(zα) = 1−α2 (dans notre exemple, ϕ(zα) = 47, 5% soit zα = 1, 96).

    – On a alors aα = zα ×√

    pexp(1−pexp)n (dans notre exemple, aα = 1, 96× 3, 518% = 6, 89%).

    – Intervalle de confiance de p :

    Iα(p) = [pexp − aα; pexp + aα] =[pexp − zα ×

    √pexp(1− pexp)

    n; pexp + zα ×

    √pexp(1− pexp)

    n

    ]

    (dans notre exemple, p ∈ Iα = [55%− 6, 89%; 55% + 6, 89%] = [48, 11%; 61, 89%]).

  • 10 CHAPITRE 0. REVISIONS ET COMPLEMENTS.

    0.3.3 Échantillonnage et estimation. Cas d’une moyenne.Échantillonnage d’une moyenne - Petits et grands échantillons.

    Dans une population P, on dispose d’une variable variable aléatoire X de moyenne µ et d’écart-type σ.Pour un échantillon de taille n choisi au hasard, on note Xi la valeur de X correspondant au ième individu. Onnote Mn la moyenne aléatoire Vn la variance aléatoire et Sn l’écart type aléatoires.

    Mn =X1 + · · ·+Xn

    nVn =

    X21 + · · ·+X2nn

    −M2n Sn =√Vn.

    On veut étudier le comportement de cette moyenne aléatoire Mn selon les échantillons. On a deux problèmesqu’il faut prendre en compte :

    – pour de petits échantillons il faut une certaine régularité de la variable X(à savoir que X N (µ;σ)

    ).

    Cependant lorsque les échantillons sont de grande taille, on peut faire des approximation si bien qu’on n’aplus besoin de cette hypothèse.

    – en général on ne connaît pas l’écart type, mais le comportement de la moyenne est lié à la valeur de l’écarttype : aussi, on va utiliser l’écart type aléatoire.

    On utilise les résultats mathématiques suivant :

    Théorème :

    1. Si n ≤ 30 et si X suit une loi normale(X N (µ;σ)

    )alors la variable

    Tn =Mn − µ

    Sn/√n− 1

    suit une loi de Student à (n− 1) degrés de liberté (d.d.l.). On écrit : Tn Stn−1.

    2. si n > 30 alors on a l’approximation (sans l’hypothèse de normalité de X) :

    Z = Mn − µSn/√n− 1

    N (0; 1).

    Remarques :

    1. pour les petits échantillons l’hypothèse de normalité porte sur X pas sur Mn ! Pour vous, cette propriétéest “transparente” dans vos calculs, elle n’est là que pour légitimer ces calculs.

    2. les lois de Student se rapprochent de plus en plus de la loi normale centrée réduite N (0; 1) lorsque ngrandit, ce qui explique le passage du 1) au 2) lorsque n passe la valeur 30. La façon de procéder est lamême dans les deux cas (n ≤ 30) et (n > 30), sauf qu’on n’utilise pas la même table statistique.

    3. Si on connaît σ (ce qui est rare), on peut utiliser : Mn N (µ; σ√n ).

    Exemple : En France, la taille moyenne d’une femme adulte est µ = 164cm avec un écart-type de σ = 6, 3cm.Les tailles sont normalement réparties.- la moyenne aléatoire Mn de taille (en cm) d’un échantillon de 82 femmes adultes en France suit approxi-mativement une N (164; 6,3√81 ) = N (164; 0, 7). En d”autres termes :

    Mn − 1640, 7 N (0; 1).

    - pour d’un échantillon de 17 femmes adultes en France, on a :

    Tn =Mn − µ

    Sn/√n− 1

    = Mn − 164Sn/√

    16 St(16).

  • 0.3. ÉCHANTILLONNAGE ET ESTIMATION. 11

    Estimation d’une moyenne : cas d’un petit échantillon (n ≤ 30)

    On veut estimer la valeur moyenne d’une variable X sur une populmation en se basant sur les valeurs de cettevariable, obtenues à partir d’un échantillon expérimental de petite taille n < 30.

    Exemple : On a relevé les tailles x d’un échantillon de 26 femmes adultes des Pays-Bas. On a obtenu unemoyenne m = 170, 3cm et un écart type s = 8, 5cm. On admet que les tailles sont normalement répartiesdans la population des femmes adultes des Pays-Bas.Au vu de cet échantillon, et avec une confiance 1− α = 90%, dans quelle fourchette peut-on situer la taillemoyenne µ de la population féminine adulte aux Pays-Bas ?

    On note Mn la moyenne aléatoire sur un échantillon théorique de taille n = 26 individus et Sn l’écart-typealéatoire. On introduit la variable :

    Tn =Mn − µ

    Sn/√n− 1

    .

    D’après l’échantillonnage, la variable Tn suit une loi de Student à (n− 1) = 25 d.d.l.On cherche la valeur de aα telle que µ ∈ [m− aα;m+ aα] avec confiance 1− α. On a :P[Mn − aα ≤ µ ≤Mn + aα] = P[|Mn − µ| ≤ aα] ' P[|Tn| ≤ tα] = 1− α avec tα =

    √n−1s aα.

    Calcul de l’intervalle de confiance– On calcule tα tel que P[Tn > tα] = α2 (dans notre exemple, n = 26,

    α2 = 5% soit tα = 1, 7081 (ligne 25).

    – On a alors aα = tα × s√n−1 (dans notre exemple, aα = 1, 7081×8,5√

    25 ' 2, 90).– Intervalle de confiance de µ :

    Iα(µ) = [m− aα;m+ aα] =[m− tα ×

    s√n− 1

    ;m+ tα ×s√n− 1

    ](dans notre exemple, Iα(µ) = [170, 3− 2, 9; 170, 3 + 2, 9] = [167, 4; 173, 2]).

    Estimation d’une moyenne - Cas de grands échantillons (n > 30).

    On procède de la même façon.

    Exemple : On veut connaître la taille moyenne des femmes (adultes) aux Pays-Bas afin de la compareravec la taille moyenne de 1,64m des femmes françaises. Le tableau suivant donne la répartition par classesde tailles de 100 femmes (adultes) aux Pays-Bas :

    taille en cm : x 140/148 148/156 156/164 164/172 170/180 180/188 188/196 total m sEffectifs 2 6 19 28 32 10 3 100 169, 92 9, 93

    Au vu de cet échantillon, et avec une confiance 1− α = 95%, dans quelle fourchette peut-on situer la taillemoyenne µ de la population des femmes aux Pays-Bas ?

    On cherche la valeur de aα telle que µ ∈ [m − aα;m + aα] avec confiance α. La moyenne aléatoire Mn surun échantillon théorique de taille n individus suit une loi proche d’une N (µ, s√

    n−1 ) et la variable Z =Mn−µs/√n−1

    est proche d’une loi N (0, 1).

    Dans notre exemple, s√n−1 =

    9,93√99 = 0, 9986 donc la loi de Mn est proche de N (µ; 0, 9986).

    Il faut chercher aα tel que :

    P[Mn − aα ≤ µ ≤Mn + aα] = P[|Mn − µ| ≤ aα] = P[|Z| ≤ zα] = 2ϕ(zα) = 1− α avec zα =√n− 1s

    aα.

  • 12 CHAPITRE 0. REVISIONS ET COMPLEMENTS.

    Calcul de l’intervalle de confiance :– On calcule zα tel que ϕ(zα) = 1−α2 (dans notre exemple, ϕ(zα) = 47, 5% soit zα = 1, 96).– On a alors aα = zα × s√n−1 (dans notre exemple, aα = 1, 96× 0, 9986 = 1, 957).– intervalle de confiance de µ :

    Iα(µ) = [m− aα;m+ aα] =[m− zα ×

    s√n− 1

    ;m+ zα ×s√n− 1

    ](dans notre exemple, Iα(µ) = [169, 92− 1, 957; 169, 92 + 1, 957] = [168, 0; 171, 9]).

    0.3.4 Échantillonnage et estimation. Cas d’une variance.

    Échantillonnage d’une variance.

    Dans une population P, on dispose d’une variable statistique X qui suit une loi normale N (µ, σ).On veut savoir comment se comporte la variance de X sur les échantillons de taille n. Rappelons que la

    variance mesure la dispersion des valeurs (ici, des valeurs X1, . . . , Xn de Xde X dans l’échantillon). On note Vnla variance aléatoire de X1, . . . , Xn, et on introduit la variable

    Y = nσ2Vn.

    Théorème. La variable Y suit alors une loi de χ2 (chi-2) à n− 1 d.d.l. On note Y χ2n−1

    Exemple : Dans une population P, on sait que le Q.I. est régi par une loi normale de moyenne µ = 100d’écart-type σ. Pour un échantillon de taille n = 32 de la population P, la variable Y = n

    σ2 Vn =32σ2 Vn suit

    une loi de χ2 à 31 d.d.l.

    Estimation d’une variance.

    On veut estimer la valeur de σ. A partir d’un échantillon expérimental de taille n, on a une valeur expérimentales de l’écart-type. Si on note Vn la variance aléatoire de X1, . . . , Xn, la variable Y = nσ2 Vn suit alors une loi deχ2 à n− 1 d.d.l.

    Exemple : On a fait passer un test Q.I. à 32 personnes de la population P ce qui a donné un écart typeexpérimental s = 7, 4. Pour une confiance 1 − α = 95% on cherche une estimation par un intervalle deconfiance de l’écart type de la population.

    Calcul de l’intervalle de confiance :– Pour une confiance 1−α fixée, on cherche les valeurs de x1 et x2 au moyen de la table du χ2n−1 telles que :

    P[Y < x1] =α

    2 et P[Y < x2] = 1−α

    2

    – Intervalle de confiance de σ :Iα(σ) =

    [s

    √n

    x2; s√

    n

    x1

    ]Exemple :(suite)Y = n

    σ2 Vn =32σ2 Vn suit une loi de χ

    2 à 31 d.d.l. Pour α = 5%, x1 = 17, 54 et x2 = 48, 23 donc :

    Iα(σ) =[7, 4√

    3248, 23 ; 7, 4

    √32

    17, 54

    ]= [6, 0 ; 10, 0].

    REVISIONS ET COMPLEMENTS.Rappels : moyenne, variance , écart type.Lois de probabilités usuelles.Lois discrètes.Loi normale.

    Échantillonnage et estimation.Théorèmes d'approximations.Échantillonnage et estimation. Cas d'une proportion.Échantillonnage et estimation. Cas d'une moyenne.Échantillonnage et estimation. Cas d'une variance.