BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable...

30
Chapitre 4 1 Polytech Paris-UPMC Probabilités-statistiques Chapitre 4 BASES DE LA STATISTIQUE INFERENTIELLE Une enquête statistique est une étude généralement réalisée sur un petit groupe d’objets, d’unités, de personnes que le statisticien nomme individu , le groupe constituant un échantillon d’individus. A partir des résultats obtenus sur cet échantillon, le statisticien essaie de porter des conclusions sur les variations dans un groupe plus vaste formant la population à laquelle on s’intéresse. Au cours de cette étude, on observe les fluctuations d’un individu à l’autre, d’un ou plusieurs paramètres, que l’on appelle des caractères ou variables statistiques . Relever et analyser les valeurs prises par le (ou les) paramètres étudié(s) avec les fréquences d’observation de ces valeurs ou modalités relève des statistiques descriptives (en annexe, notions simples qui ne seront pas étudiées en cours) En déduire des conjectures sur ce (ou ces) paramètre(s) dans la population, dans d’autres échantillons, sur des comparaisons d’échantillons, relève de la statistique inférentielle Pour faire ces prévisions (ou inférences), pour passer de la description au probable, on utilise la modélisation et les résultats de la théorie des probabilités, vus dans les trois premiers chapitres de ce cours.

Transcript of BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable...

Page 1: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 1

Polytech Paris-UPMC Probabilités-statistiques

Chapitre 4

BASES DE LA STATISTIQUE INFERENTIELLE

Une enquête statistique est une étude généralement réalisée sur un petit groupe d’objets, d’unités, de personnes que le statisticien nomme individu, le groupe constituant un échantillon d’individus. A partir des résultats obtenus sur cet échantillon, le statisticien essaie de porter des conclusions sur les variations dans un groupe plus vaste formant la population à laquelle on s’intéresse. Au cours de cette étude, on observe les fluctuations d’un individu à l’autre, d’un ou plusieurs paramètres, que l’on appelle des caractères ou variables statistiques.

Relever et analyser les valeurs prises par le (ou les) paramètres étudié(s) avec les fréquences d’observation de ces valeurs ou modalités relève des

statistiques descriptives (en annexe, notions simples qui ne seront pas étudiées en cours)

En déduire des conjectures sur ce (ou ces) paramètre(s) dans la population, dans d’autres échantillons, sur des comparaisons d’échantillons, relève de la

statistique inférentielle Pour faire ces prévisions (ou inférences), pour passer de la description au probable, on utilise la modélisation et les résultats de la théorie des probabilités, vus dans les trois premiers chapitres de ce cours.

Page 2: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 2

BASES DE LA STATISTIQUE INFERENTIELLE .................................................. 1  4.1 THÉORIE DE L’ECHANTILLONAGE ...................................................... 3  

4.1.1 Hypothèse fondamentale de la théorie de l’échantillonage.................... 3  4.1.2 Statistiques d’ordre : lois des valeurs extrêmes...................................... 3  4.1.2 Statistique

X n ......................................................................................... 4  4.1.3 Statistique

Sn2 .......................................................................................... 5  

4.1.3 Corrélation entre

X n et

Sn2 ...................................................................... 5  

4.1.4 Cas des échantillons gaussiens ............................................................... 6  4.1.5 Echantillons artificiels, simulation ......................................................... 7  4.1.6 Application : Méthode de Monte Carlo.................................................. 8  

4.2 L’ESTIMATION........................................................................................... 8  4.2.1 Estimateur, définitions............................................................................ 8  4.2.2 Exemples élémentaires d’estimateurs .................................................... 9  4.2.3 Application : estimation ponctuelle........................................................ 9  4.2.4 Estimation par intervalle de confiance ................................................. 10  

4.3 TESTS STATISTIQUES ............................................................................ 17  4.3.1 Tests paramétriques.............................................................................. 17  4.3.2 Tests d’ajsutement et tests d’indépendance utilisant la loi du Khi-deux....................................................................................................................... 25  

Page 3: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 3

4.1 THEORIE DE L’ECHANTILLONAGE

4.1.1 Hypothèse fondamentale de la théorie de l’échantillonage Dans le cas d’une étude statistique sur une population, l’échantillon est supposé être tiré selon des règles rigoureuses destinées à en assurer la représentativité de la population. L’hypothèse faite, dans ce cas est que les valeurs observées sur les n individus d’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On introduit le modèle suivant : à chaque individu i tiré, on associe une variable aléatoire

Xi dont on observe une seule réalisation. Cette démarche peut se schématiser de la manière suivante

Population Variable X

Echantillon de n individus

i1,i2,,in( )

n-uplet

(X1,X2,,Xn ) v.a.r. indépendantes et de

même loi que X

n réalisations de X 1 réalisation de

(X1,X2,,Xn )

X(i1),X(i2),,X(in )( )

modélisation⎯ → ⎯ ⎯ ⎯

(X1(ω ),X2(ω ),,Xn (ω)) n valeurs « indépendantes » de X

Définition On appelle échantillon le n-uplet de variables aléatoires indépendantes et identiquement distribuées

(X1,X2,,Xn ) Définition Une statistique T est une variable aléatoire fonction de

X1,X2,,Xn .

T = f (X1,X2,,Xn ) La théorie de l’échantillonage se propose d’étudier les propriétés du n-uplet

(X1,X2,,Xn ) et des statistiques le décrivant, à partir de la distribution supposée connue de la variable parente X. On reprend et complète les résultats du chapitre 2 de ce cours.

4.1.2 Statistiques d’ordre : lois des valeurs extrêmes X variable aléatoire, supposée continue, de fonction de répartition F et de densité f

Page 4: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 4

Définition Les valeurs extrêmes sont

Y1 =min X1,X2,,Xn{ } et

Yn =max X1,X2,,Xn{ } On sait :

P(Y1 ≤ y) =1− P(Y1 > y),

et par indépendance

P(Y1 > y) = P(Xi > y)i=1

i=n

∏ et

P(Yn < y) = P(Xi < y)i=1

i=n

En notant

H1 et

h1 les fonctions de répartition et de densité de

Y1

Hn et

hn les fonctions de répartition et de densité de

Yn On a alors

H1(y) =1− 1− F(y)[ ]n

h1(y) = n 1− F(y)[ ]n−1 f (y) et

Hn (y) = F(y)[ ]n

h1(y) = n F(y)[ ]n−1 f (y)

4.1.2 Statistique

X n Définition La statistique

X n ou moyenne empirique de l’échantillon est

X n =1n

Xii=1

i=n

Espérance et variance de

X n Soit m et

σ l’espérance et l’écart-type de la variable parente ; on a

E(X n ) = m et

V (X n ) =σ2

n

Théorème limite pour

X n

Théorème central limite :

X n −mσn

L⎯ → ⎯ N(0;1)

Application : loi d’un pourcentage

Xn étant une suite de variables aléatoires de Bernoulli indépendantes

B(1, p) , notons

Fn (= X n ) la fréquence empirique, moyenne arithmétique de n variables de Bernoulli de paramètre p indépendantes

On

E(Fn ) = p et

V (Fn ) =p(1− p)n

et si n est grand (théorème de De Moivre-Laplace)

Fn suit approximativement la

loi

N p; p(1− p)n

⎝ ⎜

⎠ ⎟

Page 5: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 5

4.1.3 Statistique

Sn2

Définition La statistique

Sn2ou variance empirique d’échantillon est :

Sn2 =

1n

Xi − X n( )2i=1

i=n

Propriété élémentaire

Sn2 =

1n

Xi2

i=1

i=n

∑⎛

⎝ ⎜

⎠ ⎟ − (X n )

2

Espérance de

Sn2

E(Sn2) =

n −1n

σ2

Donc

E(Sn2) ≠σ2. On dit que

Sn2 est une statistique biaisée pour

σ2 Variance de

Sn2

On montre

V (Sn2) =

n −1n3

(n −1)µ4 − (n − 3)σ4[ ] avec

µ4 le moment centré d’ordre

4 de X

Alors

V (Sn2) ≈ µ4 −σ

4

n si

n→+∞

Théorème limite pour

Sn2

Sn2 −

n −1n

σ2

V (Sn2)

L⎯ → ⎯ N 0;1( )

ce qui peut s’écrire

Sn2 −σ2

µ4 −σ4

n L⎯ → ⎯ N 0;1( ) avec l’approximation précédente

4.1.3 Corrélation entre

X n et

Sn2

Dans le chapitre 3, nous avons vu la définition de la covariance :

cov X n ,Sn2( ) = E X n −m( ) Sn

2 −n −1

nσ2

⎝ ⎜

⎠ ⎟

⎣ ⎢

⎦ ⎥

et

cov X n ,Sn2( ) = E X nSn

2( ) − E X n( )E Sn2( )

La covariance est insensible à un changement pas translation, on peut supposer que m=0, c’est à dire

E(Xi) = 0 pour tout i. D’où

cov X n ,Sn2( ) = E X nSn

2( )

Page 6: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 6

E X nSn2( ) = E 1

nXi

i=1

i=n

∑⎛

⎝ ⎜

⎠ ⎟ 1n

X j2

j =1

j =n

∑⎧ ⎨ ⎪

⎩ ⎪

⎫ ⎬ ⎪

⎭ ⎪ − (X n )

2⎛

⎝ ⎜ ⎜

⎠ ⎟ ⎟

⎣ ⎢ ⎢

⎦ ⎥ ⎥

=1n2

E Xii=1

i=n

∑⎛

⎝ ⎜

⎠ ⎟ X j

2

j =1

j =n

∑⎛

⎝ ⎜ ⎜

⎠ ⎟ ⎟

⎣ ⎢ ⎢

⎦ ⎥ ⎥ − E X n

3( )

=1n2

E XiX j2

j =1

j =n

∑i=1

i=n

∑⎡

⎣ ⎢ ⎢

⎦ ⎥ ⎥ − E X n

3( )

Les variables sont indépendantes, pour i≠j :

E(XiX j2) = E(Xi)E(X j

2) = 0

=1n2

E Xi3

i=1

i=n

∑⎡

⎣ ⎢

⎦ ⎥ − E X n

3( )

=1n2E Xi

3

i=1

i=n

∑⎡

⎣ ⎢

⎦ ⎥ − E

1n

Xii=1

i=n

∑⎛

⎝ ⎜

⎠ ⎟

3⎡

⎣ ⎢ ⎢

⎦ ⎥ ⎥

=1n2E Xi

3

i=1

i=n

∑⎡

⎣ ⎢

⎦ ⎥ −

1n3E Xi

3

i=1

i=n

∑⎡

⎣ ⎢

⎦ ⎥

En conclusion :

cov X n ,Sn2( ) =

µ3n−

µ3n2

=n −1n2

µ3 Si

n→+∞ ,

cov X n ,Sn2( ) →0.

X n et

Sn2 sont asymptotiquement non corrélées.

Si

µ3 = 0 (on dit la distribution symétrique),

X n et

Sn2 sont non corrélées pour tout

n. Attention : non corrélation ≠ indépendance

4.1.4 Cas des échantillons gaussiens On suppose la variable aléatoire parente normale

N m;σ( )

X n suit (exactement) la loi

N m; σn

⎝ ⎜

⎠ ⎟

On montre aussi les deux théorèmes suivants

nSn2

σ2 suit la loi

χn−12 , loi du Khi-Deux de paramètre (n-1)

X n et

Sn2 sont indépendantes.

On peut même démontrer une sorte de réciproque : si

X n et

Sn2 sont indépendantes , alors X suit une loi normale

Page 7: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 7

Et on a aussi le résultat extrêmement utile

Tn−1 =X n −m

Sn

n −1 est une variable de Student

à (n-1) degrés de liberté.

Cela vient du fait que

Tn−1 =

X n −mσ

n

nSn2

(n −1)σ2

=X n −m

Sn

n −1

Ce résultat est utile car il ne dépend pas de

σ.

Exemple : X suit la loi

N 10;2( ) ,

X 25 suit la loi

N 10;0,4( )et

25.S252

4 suit la loi

χ242

Des calculs simples de probabilité donnent

P(9,34 < X 25 <10,66)= 0,9 et

P(1,49 < S25 < 2,41)=0,9.

4.1.5 Echantillons artificiels, simulation Dans de nombreuses études, il est nécessaire de pouvoir disposer d’échantillons de variables de lois connues. On peut recourir à la simulation, c’est à dire « fabriquer » à l’aide d’un programme de calcul une suite de nombres

x1,x2,,xn chaque nombre étant une réalisation d’une variable aléatoire suivant la loi voulue, les variables aléatoires étant indépendantes. Dans tous les cas, il est nécessaire de disposer au départ d’une table de nombres aléatoires ou d’un générateur de nombres aléatoires. Un générateur est un algorithme fournissant une suite de nombre compris entre 0 et 1 (nullement aléatoires, on parle de nombre pseudo-aléatoires) mais ayant toutes les propriétés d’un véritable échantillon aléatoire d’une loi uniforme sur

0;1[ ] Voir les aides sur la fonction « alea » ou « random » d’une calculatrice, d’un logiciel de type excel. Quelques indications :

- Si X a une fonction de répartition F, dont la réciproque

F −1 a une forme analytique simple, on peut utiliser la méthode « inversion de la fonction de répartition »

- Si X a une densité bornée à support borné, on peut utiliser la méthode « du rejet»

- Si X suit une loi de Bernoulli, une loi Gamma

γ r , une loi de Poisson, une loi normale, il existe des méthodes particulières.

On peut voir à ce sujet « Probabilités, Analyse des Données et Statistque » de G Saporta, Editions Technip, 1990, pages 276 à 283

Page 8: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 8

4.1.6 Application : Méthode de Monte Carlo Le terme « méthode de Monte-Carlo », ou « méthode Monte-Carlo », désigne toute méthode visant à calculer une valeur numérique en utilisant des procédés aléatoires, c'est-à-dire des techniques probabilistes. Les méthodes de Monte-Carlo sont particulièrement utilisées pour calculer des intégrales en dimensions plus grandes que 1 (en particulier, pour calculer des surfaces et des volumes). Elles sont également couramment utilisées en physique des particules, où des simulations probabilistes permettent d'estimer la forme d'un signal ou la sensibilité d'un détecteur.

4.2 L’ESTIMATION La plupart des expériences aléatoires conduisent à l'étude de variables aléatoires obéissant à des lois dont le type est connu, mais qui dépendent de paramètres réels liés à l'expérience. Ce paragraphe a pour objectif de donner un cadre théorique et des méthodes afin d'estimer la valeur numérique de ces paramètres.

4.2.1 Estimateur, définitions Si X est une variable aléatoire dont la loi dépend d'un paramètre θ, et (X1, X2,…, Xn) un n-échantillon, une statistique Tn, fonction de (X1, X2,…, Xn) est :

- un estimateur si elle permet d’évaluer le paramètre θ - un estimateur sans biais de θ si E(Tn)= θ - un estimateur asymptotiquement sans biais de θ si

limn→+∞

E(Tn ) = θ - un estimateur convergent de θ si

n→+∞lim V (Tn )=0

Un estimateur Tn est meilleur (plus efficace) que l'estimateur T'n si pour tout n entier naturel assez grand, V(Tn) ≤ V(T'n). La recherche d’un « bon » estimateur pour un paramètre n’est pas chose facile. On peut être amené à chercher un estimateur sans biais de variance minimale, ce qui est très lié à l’existence de « statistiques exhaustives », notion que nous n’aborderons pas dans ce cours.

Page 9: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 9

4.2.2 Exemples élémentaires d’estimateurs En reprenant les résultats du paragraphe 4.1, on a les résultats :

-

X n est un estimateur sans biais et convergent de m -

Sn2 est un estimateur, avec un biais, et convergent de

σ2

Un estimateur sans biais de

σ2 est

Sn*2 =

nn −1

Sn2

-

Fn est un estimateur sans biais et convergent de p

4.2.3 Application : estimation ponctuelle Il s’agit de donner une estimation ponctuelle, par une valeur numérique, d’un paramètre d’une loi à partir d’un échantillon. Ce type de situation se rencontre fréquemment dans le monde industriel car, le plus souvent, il n’est pas possible d’étudier la population entière : cela prendrait trop de temps, reviendrait trop cher ou serait aberrant comme, par exemple, dans le cas d’un contrôle de qualité entrainant la destruction des pièces. De manière générale, on donne une estimation ponctuelle d’un paramètre, par la valeur d’un estimateur de ce paramètre calculée à partir d’un échantillon prélévé « au hasard »

x1,x2,,xn . Il est d’usage de noter l’estimation ponctuelle par la lettre surmontée d’un « ^ ». Estimations ponctuelles usuelles : Si X est une variable aléatoire de moyenne m et d’écart type

σ et un échantillon prélévé « au hasard »

x1,x2,,xn -

x e , la moyenne de l’échantillon est une estimation ponctuelle de la moyenne inconnue m. Soit

ˆ m = x e

-

nn −1

σe (où

σeest l’écart-type de l’échantillon) est une estimation ponctuelle de

l’écart type

σ. Soit

ˆ σ =n

n −1σe .

Page 10: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 10

Remarques :

- certaines calculatrices donnent, pour un échantillon, les deux résultats

σe et

nn −1

σe il faut donc bien lire la notice. L’estimation de l’écart-type est la

plus grande des deux valeurs.

- si n est assez grand,

nn −1

est proche de 1, les deux valeurs sont proches et

parfois

σe est acceptée comme estimation ponctuelle de l’écart-type. Si X est une variable aléatoire Bernoulli

B(1, p) ,

fe la fréquence sur l’échantillon est une estimation ponctuelle de p. Soit

ˆ p = fe

4.2.4 Estimation par intervalle de confiance Les estimations ponctuelles dépendent donc de l’échantillon. Pour un paramètre

θ , il est souvent plus réaliste et plus intéressant de fournir un renseignement du type

a < θ < b plutôt que d’écrire

ˆ θ = c . 4.2.4.1 Principe La méthode des intervalles de confiance est la suivante : Soit T un estimateur de

θ , on prendra le meilleur estimateur possible, dont on connaît la loi de probabilité pour chaque valeur de

θ . Etant donné une valeur

θ0 de

θ , on peut déterminer un intervalle de fluctuation de niveau 1-

α (ou de risque

α ) pour T, c’est à dire deux bornes

t1 et

t2 telles que :

P(t1 < T < t2θ = θ0) =1−α En général

α est petit, donc 1-

α proche de 1. Ces bornes dépendent évidemment de

θ0 . On choisira dans la plupart des cas un intervalle de fluctuation à risques symétriques

α /2 et

α /2, c’est à dire :

P(T < t1θ = θ0) = α /2 et

P(t2 < Tθ = θ0) = α /2 On adopte alors la règle de décision suivante : soit

te la valeur observée sur un échantillon de T : - si

te ∈ t1,t2[ ] on conserve

θ0 comme valeur possible de

θ - si

te ∉ t1,t2[ ] on élimine

θ0

Page 11: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 11

On lit donc selon une verticale les intervalles de fluctuation pour une valeur

θ0 et, selon l’horizontale issue de t, l’intervalle de confiance pour le paramètre

θ . On dit que

a,b[ ] est un intervalle de confiance de niveau 1-

α (qu’on appelle coefficient de confiance), on dit aussi qu’on prend le risque

α , c’est « le risque » d’avoir tort.

-

a,b[ ] est un intervalle aléatoire qui dépend de

te .

- a et b s’obtiennent par :

a = t2−1(te )

b = t1−1(te )

⎧ ⎨ ⎩

Remarques : - si l’on augmente 1-

α , on augmente la longueur de l’intervalle de fluctuation, les courbes s’écartent. - si n augmente, comme T est supposé convergent, V(T) diminue, donc

t1,t2[ ] diminue et les courbes se rapprochent de la première bissectrice. 4.2.4.2 Intervalle de confiance pour la moyenne d’une loi normale

N(m,σ) m est donc le paramètre à estimer par un intervalle de confiance. A.

σ est connu

X n est le meilleur estimateur de m et

X n suit une loi

N(m, σn)

Page 12: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 12

L’intervalle de fluctuation symétrique de

X n à

1−α est :

m − uα / 2σn

< X n < m + uα / 2σn

d’où l’intervalle de confiance :

x e − uα / 2σn

< m < x e + uα / 2σn

La valeur de

uα / 2 est lue sur la table des quantiles de la loi normale centrée réduite, c’est le quantile d’ordre

α /2. Par exemple pour un intervalle de confiance de niveau 95%,

α= 5%,

u0,025=1,96 Exemple : Dans un contrôle qualité, on prélève au hasard 36 pièces sur la production journalière de 500. On s’intéresse à la masse des pièces. On suppose (modélise) que la masse suit une loi normale

N(m,σ), et on suppose que l’écart-type de la production est connu et égal à 12,5g. On mesure la masse de ces 36 pièces, on trouve comme masse moyenne :

x e = 774,7g On en déduit les estimations de m :

- estimation ponctuelle :

ˆ m =774,7g - estimation par intervalle de confiance de niveau 95% :

770,6 ; 778,8[ ]

obtenu par

774,7 −1,96 12,536

< m < 774,7 +1,96 12,536

B.

σ est inconnu

On utilise le fait que

Tn−1 =X n −m

Sn

n −1

suit une loi de Student à (n-1) degrés

de liberté.

L’intervalle symétrique de fluctuation pour

Tn−1 est :

−tα / 2 <X n −m

Sn

n −1 < tα / 2

D’où l’intervalle de confiance :

x e − tα / 2σe

n −1< m < x e + tα / 2

σe

n −1

ou bien

x e − tα / 2

ˆ σ n

< m < x e + tα / 2

ˆ σ n

La valeur de

tα / 2 est lue sur la table de distribution de T (Loi de Student), c’est le quantile d’ordre

α /2.

Page 13: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 13

Par exemple pour un intervalle de confiance de niveau 95%,

α= 5%, Pour n= 20

t0,025=2,086, pour n=30

t0,025=2,042 , pour n=120

t0,025=1,98 Exemple : On reprend l’exemple précédent du contrôle qualité. On prélève dans une production journalière de 500 pièces un échantillon au hasard de 36 pièces. On s’intéresse à la masse des pièces. On suppose (modélise) que la masse suit une loi normale

N(m,σ). Sur l’échantillon on obtient :

x e = 774,7g et

σe= 12,5g On en déduit les estimations de m :

- estimation ponctuelle :

ˆ m =774,7g - estimation par intervalle de confiance de niveau 95% :

770,4 ; 779,0[ ]

intervalle obtenu par :

774,7 − 2,0312,535

< m < 774,7 + 2,0312,535

En pratique, ces résultats sont très souvent utilisés Le théorème central-limite a pour conséquence que les intervalles précédents sont valables pour estimer m d’une loi quelconque si n est assez grand. On a aussi, pour n assez grand,

uα / 2 ≈ tα / 2

Page 14: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 14

4.2.4.3 Intervalle de confiance pour la variance

σ2 d’une loi normale

σ2 est donc le paramètre à estimer par un intervalle de confiance. A. m est connu

On utilise l’estimateur

V =1n

Xi −m( )2i=1

i=n

∑ qui est le meilleur estimateur de

σ2 et

nVσ2

suit une loi

χn2 comme somme de n carrés de

N(0;1) indépendantes.

Soit

k1et

k2 les bornes d’un intervalle de fluctuation d’un

χn2 au niveau

1−α

C’est à dire

P(k1 <nVσ2

< k2) =1−α .

Ce graphique reprend la forme générale de la densité d’une loi du Khi-deux Remarque : le couple (

k1,

k2) n’est pas unique. Fréquemment on choisit ces valeurs en répartissant le risque

α de façon symétrique

P(nVσ2

< k1) = P(k2 <nVσ2) =

α2

En notant

ve la variance de l’échantillon :

L’intervalle de confiance est :

nvek2

<σ2 <nvek1

Page 15: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 15

B. m est inconnu

On utilise

Sn2 =

1n

Xi − X n( )2i=1

i=n

∑ et on sait que

nSn2

σ2 suit une loi

χn−12 .

Soit

l1et

l2 les bornes d’un intervalle de fluctuation d’un

χn−12 au niveau

1−α

C’est à dire

P(l1 <nSn

2

σ2< l2) =1−α

L’intervalle de confiance est :

nvel2

<σ2 <nvel1

Exemple : n=30 ;

Se2=12 ;

1−α=0,90 ; on choisit l’intervalle de probabilité 90% avec les bornes

l1 =17,708 ;

l2 = 42,557 , cela donne

8,46 <σ2 < 20,33 d’où :

2,91 <σ < 4,51. Remarques : ces résultats ne sont valables QUE pour des lois normales. 4.2.4.4 Intervalle de confiance pour le paramètre d’une loi binomiale quand n est grand C’est le problème connu sous le nom d’un intervalle de confiance pour une proportion p inconnue. Etant donnée une population infinie (ou finie si tirage avec remise) où une proportion p des individus possède un certain caractère, il s’agit de trouver un intervalle de confiance à partir de

fe , proportion trouvée dans un échantillon de taille n. On sait que

n × f suit une loi binomiale B(n,p) ; si n est « petit » on utilisera des tables de loi binomiale ou l’abaque.

Et si n est « grand »,

Fn suit approximativement la loi

N p; p(1− p)n

⎝ ⎜

⎠ ⎟

L’intervalle de fluctuation symétrique est :

p − uα / 2p(1− p)n

< Fn < p + uα / 2p(1− p)n

Les bonnes de l’intervalle de fluctuation sont donnés par

y = p ± uα / 2p(1− p)n

.

Soit

y − p( )2 = (uα / 2)2 p(1− p)

n, ce qui est l’équation d’une ellipse passant par

l’origine, et le point (1,1) pour lesquels les tangentes sont verticales.

Page 16: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 16

Remarque : les parties de l’ellipse extérieure au carré unité sont sans signification; elles correspondent aux zones où l’approximation normale n’est pas pertinente. Etant donnée une valeur

fe observée, l’intervalle de confiance s’obtient en

résolvant l’équation en p :

fe − p( )2 = (uα / 2)2 p(1− p)

n

Après calculs et approximation par un développement limité en 1/n, on obtient

p1et

p2 et, donc, l’intervalle de confiance :

fe − uα / 2fe (1− fe )

n< p < fe + uα / 2

fe (1− fe )n

Exemple : n=400 ;

fe=0,36 ;

1−α=0,95 : on a 0,31<p<0,41. 4.2.4.4 Méthode pratique de constitution d’échantillons Pour un sondage, la manière de prélever ou de constituer l’échantillon d’individus à observer est d’importance, il existe plusieurs méthodes classiques pour cela : la méthode des quotas (ou sondage raisonné), la méthode des unités types, le sondage stratifié, sondage à probabilités inégales, etc.

Page 17: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 17

4.3 TESTS STATISTIQUES

4.3.1 Tests paramétriques 4.3.1.1 Principe La variable aléatoire X dépend d’un paramètre

θ . Construire un test revient à déterminer un mécanisme décisionnel, qui au vu d’un échantillon, permet de prendre une décision sur les valeurs possibles de

θ . En pratique, cela revient à choisir entre deux hypothèses sur

θ : la première hypothèse

H0 , appelée hypothèse nulle, et une autre hypothèse,

H1, appelée hypothèse alternative. Souvent l’hypothèse nulle correspond à une égalité du paramètre

θ à une valeur donnée, on dit que

H0 est « simple ». Dans ce cas, la plupart des tests paramétriques peuvent se ramener à un test du type, où

θ0 ≠θ1 :

H0 θ = θ0H1 θ = θ1

⎧ ⎨ ⎩

ou

H0 θ = θ0H1 θ ≠ θ0

⎧ ⎨ ⎩

ou

H0 θ = θ0H1 θ > θ0

⎧ ⎨ ⎩

ou

H0 θ = θ0H1 θ < θ0

⎧ ⎨ ⎩

Ce polycopié restera dans ce cadre. Les hypothèses

H0 et

H1 ne sont pas symétriques, le choix de l’hypothèse nulle est celui qui construit le test, l’hypothèse alternative permet de construire la règle de décision. 4.3.1.2 Procédure de décision Accepter

H0 , l’hypothèse nulle, revient automatiquement à refuser

H1 l’hypothèse alternative, et réciproquement, refuser

H0 entraîne automatiquement l’acceptation de

H1. Il y a donc un risque de se tromper de décision. On synthétise le problème par un tableau de probabilités. vérité décision

H0

H1

H0 1-

α

β

H1

α 1-

β C’est à dire

P(choisir H0 /H0 vraie) =1−α

P(rejeter H0 /H0 vraie) =α Dans la pratique, on choisit

α , les valeurs courantes sont 10%, 5%, 1%.

Page 18: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 18

α étant fixé,

β sera déterminé comme résultat d’un calcul (mais ceci n’est possible que si on connaît les lois de probabilités sous

H1).

α et

β varient en sens contraire. Si on diminue

α , on augmente 1-

α (probabilité d’accepter

H0 si

H0 est vraie) mais ainsi on a une règle de décision plus stricte qui aboutit à n’abandonner

H0 que dans des cas rarissimes, donc peut-être à conserver

H0 à tort. Vocabulaire :

-

α s’appelle le niveau du test c’est aussi le risque de première espèce : probabilité de choisir

H1 alors que

H0est vraie -

β s’appelle le risque de deuxième espèce : probabilité de choisir

H0 alors que

H1 est vraie - 1-

β s’appelle la puissance du test, c’est la probabilité de choisir

H1 alors que

H1 est vraie.

- La région critique W est l’ensemble des valeurs de la variable de décision qui conduisent à écarter

H0 au profit de

H1. La forme de la région critique est déterminée par la nature de

H1, sa détermination exacte se fait en écrivant :

P(W /H0) = α La région d’acceptation est son complémentaire

W , et l’on a donc :

P(W /H0) =1−α et

P(W /H1) =1− β La construction d’un test n’est rien d’autre que la détermination de la région critique, sans connaître le résultat de l’expérience, donc a priori. En résumé, la construction d’un test revient à : 1. Choix de

H0 et de

H1 2. Détermination de la variable de décision 3. Allure de la région critique en fonction de

H1. 4. Calcul de la région critique en fonction de

α 5. Calcul éventuel de la puissance 1-

β 6. Calcul de la valeur expérimentale de la variable de décision 7. Conclusion : si la valeur expérimentale est dans la région critique, on rejette

H0 . Dans le cas contraire, on accepte

H0 , « faute de mieux » 4.3.1.2 Test de la moyenne m d’une loi

N(m,σ)

- cas où

σ est connu,

Le test repose sur la variable de décision

X n qui suit une loi

N(m, σn)

Pour

H0 m = m0

H1 m = m1

⎧ ⎨ ⎩

avec

m1 > m0 , la région critique est définie par

X n >k.

Page 19: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 19

P(X n > k /H0) = P U >k −m0σn

⎜ ⎜ ⎜

⎟ ⎟ ⎟

= α

U =X n −m0

σn

suit une loi normale centrée réduite.

Exemple : On veut tester

H0 m = 600H1 m = 650⎧ ⎨ ⎩

, et on sait que

σ=100

On a un échantillon de 9 mesures, on choisit le risque de 5%.

On calcule

k = 600 +1003.1,64 = 655 .

La règle de décision est donc la suivante : - Si la valeur moyenne trouvée sur l’échantillon est supérieure à 655, on refuse

H0 , et donc on accepte

H1 - Si la valeur moyenne trouvée sur l’échantillon est inférieure à 655, on accepte

H0 Une fois établie la règle de décision, on calcule la moyenne sur l’échantillon. Elle est de 610,2 : donc on accepte

H0 . Remarque : ici

β = 0,56, ce qui est considérable. Le test n’est pas puissant.

- cas où

σ est inconnu

Le test repose sur la variable de décision

Tn−1 =X n −m

Sn

n −1

qui suit une loi de

Student à (n-1) degrés de liberté.

Pour

H0 m = m0

H1 m ≠ m0

⎧ ⎨ ⎩

, la région critique est définie par

Tn−1 > k avec

P "Tn−1 > k"/"m = m0"( ) = α exemple :

H0 :m = 30 contre

H1 :m ≠ 30 Un échantillon de 15 observations a donné

x e = 37,2 et

σ e = 6,2 C’est un test bilatéral car on s’occupe de la valeur absolue, et la variable considérée suit une loi de Student. La valeur critique à

α=5% pour un test bilatéral d’un

T14 est 2,145

On calcule la valeur

t =37,2 − 306,2

14 = 4,35 .

Conclusion : on rejette

H0 , donc on accepte

H1. Pour les tests de moyenne, si la variable parente ne suit pas une loi normale, les tests précédents s’appliquent encore dès que n est assez grand (n>30 en général) en raison du théorème central-limite.

Page 20: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 20

Dans les deux exemples ci dessus, on a mis en place : - un test bilatéral pour

H1 :θ ≠ θ0 , la région critique correspond à

θ −θ0 significativement non nul, - un test unilatéral pour

H1 :θ > θ0 (respectivement

H1 :θ < θ0), si la région critique correspond à (

θ −θ0 ) significativement positif (respectivement négatif). Le cas

H1 :θ = θ1 se traite avec un test unilatéral suivant la position de

θ0 et

θ1. On peut dans ce cas faire le calcul de la puissance du test. 4.3.1.3 Test de la variance d’une loi

N(m,σ)

- cas où m est connu (cas peu fréquent)

La variable de décision est

V =1n

Xi −m( )2i=1

i=n

∑ .

Ainsi pour

H0 σ =σ0H1 σ =σ1

⎧ ⎨ ⎩

, avec

σ1 >σ0 la région critique est définie par

V =1n

Xi −m( )2i=1

i=n

∑ > k et k est déterminé en considérant que

nVσ2

suit une loi

χn2 .

P(V > k) = P χn2 >

nkσ 02

⎝ ⎜

⎠ ⎟ = α

- cas où m est inconnu (cas usuel)

La variable de décision est

Sn2 =

1n

Xi − X n( )2i=1

i=n

∑ et on sait que

nSn2

σ2 suit une loi

χn−12 .

-

Ainsi pour

H0 σ =σ0H1 σ =σ1

⎧ ⎨ ⎩

, avec

σ1 >σ0 la région critique est définie par

Sn2 > k et k est déterminé en considérant que

nSn2

σ2 suit une loi

χn−12 .

-

P(Sn2 > k) = P χn−1

2 >nkσ 02

⎝ ⎜

⎠ ⎟ = α

Exemple : On teste

σ0 = 3, avec 20 observations, on a trouvé

se = 3,5 , on choisit de faire un test au risque 5%

La valeur critique est d’un

χ192 pour 5% est 30,144 d’où

k =30,144.32

20=13,56

On a

se2 = 3,52 =12,25. On accepte donc

H0 Important : ces résultats ne sont valables QUE pour des lois normales. Ces tests utilisent la loi du

χ2 .

Page 21: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 21

4.3.1.4 Test de la valeur théorique d’un pourcentage p pour un grand échantillon

La variable de décision est

Fn et, pour n est grand,

Fn suit la loi

N p; p(1− p)n

⎝ ⎜

⎠ ⎟

Pour

H0 p = p0H1 p ≠ p0

⎧ ⎨ ⎩

, la région critique au risque

α est définie par :

Fn − p0 > uα / 2p0(1− p0)

n

Soit le complémentaire de

p0 − uα / 2p0(1− p0)

n;p0 + uα / 2

p0(1− p0)n

⎣ ⎢

⎦ ⎥

Exemple : Pour n=200, on observe une proportion de 45% ayant le caractère observé. On teste

p0 = 0,5 au risque de 5%.

La région critique correspond à

Fn − 0,5 >1,96 (0,5)2

200= 0,07

Or l’écart entre la valeur observée et la valeur théorique est de 0,05. On accepte donc

H0 Si n est trop petit pour une approximation par une loi normale, on utilisera une abaque elliptique (voir en annexe). 4.3.1.5 Tests de comparaison de deux échantillons gaussiens. On a deux échantillons de taille

n1 et

n2 , on veut tester si on peut admettre qu’ils viennent d’une même population relativement au caractère étudié, ces deux échantillons ayant été prélevés indépendamment l’un de l’autre. Dans ce polycopié, on ne considère que le cas où le caractère étudié peut être modélisé par une loi normale. Par exemple : taux de cholestérol de deux groupes de personnes ayant pris deux médicaments différents, taux en dioxine des résidus urbains après deux types de traitement, etc On formalise le problème de la manière suivante :

X1 suit la loi

N(m1,σ1) et

X2 suit la loi

N(m2,σ2) On veut tester

H0 :m1 = m2 et σ1 =σ2 contre

H1 :m1 ≠ m2 ou σ1 ≠σ2 Le test va considérer d’abord l’égalité des variances et, si elles ne sont pas significativement différentes, à tester ensuite les espérances en admettant

σ1 =σ2 . A- Test des variances par le test de Fisher-Snedecor En utilisant les résultats de la théorie de l’échantillonnage :

Page 22: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 22

n1S1,n12

σ12 suit une loi

χn1 −12 et

n2S2,n22

σ22 suit une loi

χn2 −12 .

Dans l’hypothèse

H0 :σ1 =σ2, on a (on l’admet) :

F =

n1S1,n12

n1 −1n2S2,n2

2

n2 −1

suit une loi de Fisher-Snedecor de paramètres

(n1 −1,n2 −1) ,

usuellement notée

F(n1 −1,n2 −1) On peut interpréter F comme le rapport de deux estimateurs de

σ12 et

σ22

respectivement. Si

σ1 =σ2, ce rapport ne doit pas différer significativement de 1. F sera la variable de décision. En pratique, on met toujours au numérateur la plus

grande des deux quantités :

n1S1,n12

n1 −1 et

n2S2,n22

n2 −1 et la région critique est de la forme

F>k avec k>1. Si les deux échantillons ont même taille

n = n1 = n2 , le calcul se simplifie

F =S1,n2

S2,n2 .

Si le test de Fisher-Snedecor aboutit à la conclusion

σ1 =σ2 , on passe au test des moyennes. Exemple :

n1 = 25; n2 =13; s12 = 0,05; s2

2 = 0,07; α = 0,05

Il faut permuter les indices 1 et 2 car

13 × 0,0712

>25 × 0,0524

La région critique pour une loi de Fisher-Snedecor

F(12;24)au risque 5% est F>2,18. Ici, la valeur est de 0,68, on accepte l’hypothèse

σ1 =σ2 . B- Test des moyennes par le test de Student Supposons désormais

σ1 =σ2 =σ . On sait :

X 1,n1 suit une loi

N(m1,σn1)

n1S1,n12

σ2 suit une loi

χn1 −12

et

X 2,n2 suit une loi

N(m2,σn2)

n2S2,n22

σ2 suit une loi

χn2 −12 .

Comme les lois sont indépendantes,

n1S1,n12 + n2S2,n2

2

σ2 suit une loi

χn1 +n2 −22 et

X 1,n1 − X 2,n2 suit une loi

N m1 −m2,σ1n1

+1n2

⎝ ⎜

⎠ ⎟

Page 23: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 23

σ étant inconnu, on utilise la loi de Student. On sait que :

T =

(X 1,n1 − X 2,n2 ) − (m1 −m2)

σ1n1

+1n2

n1S1,n12 + n2S2,n2

2

σ2(n1 + n2 − 2)

suit une loi

Tn1 +n2 −2

Ce qui, en éliminant

σ, se ramène à :

T =(X 1,n1 − X 2,n2 ) − (m1 −m2)

(n1S1,n12 + n2S2,n2

2 ) 1n1

+1n2

⎝ ⎜

⎠ ⎟

n1 + n2 − 2 suit une loi

Tn1 +n2 −2

Dans l’hypothèse

H0 :m1 = m2 et la région critique est de la forme

T > k . Exemple : on reprend l’exemple précédent

n1 = 25; n2 =13; x 1 = 2,7; x 2 = 2,8; s12 = 0,05; s2

2 = 0,07; α = 0,05 , L’hypothèse d’égalité des variances a déjà été acceptée. La valeur calculée de la variable de décision T vaut environ -3,5. La valeur critique pour

T36 au risque 5 % est de 2,03 On rejette donc l’hypotèse nulle : les échantillons sont significativement différents, dans leur moyenne en l’occurrence. Remarque : l’ordre des tests (test des variances, et, si égalité acceptée, test des moyennes) est indispensable, l’égalité des variances est nécessaire à l’utilisation d’une loi de Student. Si les échantillons sont non gaussiens, le test de variance n’est plus valable, mais on a un résultat capital, qui peut tester l’égalité des moyennes. Pour

n1 et

n2 assez grands, on peut quand même tester les moyennes en appliquant la formule de Student que

s1 soit différent ou non de

s2 . On dit que le test de Student est « robuste » car il résiste bien à un changement de la loi de

X1 et

X2. 4.3.1.6 Test de comparaison de deux pourcentages (grands échantillons). Dans deux échantillons de grande taille

n1 et

n2 , on relève les pourcentages

f1 et

f2 d’individus présentant un certain caractère. Soit

p1 et

p2 les probabilités correspondantes : il s’agit de savoir si

p1et

p2 sont significativement différents ou non.

On teste donc

H0 p1 = p2 = pH1 p1 ≠ p2

⎧ ⎨ ⎩

.

Page 24: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 24

Si

H0 est vraie,

f1 et

f2 sont deux réalisations indépendantes de deux variables

F1 et

F2 qui suivent des lois normales.

F1 suit la loi

N p; p(1− p)n1

⎝ ⎜

⎠ ⎟

F2 suit la loi

N p; p(1− p)n2

⎝ ⎜

⎠ ⎟

Donc

F1 − F2 suit la loi N p; p(1− p) 1n1

+1n2

⎝ ⎜

⎠ ⎟

On rejettera

H0 , si,

f1 − f2 > uα / 2 p(1− p) 1n1

+1n2

Si p n’est pas connu, on le remplace par son estimation :

ˆ p = n1p1 + n2 p2

n1 + n2

Exemple : échantillon A :

nA = 96 ;

fA = 0,18 échantillon B :

nB = 60 ;

fB = 0,25 test au niveau 10 %

ˆ p = 0,21 et

f1 − f2

ˆ p (1− ˆ p ) 1n1

+1n2

= 0,89 <1,68

On ne peut donc rejeter

H0 4.3.1.7 Test de comparaison de moyennes de deux échantillons appariés. Un même échantillon d’individus est soumis à deux mesures successives d’un même caractère. Exemples : copies soumises à une double correction, passage du même test d’aptitude à deux instants différents d’un cursus de formation (problème de l’apprentissage) On veut tester l’hypothèse

H0 que les deux séries de valeurs sont semblables. Soit

X1 (respectivement

X2) la variable correspondant à la première (respectivement deuxième) série. On va tester

E(X1) = E(X2) en formalisant le problème de la manière suivante :

X1 − X2 suit la loi N(m1 −m2,σ) Cela sous-entend que

(X1,X2) est un vecteur gaussien (toute combinaison linéaire de composantes suit une loi normale, voir chapitre 3) Le test de

H0 :m1 = m2 contre

H1 :m1 ≠ m2 consiste à former les différences

di = xi,1 − xi,2 et à faire un test de Student sur la moyenne des

di car

σ est en général inconnu :

Page 25: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 25

D =d Sd

n −1 =X 1,n − X 2,n

Sd

n −1 suit une loi

Tn−1

On rejettera

H0 si

d > k . La différence avec le test de Student d’égalité de deux moyennes étudié au paragraphe 4.3.1.5 provient du fait que les variables

X1 et

X2 ne peuvent être supposées indépendantes.

4.3.2 Tests d’ajsutement et tests d’indépendance utilisant la loi du Khi-deux

4.3.2.1 Tests d’ajustement Ces tests ont pour but de vérifier qu’un échantillon provient ou non d’une variable aléatoire de distribution connue. On note F la fonction de répartition de la variable échantillonnée et

F0 la fonction de répartition à laquelle on veut la comparer. Il s’agit de tester

H0 :F = F0 contre

H1 :F ≠ F0 Avant de faire un test, il est obligatoire de faire quelques vérifications simples :

- allure de l’histogramme (symétrie, etc) - relation connue entre les paramètres (par exemple : moyenne=variance pour une loi de Poisson)

- ajustement graphique : la fonction de répartition empirique pour un échantillon de grande taille doit peu différer de la fonction de répartion théorique. Avec un papier adapté au modèle testé, cela peut se faire graphiquement. Par exemple : loi exponentielle et papier semi-logarithmique, droite de Henry pour une loi normale, etc.

Test du Khi-deux Soit X une variable aléatoire discrète ou discrétisée, c’est à dire divisée en k classes de probabilités théoriques

p1, p2,, pk . Soit un N-échantillon empirique de cette variable X, et

n1,n2,,nk les effectifs observés dans ces k classes. Cela correspond à un tableau du type : - cas discret

X Effectif observé

Probabilité théorique Effectif théorique

x1

n1

P(X = x1) =

p1

Np1

xi

ni

P(X = xi) =

pi

Npi

xk

nk

P(X = xk ) =

pk

Npk total N 1 N

Page 26: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 26

- cas continu discrétisé X Effectif

observé Probabilité théorique Effectif

théorique

x1,x2] ]

n1

P(x1 < X < x2) =

p1

Np1

xi,xi+1] ]

ni

P(xi < X < xi+1) =

pi

Npi

xk,xk+1] ]

nk

P(xk < X < xk+1) =

pk

Npk total N 1 N

On considère

DN2 définie par :

DN2 =

(ni − Npi)2

Npii=1

i=k

DN2 =

(effectifs observés − effectifs théoriques)2

effectifs théoriquesi∑

DN2 une « distance » entre les effectifs théoriques et les effectifs observés.

Si

H0est vraie, on s’attend, intuitivement, à ce que cette distance soit faible.

DN2 dépend de la somme de k termes, mais ils ne sont pas indépendants il suffit

d’en connaître k-1 car

ni = Ni=1

i=k

∑ .

On a un résultat théorique très important, non montré dans ce polycopié : Théorème Si

N →+∞ ,

DN2 est asymptotiquement distribué comme une variable du

χk−12 et

ceci quelle que soit la loi de X.

D’où le test du Khi-deux : on rejettera

H0 si

d2 =(ni − Npi)

2

Npii=1

i=k

∑ est trop grand,

c’est à dire supérieur à q, avec

P(χk−12 > q) = α , pour un risque

α . Conditions d’utilisation du test :

- Pour que la distance

DN2 converge vers une loi du Khi-deux, lorsque

l’hypothèse

H0est vérifiée, il est nécessaire que le nombre d’observations

ni dans chaque classe soit supérieur à 5. Si ce n’est pas le cas pour une classe, il est nécessaire de réunir cette classe avec une classe adjacente.

- Si lors de la détermination de la loi théorique, il a été nécessaire d’estimer l paramètres, alors le nombre de degrés de liberté du Khi-deux doit être diminué de l. On a donc

P(χk− l−12 > q) = α

Page 27: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 27

Exemple : Dans un atelier de réparation automobile, on relève sur une période de 100 jours le nombre journalier d’accidents du travail. k= nombre d’accidents dans la journée 0 1 2 3 4 5 6

nk= nombre de jours concernés 14 26 27 19 8 5 1 Les données de l’échantillon donnent :

x e =2 et

σe

≈2. On propose de tester l’ajustement à une loi de Poisson de paramètre 2. k= nombre d’accidents

0 1 2 3 4 5 6

fk= fréquence observée

0,14 0,26 0,27 0,19 0,08 0,05 0,01

pk= fréquence théorique

0,1535 0,2707 0,2707 0,1804 0,0902 0,0361 0,0165

Il faut regrouper les deux dernières valeurs pour que tous les effectifs soient supérieurs à 5. k= nombre d’accidents 0 1 2 3 4 k≥5

fk= fréquence observée 0,14 0,26 0,27 0,19 0,08 0,06

pk= fréquence théorique 0,1535 0,2707 0,2707 0,1804 0,0902 0,0526 On a estimé la moyenne, on va tester la distance avec la loi du

χ42

La lecture de la table donne q=9, 5 au risque 5%. Donc on rejettera

H0 si la valeur calculée de

d2est supérieure à 9,5

d2 =(ni − Npi)

2

Npii=1

i=5

≈0,329

Donc on accepte

H0 : la distribution observée correspond à une loi de Poisson de paramètre 2 au risque de 5%. Remarque : il existe d’autres tests (Kolmogorov-Smirnov, Cramer-Von Mises) qui peuvent être plus appropriés suivant les cas 4.3.2.1 Tests d’indépendance Pour un couple de variables aléatoires réelles

(X,Y ), on possède un tableau du nombre de réalisations, au cours de N expériences identiques indépendantes, pour chaque couple de valeurs

(xi,y j ) (ou bien

xi,xi+1] ], y j ,y j+1] ]( ) )

Page 28: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 28

Y X

y1

y j

yk Total

x1

xi

nij

ni.

xr Total

n. j

N On reprend les notations de statistique descriptive :

-

nij est le nombre d’observations pour lesquelles

X = xi et

Y = y j

- ni•=

nijj∑ est le nombre d’observations pour les quelles

X = xi

- n•j=

niji∑ est le nombre d’observations pour les quelles

Y = y j

La question qui est posée est la suivante : Au vu de l’échantillon, peut-on considérer que les deux variables X et Y sont indépendantes ? On va tester

H0 : X et Y sont indépendantes contre

H1 : X et Y ne sont pas indépendantes. Si les deux variables sont indépendantes, alors la loi du couple est

pij = P(X = xi et Y = y j ) = P(X = xi).P(Y = y j ) Les probabilités

pij sont inconnues, on les estime de la manière suivante : On reprend les notations de statistique descriptive :

-

fij =nijN est la fréquence conjointe de la modalité (xi,yj)

- fi•=

fijj∑ est la fréquence de la valeur xi

- f•j=

fiji∑ est la fréquence de la valeur yj

On fait les estimations ponctuelles :

ˆ p i. = f i. ,

ˆ p . j = f. j et

ˆ p ij = ˆ p i. × ˆ p j. Le nombre théorique, si il y a indépendance, d’observations de la modalité (xi,yj) pour le couple (X,Y) est alors :

N × ˆ p ij Comme dans un test d’ajustement, on construit la « distance du Khi-deux » entre la loi théorique et la loi empirique observée par la quantité suivante :

Page 29: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 29

DN2 =

(effectifs observés − effectifs théoriques)2

effectifs théoriquesi∑

DN2 =

nij − Nˆ p ij( )2

Nˆ p ijj =1

k

∑i=1

r

Sous

H0 ,

DN2 suit a priori une loi du Khi-deux

χrk−12 car le couple est observé selon

rk modalités. Mais on a estimé des paramètres, donc il faut diminuer le nombre de degrés de liberté. On a fait :

- (r-1) estimations de

ˆ p i. car la r-ième est donnée par la contrainte

ˆ p i.i∑ =1

- (k-1) de

ˆ p . j car la k-ième est donnée par la contrainte

ˆ p . jj∑ =1.

Lors de la mise en place du test d’adéquation, il faut donc diminuer le nombre de degrés de liberté du

χ2 de

(r −1) + (k −1) . Le nombre de degrés de liberté est donc

rk −1− (r −1) − (k −1) = (r −1)(k −1). La table du

χ(r−1)(k−1)2 permet de déterminer la constante q tel que

P(χ(r−1)(k−1)2 > q) = α et donc de spécifier la région critique du test.

Exemple : Tester au seul de 5%, l’efficacité d’un nouveau vaccin contre la grippe, pour lequel un relevé statistique donne le tableau

vaccinés non vaccinés total ont contracté la grippe 13 26 39 n’ont pas contracté la grippe

107 94 201

total 120 120 240

Quelques éléments de construction du test : - 240 observations, - probabilité théorique d’être vacciné= 120/240=0,5 - probabilité théorique de contracter la grippe = 39/240=0,1625

Tableau « théorique » si indépendance

vaccinés non vaccinés total ont contracté la grippe 19,5 19,5 39 n’ont pas contracté la grippe

100,5 100,5 201

total 120 120 240 La région critique est déterminée par la loi du Khi-deux

χ12 .

Au seuil de 5%

P(χ12 > q) = 0,05 avec q=3,841

Page 30: BASES DE LA STATISTIQUE INFERENTIELLEd’un échantillon sont n réalisations d’une même variable aléatoire X réelle sur la population, appelée variable aléatoire parente. On

Chapitre 4 30

On calcule la « distance du Khi-deux » entre les valeurs observées et les valeurs théoriques.

(13 −19,5)2

19,5+(26 −19,5)2

19,5+(107 −100,5)2

100,5+(94 −100,5)2

100,5= 5,17

5,17>3,841 On rejette

H0 : le vaccin est efficace.