Rappels stats-2014-part2

80
Arthur CHARPENTIER - Rappels de probabilit´ es & statistiques Probabilit´ es & statistiques quelques brefs rappels # 2 Arthur Charpentier, 2014 http ://freakonometrics.hypotheses.org/category/courses/m1-statistique 1

description

 

Transcript of Rappels stats-2014-part2

Page 1: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Probabilites & statistiques

quelques brefs rappels # 2

Arthur Charpentier, 2014

http ://freakonometrics.hypotheses.org/category/courses/m1-statistique

1

Page 2: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Plan du cours

◦ Introduction, la modelation statistique

• Rappels de probabilite

◦ Fonctions usuelles, P, F , f , E, Var

◦ Lois uselles, discetes et continues

◦ Conditionnement, esperance conditionnelle et melanges

◦ Convergence, approximations et theoremes limites

· Loi(s) des grands nombres

· Theoreme central limite

• Rappels de statistique (mathematique)

◦ De la statistique descriptive a la statistique mathematique

◦ Echantillonnage, moyenne et variance

◦ Intervalle de confiance

◦ Introduction aux tests

2

Page 3: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

L’estimateur comme variable aleatoire

En statistique descriptive, on construit des estimateurs comme des fonctions des

valeurs de l’echantillon, {x1, · · · , xn}, e.g.

xn =x1 + · · ·+ xn

n

En statistique mathematique, on suppose que xi = Xi(ω), i.e. la realisation d’un

variable aleatoire sous-jacente

Xn =X1 + · · ·+Xn

n

X1,..., Xn etant des variables aleatoires, Xn devient une variable aleatoire.

Exemple : supposons que nous disposons d’un echantillon de n = 20 valeurs

tirees suivant une loi uniforme sur [0, 1].

3

Page 4: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Distribution de la moyenne d'un échantillon U([0,1])

Fré

quen

ce

0.0 0.2 0.4 0.6 0.8 1.0

050

100

150

200

250

300

0.457675

0.0 0.2 0.4 0.6 0.8 1.0

Figure 1 – Distribution de la moyenne de {X1, · · · , X10}, Xi ∼ U([0, 1]).

4

Page 5: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Distribution de la moyenne d'un échantillon U([0,1])

Fré

quen

ce

0.0 0.2 0.4 0.6 0.8 1.0

050

100

150

200

250

300

0.567145

●● ●● ●●● ●●●● ● ●● ●●● ●●● ●●● ●● ●● ● ●● ●● ●●● ●● ● ●●● ●● ● ●● ● ●● ●●●● ● ●● ●●●● ●● ● ● ●●●●●● ●● ● ●● ●●● ● ●● ●● ● ●● ●● ● ●● ●● ●●● ●● ●●● ●● ●●●● ●●●● ●● ●●● ● ●●●● ● ● ●●● ●● ● ●● ●●●●● ●● ● ●● ●● ●●●●●● ● ●● ●●● ● ●● ● ●● ●●●●● ● ●●●●● ●●● ● ● ●●● ●●●●● ●●● ●● ● ●●● ●● ●●● ● ●●● ●● ●● ●● ●●● ●● ●● ●●●●● ●●●●● ●●● ●●●● ●● ● ● ●●●● ●●● ●●●● ●● ●●●● ● ●● ●●●●● ●●●● ●● ●●● ●● ●● ●● ● ● ● ●●● ● ●●● ● ●●● ● ●● ●●● ● ●●●● ●● ●● ●●● ●● ● ●● ●●● ● ● ●●● ●●● ●●● ●●● ●●● ●● ●●● ●● ●● ● ●● ●● ● ●●● ●●● ●● ● ●●● ● ●● ●●● ●● ●● ●●● ●● ●●●●●●● ●● ● ●●● ●●●●● ● ● ●●● ●● ●● ●●●● ●● ●●● ●● ●● ●● ●●●● ●●●●●●●● ●●●● ●●● ●● ●●● ●●● ●● ●●●● ●● ●● ● ●● ●● ●●● ●●● ●●●●● ●● ●● ●● ●● ● ●● ● ●●● ●●● ●● ●● ●● ●●● ● ●● ●● ●●● ●●●● ●●● ●● ●●●● ●● ●● ●● ●●● ● ●● ●● ●●●● ●●●●● ● ●●● ●●●●● ●●●● ●●●● ●● ●● ● ● ●● ●● ●● ●● ●● ● ●●● ● ●● ●● ● ●● ●● ● ● ●●●●●●●●● ●●●● ●●● ● ●●● ●● ●● ●● ●● ●● ●●● ● ●●● ●● ● ●●●● ● ●● ● ●●● ●● ●● ●● ●●●●● ●● ●● ●● ● ●● ● ● ●●● ●● ● ●● ●●● ●●●● ●● ●● ●● ● ●●●● ●● ●● ●● ●●● ●●● ● ●● ●● ● ●● ● ●● ●●● ●●●● ●●● ●● ● ●●●●● ●●● ●●● ●● ● ●●● ●● ●●● ● ●●●● ●● ●● ●●●● ●● ● ●●● ●● ●●● ●● ●● ●●●● ●●● ● ●●●● ●● ●●●● ● ●●● ● ●●● ●● ●● ● ●● ● ●●● ●● ●●● ●●● ●●● ● ●●●●● ● ●● ● ●●● ●●● ●● ●●●● ● ● ●● ●● ●●● ●● ●●● ●●●● ●●● ●● ●● ●●● ●●●● ●●● ●● ●●●● ●● ● ●●●●● ●● ● ●● ●●● ● ●●● ●●● ●●●● ●●● ●●●●● ●●● ●● ● ●●● ●●● ● ●●● ● ●●●● ●● ●●● ● ●● ●● ● ●● ● ●● ●●● ●●● ● ●● ●● ●●● ● ●●● ●● ●● ● ●●● ●● ● ● ●●●● ● ● ●● ● ●●

0.0 0.2 0.4 0.6 0.8 1.0

Figure 2 – Distribution de la moyenne de {X1, · · · , X10}, Xi ∼ U([0, 1]).

5

Page 6: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

L’estimateur comme variable aleatoire

Si l’echantillon change, l’estimateur n’est pas le meme.

Constituons 1000 echantillons de maniere aleatoire. En moyenne, l’estimateur

vaut 1/2. Aussi, la moyenne empirique est un estimateur sans biais de 1/2,

l’esperance mathematique de la loi uniforme sur [0, 1].

Cet estimateur a une variance, et aussi une loi (en l’occurence une densite). Ici,

la moyenne empirique suit (presque) une loi normale.

On distingera toutefois les comportements a distance finie (n fixe) et

asymptotique (theoremes limites - loi des grands nombres et theoreme central

limite - obtenus lorsque n→∞).

6

Page 7: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Petites proprietes preliminaires

Soit x = (x1, · · · , xn) ∈ Rn. Posons x =x1 + · · ·+ xn

n. Alors,

minm∈R

{n∑i=1

[xi −m]2

}=

n∑i=1

[xi − x]2

etn∑i=1

[xi − x]2 =n∑i=1

x2i − nx2

7

Page 8: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La moyenne (empirique)

Definition 1. Soit {X1, · · · , Xn} des variables i.i.d. de loi F . La moyenne

empirique est

Xn =X1 + · · ·+Xn

n=

1

n

n∑i=1

Xi

Si on suppose les Xi d’esperance finie (notee µ), alors

E(Xn) = E

(1

n

n∑i=1

Xi

)∗=

1

n

n∑i=1

E (Xi) =1

nnµ = µ

∗ par linearite de l’esperance

Proposition 2. Si on suppose les Xi d’esperance finie (notee µ),

E(Xn) = µ.

La moyenne est un estimateur sans biais de l’esperance mathematique.

8

Page 9: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La moyenne (empirique)

Si on suppose les Xi independants de variance finie (notee σ2), alors

Var(Xn) = Var

(1

n

n∑i=1

Xi

)∗=

1

n2

n∑i=1

Var (Xi) =1

n2nσ2 =

σ2

n

∗ car les variables sont independantes, et car la variance est quadratique.

Proposition 3. Si on suppose les Xi i.i.d. de variance finie (notee σ2),

Var(Xn) =σ2

n.

9

Page 10: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La variance (empirique)

Definition 4. Soit {X1, · · · , Xn} des variables i.i.d. de loi F . La variance

empirique est

S2n =

1

n− 1

n∑i=1

[Xi −Xn]2.

Si on suppose les Xi de variance finie (notee σ2),

E(S2n) = E

(1

n− 1

n∑i=1

[Xi −Xn]2

)∗= E

(1

n− 1

[n∑i=1

X2i − nX

2

n

])

∗ par la propriete preliminaire enoncee auparavant

E(S2n) =

1

n− 1[nE(X2

i )− nE(X2)]∗=

1

n− 1

[n(σ2 + µ2)− n

(σ2

n+ µ2

)]= σ2

∗ car Var(X) = E(X2)− E(X)2

10

Page 11: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La variance (empirique)

Proposition 5. Si on suppose les Xi independants de variance finie (notee σ2),

E(S2n) = σ2.

La variance (empirique) est un estimateur sans biais de la variance.

Remarque Pour avoir un estimateur sans biais, on considere comme estimateur

S2n, avec un facteur n− 1, et non pas

S2n =

1

n

n∑i=1

[Xi −Xn]2

(qui reste un estimateur classique).

11

Page 12: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Cas d’un echantillon Gaussien

Proposition 6. Si on suppose les Xi i.i.d. de loi N (µ, σ2), alors

• Xn et S2n sont des variables aleatoires independantes,

• Xn a pour loi N(µ,σ2

n

)• (n− 1)S2

n/σ2 a pour loi χ2(n− 1).

Remarque Pour comprendre l’histoire du n− 1 degres de libertes pour une

somme de n termes, notons que

S2n =

1

n− 1

[n∑i=1

(Xi −Xn)2

]=

1

n− 1

[(X1 −Xn)2 +

n∑i=2

(Xi −Xn)2

]

soit S2n =

1

n− 1

( n∑i=2

(Xi −Xn)

)2

+n∑i=2

(Xi −Xn)2

car

n∑i=1

(Xi −Xn) = 0. Aussi S2n est fonction de n− 1 variables (centrees),

X2 −Xn, · · · , Xn −Xn

12

Page 13: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Cas d’un echantillon Gaussien

Proposition 7. Si on suppose les Xi i.i.d. de loi N (µ, σ2), alors

•√nXn − µ

σsuit une loi N (0, 1)

•√nXn − µSn

suit une loi de Student a n− 1 degres de liberte

En effet,

√nXn − µS

=√nXn − µ

σ︸ ︷︷ ︸N (0,1)

/

√(n− 1)S2

n

σ2︸ ︷︷ ︸χ2(n−1)

×√n− 1

13

Page 14: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Proprietes asymptotiques

Proposition 8. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie). Alors pour tout ε > 0,

limn→∞

P(|Xn − µ| > ε) = 0

i.e. XnP→ µ (convergence en probabilite).

Proposition 9. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie). Alors pour tout ε > 0,

limn→∞

P(|S2n − σ2| > ε) ≤ Var(S2

n)

ε2

i.e. une condition suffisante pour que S2n

P→ σ2 (convergence en probabilite) est

que Var(S2n)→ 0 lorsque n→∞.

14

Page 15: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Proprietes asymptotiques

Proposition 10. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie). Alors pour tout z ∈ R,

limn→∞

P(√

nXn − µ

σ≤ z)

=

∫ z

−∞

1√2π

exp

(− t

2

2

)dt

i.e.√nXn − µ

σ

L→ N (0, 1).

Remarque Si les Xi ont pour loi N (µ, σ2), alors

√nXn − µ

σ∼ N (0, 1).

15

Page 16: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Estimation de la variance

Considerons un echantillon Gaussien, alors

Var

((n− 1)S2

n

σ2

)= Var(Z) avec Z ∼ χ2

n−1

donc cette quantite vaut

(n− 1)2

σ4Var(S2

n) = 2(n− 1)

de telle sorte que

Var(S2n) =

2(n− 1)σ4

(n− 1)2=

2σ4

(n− 1).

16

Page 17: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Estimation de l’ecart-type et de la variance

Considerons le cas ou Xi ∼ N (µ, σ2). Un estimateur naturel de σ est

Sn =√S2n =

√√√√ 1

n− 1

n∑i=1

(Xi −Xn)2

On peut alors montrer que

E(Sn) =

√2

n− 1

Γ(n/2)

Γ([n− 1]/2)σ ∼

(1− 1

4n− 7

32n2

)σ 6= σ

mais

SnP→ σ et

√n(Sn − σ)

L→ N(

0,σ

2

)

17

Page 18: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Estimation de l’ecart-type et de la variance

0 50 100 150

0.93

0.95

0.97

0.99

Taille de l'échantillon (n)

Bia

is (

mul

tiplic

atif)

Figure 3 – Biais lors de l’estimation de l’ecart-type.

18

Page 19: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Echantillon transforme

Soit g : R→ R suffisemment reguliere pour ecrire un developpement de Taylor en

tout point,

g(x) = g(x0) + g′(x0) · [x− x0] + un reste

Soit Yi = g(Xi). Alors, si E(Xi) = µ avec g′(µ) 6= 0

Yi = g(Xi) ≈ g(µ) + g′(µ) · [Xi − µ]

de telle sorte que

E(Yi) = E(g(Xi)) ≈ g(µ)

et

Var(Yi) = Var(g(Xi)) ≈ [g′(µ)]2Var(Xi)

Remarque Il ne s’agit que d’approximations.

19

Page 20: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Echantillon transforme

La delta-method permet d’obtenir des proprietes asymptotiques.

Proposition 11. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie), alors

√n(Xn − µ)

L→ N (0, σ2)

Et si g′(µ) 6= 0, alors

√n(g(Xn)− g(µ))

L→ N (0, [g′(µ)]2σ2)

Proposition 12. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie), et si g′(µ) = 0 mais g′′(µ) 6= 0, alors

√n(g(Xn)− g(µ))

L→ g′′(µ)

2σ2χ2(1)

20

Page 21: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Echantillon transforme

Example Si µ 6= 0,√n

(1

Xn

− 1

µ

)L→ N

(0,

1

µ4σ2

)

21

Page 22: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance pour µ

Quand on parlera de l’intervalle de confiance de µ a un niveau de confiance 1− α(e.g. 95%), il s’agira du plus petit intervallle I tel que

P(µ ∈ I) = 1− α.

Notons uα le quantile de la loi N (0, 1) au niveau α, i.e.

uα/2 = −u1−α/2 verifie Φ(uα/2) = α/2

Comme Z =√nXn − µ

σ∼ N (0, 1),

on peut en deduire que P(Z ∈ [uα/2, u1−α/2]) = 1− α,

et donc

P(µ ∈

[X +

uα/2√nσ,X +

u1−α/2√n

σ

])= 1− α.

22

Page 23: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

• si α = 10%, u1−α/2 = 1.64 et donc, avec une probabilite de 90%,

X − 1.64√nσ ≤ µ ≤ X +

1.64√nσ,

• si α = 5%, u1−α/2 = 1.96 et donc, avec une probabilite de 95%,

X − 1.96√nσ ≤ µ ≤ X +

1.96√nσ,

23

Page 24: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

Si la variance est inconnue, on l’estime par S2n =

1

n− 1

(n∑i=1

X2i

)−X2

n.

On a vu que

(n− 1)S2n

σ2=

n∑i=1

Xi − E(X)

σ︸ ︷︷ ︸N (0,1)

2

︸ ︷︷ ︸loi du χ2(n)

Xn − E(X)

σ/√n︸ ︷︷ ︸

N (0,1)

2

︸ ︷︷ ︸loi du χ2(1)

Le theoreme de Cochrane permet de conclure que(n− 1)S2

n

σ2∼ χ2(n− 1).

24

Page 25: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

Comme Xn et S2n sont independantes,

T =√n− 1

Xn − µSn

=

Xn−µσ/√n−1√

(n−1)S2n

(n−1)σ2

∼ St(n− 1).

Si t(n−1)α/2 designe le quantile de la loi St(n− 1) au niveau α/2, i.e.

t(n)α/2 = −t(n−1)1−α/2 verifie P(T ≤ t(n−1)α/2 ) = α/2

on peut en deduire que P(T ∈ [t(n−1)α/2 , t

(n−1)1−α/2]) = 1− α, et donc

P

µ ∈X +

t(n−1)α/2√n− 1

σ,X +t(n−1)1−α/2√n− 1

σ

= 1− α.

25

Page 26: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

• si n = 10 et α = 10%, u1−α/2 = 1.833 et donc, avec une probabilite de 90%,

X − 1.833√nσ ≤ µ ≤ X +

1.833√nσ,

• si n = 10 et si α = 5%, u1−α/2 = 2.262 et donc, avec une probabilite de 95%,

X − 2.262√nσ ≤ µ ≤ X +

2.262√nσ,

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Quantiles

Inte

rvall

e de

conf

iance IC 90%

IC 95%

Figure 4 – Quantiles pour n = 10, σ connue ou inconnue.

26

Page 27: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

• si n = 20 et α = 10%, u1−α/2 = 1.729 et donc, avec une probabilite de 90%,

X − 1.729√nσ ≤ µ ≤ X +

1.729√nσ,

• si n = 20 et si α = 5%, u1−α/2 = 2.093 et donc, avec une probabilite de 95%,

X − 2.093√nσ ≤ µ ≤ X +

2.093√nσ,

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Quantiles

Inte

rvall

e de

conf

iance IC 90%

IC 95%

Figure 5 – Quantiles pour n = 20, σ connue ou inconnue.

27

Page 28: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

• si n = 100 et α = 10%, u1−α/2 = 1.660 et donc, avec une probabilite de 90%,

X − 1.660√nσ ≤ µ ≤ X +

1.660√nσ,

• si n = 100 et si α = 5%, u1−α/2 = 1.984 et donc, avec une probabilite de 95%,

X − 1.984√nσ ≤ µ ≤ X +

1.984√nσ,

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Quantiles

Inte

rvall

e de

conf

iance IC 90%

IC 95%

Figure 6 – Quantiles pour n = 100, σ connue ou inconnue.

28

Page 29: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La lecture des tables

Fonction de repartition de la loi normale X ∼ N (0, 1),

P(X ≤ u) = Φ(u) =

∫ u

−∞

1√2πe−y

2/2dy

Example P(X ≤ 1, 96) = 0, 975.

29

Page 30: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Interpretation d’un intervalle de confiance

Si on genere des echantillons i.i.d. suivant une loi N (µ, σ2), avec µ et σ2 fixes, il y

a 90 chances sur 100 que µ soit dans un des intervalles suivants[X +

uα/2√nσ,X +

u1−α/2√n

σ

]

●●●

●●●

●●●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

0 50 100 150 200

−1.0

−0.5

0.00.5

1.0

interv

alle de

confi

ance

Figure 7 – Intervalle de confiance pour µ, avec σ2 connue.

30

Page 31: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Interpretation d’un intervalle de confiance

ou X +t(n−1)α/2√n− 1

σ,X +t(n−1)1−α/2√n− 1

σ

●●●

●●●

●●●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

0 50 100 150 200

−1.0

−0.5

0.00.5

1.0

interv

alle de

confi

ance

Figure 8 – Intervalle de confiance pour µ, avec σ2 estimee.

31

Page 32: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Un peu de tests

Le lien entre la decision est la vraie valeur peut etre represente par le tableau

ci-dessous

H0 vraie H1 vraie

Decision d0 Bonne decision erreur de seconde espece

Decision d1 erreur de premiere espece Bonne decision

32

Page 33: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyenne sur un echantillon H0 : µ = µ0

H0 : µ6=µ0

La statistique de test est

T =√nx− µ0

sou s2 =

1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ St(n− 1).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

33

Page 34: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparaison de moyennes de deux echantillons

Considerons un test d’egalite de moyenne sur deux echantillons.

On dispose de deux echantillons, {x1, · · · , xn} et {y1, · · · , ym}. On souhaite tester H0 : µX = µY

H0 : µX 6=µY

On rajoute une hypothese, X ∼ N (µX , σ2X) et Y ∼ N (µY , σ

2Y ), i.e.

X ∼ N(µX ,

σ2X

n

)et Y ∼ N

(µY ,

σ2Y

m

)

34

Page 35: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparaison de moyennes de deux echantillons

−1 0 1 2

0.0

0.5

1.0

1.5

2.0

●●● ● ● ●● ●●● ●●● ●●

35

Page 36: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparaison de moyennes de deux echantillons

Par independance entre X et Y , notons que ∆ = X − Y suit une loi normale,

E(∆) = µX − µY et V ar(∆) =σ2X

n+σ2Y

m

Donc sous H0, µX − µY = 0 et donc

D ∼ N(

0,σ2X

n+σ2Y

m

),

i.e. ∆ =X − Y√σ2X

n+σ2Y

m

∼ N (0, 1).

36

Page 37: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparaison de moyennes de deux echantillons

Probleme σX et σY sont inconnus : on les remplace par des estimateurs σX et

σY ,

i.e. ∆ =X − Y√σ2X

n+σ2Y

m

∼ St(ν),

ou ν est une fonction (compliquee) de n1 et n2.

On se donne un seuil d’acceptation α ∈ [0, 1] (e.g. 10%), on accepte H0 si tα/2 ≤ δ ≤ t1−α/2on accepte H0 si δ < tα/2 ou δ > t1−α/2

37

Page 38: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●●● ● ● ●● ●●● ●●● ●●

ACCEPTATIONREJET REJET

38

Page 39: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

On peut se demander la probabilite p d’obtenir une valueur au moins aussi

grande que δ si H0 est vraie,

p = P(|Z| > |δ||H0 vraie) = P(|Z| > |δ||Z ∼ St(ν)).

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●●● ● ● ●● ●●● ●●● ●●

34.252 %

39

Page 40: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Sous R, t.test(x, y, alternative = c("two.sided", "less", "greater"), mu = 0,

var.equal = FALSE, conf.level = 0.95) permet de tester si les moyennes de deux

chantillons x et y sont egales (mu=0), contre H1 : µX 6= µY ("two.sided").

−2 −1 0 1 2

0.0

0.5

1.0

1.5

2.0

●● ●● ● ●●● ●● ●● ● ●● ●●

40

Page 41: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●● ●● ● ●●● ●● ●● ● ●● ●●

ACCEPTATIONREJET REJET

41

Page 42: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●● ●● ● ●●● ●● ●● ● ●● ●●

2.19 %

42

Page 43: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyenne sur un echantillon H0 : µ = µ0

H0 : µ≥µ0

La statistique de test est

T =√nx− µ0

sou s2 =

1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ St(n− 1).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

43

Page 44: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyenne sur un echantillon H0 : µ = µ0

H0 : µ≤µ0

La statistique de test est

T =√nx− µ0

sou s2 =

1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ St(n− 1).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

44

Page 45: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variance sur un echantillon H0 : σ2 = σ20

H0 : σ2 6=σ20

La statistique de test est

T =(n− 1)s2

σ20

ou s2 =1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ χ2(n− 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

45

Page 46: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variance sur un echantillon H0 : σ2 = σ20

H0 : σ2≥σ20

La statistique de test est

T =(n− 1)s2

σ20

ou s2 =1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ χ2(n− 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

46

Page 47: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variance sur un echantillon H0 : σ2 = σ20

H0 : σ2≤σ20

La statistique de test est

T =(n− 1)s2

σ20

ou s2 =1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ χ2(n− 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

47

Page 48: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyennes sur deux echantillons H0 : µ1 = µ2

H0 : µ1 6=µ2

La statistique de test est

T =

√n1n2n1 + n2

[x1 − x2]− [µ1 − µ2]

sou s2 =

(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2

,

qui verifie, sous H0, T ∼ St(n1 + n2 − 2).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

48

Page 49: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyennes sur deux echantillons H0 : µ1 = µ2

H0 : µ1≥µ2

La statistique de test est

T =

√n1n2n1 + n2

[x1 − x2]− [µ1 − µ2]

sou s2 =

(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2

,

qui verifie, sous H0, T ∼ St(n1 + n2 − 2).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

49

Page 50: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyennes sur deux echantillons H0 : µ1 = µ2

H0 : µ1≤µ2

La statistique de test est

T =

√n1n2n1 + n2

[x1 − x2]− [µ1 − µ2]

sou s2 =

(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2

,

qui verifie, sous H0, T ∼ St(n1 + n2 − 2).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

50

Page 51: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variances sur deux echantillons H0 : σ21 = σ2

2

H0 : σ21 6=σ2

2

La statistique de test est

T =s21s22, si s21 > s22,

qui verifie, sous H0, T ∼ F(n1 − 1, n2 − 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

51

Page 52: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variances sur deux echantillons H0 : σ21 = σ2

2

H0 : σ21≥σ2

2

La statistique de test est

T =s21s22, si s21 > s22,

qui verifie, sous H0, T ∼ F(n1 − 1, n2 − 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

52

Page 53: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variances sur deux echantillons H0 : σ21 = σ2

2

H0 : σ21≤σ2

2

La statistique de test est

T =s21s22, si s21 > s22,

qui verifie, sous H0, T ∼ F(n1 − 1, n2 − 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

53

Page 54: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Modele parametrique

On dispose d’un echantillon {x1, · · · , xn}, de n observations independantes.

On suppose que les xi sont des realisations d’une variable aleatoire X dont la loi

F est inconnue. Le but est de determiner F .

En statistique parametrique, on suppose que F appartient necessairement a une

famille caracterisee par un parametre θ ∈ Θ.

• X suit une loi de Bernoulli, X ∼ B(p), θ = p ∈ (0, 1),

• X suit une loi de Poisson, X ∼ P(λ), θ = λ ∈ R+,

• X suit une loi normale, X ∼ N (µ, σ), θ = (µ, σ) ∈ R× R+,

On cherche donc une valeur de θ, notee θ0, inconnue, telle que l’on supposera

que X suit une loi Fθ0.

Remarque On supposera souvent que Θ est un ouvert, il est delicat d’estimer

sur les bords.

54

Page 55: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Exemple : jeu de pile ou face

On dispose d’un echantillon

{pile,pile, face,pile, face,pile, face, face,pile, face, pile, face}

que l’on interpretera en posant

X =

1 si pile

0 si face.

On dispose de l’echantillon

{1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0}

On peut supposer ici que X suite une loi binomiale, X ∼ B(p), de parametre p

inconnu (mais que l’on va chercher a estimer).

55

Page 56: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Inference statistique

Quelle est la vraie valeur de p, que l’on ne connaıt pas ?

• Quelle est la valeur de p la plus vraisemblable ?

Sur n lancers, la probabilite d’obtenir precisement l’echantillon {x1, · · · , xn} est

P(X1 = x1, · · · , Xn = xn),

ou X1, · · · , Xn sont n versions independentes de X, supposees suivre la loi B(p).

Aussi,

P(X1 = x1, · · · , Xn = xn) =n∏i=1

P(Xi = xi) =n∏i=1

pxi × (1− p)1−xi ,

car pxi × (1− p)1−xi =

p si xi vaut 1

1− p si xi vaut 0

56

Page 57: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Inference statistique

Aussi,

P(X1 = x1, · · · , Xn = xn) = p∑n

i=1 xi × (1− p)∑n

i=1 1−xi .

Cette fonction, qui depend de p mais aussi de {x1, · · · , xn} est appelee

vraisemblance de l’echantillon, et sera notee L (likelihood),

L(p;x1, · · · , xn) = p∑n

i=1 xi × (1− p)∑n

i=1 1−xi .

Ici, nous avons obtenu 5 valeurs de 1 et 6 fois 0. On en deduit les vraisemblances

suivante en fonction de l’echantillon.

57

Page 58: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Valeur de p L(p;x1, · · · , xn)

0.1 5.314410e-06

0.2 8.388608e-05

0.3 2.858871e-04

0.4 4.777574e-04

0.5 4.882812e-04

0.6 3.185050e-04

0.7 1.225230e-04

0.8 2.097152e-05

0.9 5.904900e-07

0.0 0.2 0.4 0.6 0.8 1.0

0e

+0

01

e−

04

2e

−0

43

e−

04

4e

−0

45

e−

04

Probabilité p

Vra

ise

mb

lan

ce

L

● ●

●●

La valeur la plus vraisemblance pour p est obtenue au maximum de la

vraisemblance, i.e. 0.4545.

58

Page 59: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Inference statistique

• Peut-on utiliser la moyenne empirique ?

Rappelons que l’on dispose de l’echantillon

{1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0}

Rappelons que pour une loi binomiale, E(X) = p. Aussi, il pourrait etre legitime

de considerer comme estimateur de p la version empirique de E(X), i.e. x.

Un estimateur naturel de p serait donc x 5/11 = 0.4545.

59

Page 60: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

Formellement, si fθ designe la vraie loi (inconnue) de X,

• la densite de X si X est continue, i.e. fθ(x) =dF (x)

dx= F ′(x),

• la loi de probabilite de X si X n’est pas continue, i.e. fθ(x) = P(X = x),

La vraisemblance s’ecrit, comme les Xi sont i.i.d.

L(θ;x1, · · · , xn) = P(X1 = x1, · · · , Xn = xn) =n∏i=1

fθ(xi)

Un estimateur naturel pour θ est obtenu au maximum de la vraisemblance,

θ ∈ argmax{L(θ;x1, · · · , xn),θ ∈ Θ}.

Petite remarque pratique : pour toute fonction croissante h,

θ ∈ argmax{h (L(θ;x1, · · · , xn)) ,θ ∈ Θ}.

60

Page 61: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

0 1 2 3 4 5

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

Figure 9 – Invariance de la position du maximum par transformation croissante.

61

Page 62: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

Prenons le cas particulier de la fonction h = log

θ ∈ argmax{log (L(θ;x1, · · · , xn)) ,θ ∈ Θ}.

i.e. on cherche le maximum de la log-vraisemblance, qui s’ecrit simplement

logL(θ;x1, · · · , xn) =n∑i=1

log fθ(xi)

et pour chercher le maximum, la condition du 1er ordre impose de calculer des

derivees (et la derivee d’une somme est plus simple a calculer que la probabilite

d’un produit), si θL(θ;x) est derivable.

62

Page 63: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

0.0 0.2 0.4 0.6 0.8 1.0

0e

+0

01

e−

04

2e

−0

43

e−

04

4e

−0

45

e−

04

Probabilité p

Vra

ise

mb

lan

ce

L

● ●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−3

0−

25

−2

0−

15

−1

0

Probabilité pL

og

vra

ise

mb

lan

ce

L

●● ● ● ●

Figure 10 – Fonction de vraisemblance et de log-vraisemblance.

63

Page 64: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

Les quations de vraisemblance sont alors

• condition du premier ordre

si θ ∈ Rk,∂ log (L(θ;x1, · · · , xn))

∂θ

∣∣∣∣θ=θ

= 0

si θ ∈ R,∂ log (L(θ;x1, · · · , xn))

∂θ

∣∣∣∣θ=θ

= 0

• condition du second ordre

si θ ∈ Rk,∂2 log (L(θ;x1, · · · , xn))

∂θ∂θ′

∣∣∣∣θ=θ

est definie negative

si θ ∈ R,∂2 log (L(θ;x1, · · · , xn))

∂θ

∣∣∣∣θ=θ

< 0

La fonction∂ log (L(θ;x1, · · · , xn))

∂θest appele fonction score : au maximum de

vraisemblance, le score est nul.

64

Page 65: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La notion d’information de Fisher

Un estimateur θ de θ sera dit exhaustif s’il fournit autant d’information sur θ que

l’ensemble des observations {x1, · · · , xn}.

L’information de Fisher associee a une densite fθ, θR est

I(θ) = E(d

dθlog fθ(X)

)2

ou X a pour loi fθ,

I(θ) = V ar

(d

dθlog fθ(X)

)= −E

(d2

dθ2log fθ(X)

).

Notons que l’information de Fisher est simplement la variance du score.

Pour parle aussi d’information de Fisher pour un observation unique. Dans le cas

d’un echantillon X1, · · · , Xn de densite fθ, l’information est In(θ) = n · I(θ).

65

Page 66: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Notions d’efficacite et d’optimalite

Si θ est une estimateur sans biais de θ, alors V ar(θ) ≥ 1

nI(θ). Un estimateur qui

atteint cette borne sera dit efficace.

Mais la borne n’est pas toujours atteignable.

Un estimateur θ sans biais sera dit optimal s’il est de variance minimale parmi

tous les estimateurs sans biais.

La notion d’information de Fisher en dimension plus grande

L’information de Fisher est la matrice k × k I = [Ii,j ] ou

Ii,j = E(∂

∂θiln fθ(X)

∂θjln fθ(X)

).

66

Page 67: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Exemple de calcul d’information de Fisher

Soit X suivant une loi P(θ),

log fθ(x) = −θ + x log θ − log(x!) etd2

dθ2log fθ(x) = − x

θ2

I(θ) = −E(d2

dθ2log fθ(X)

)= −E

(−Xθ2

)=

1

θ

Pour une loi B(n, θ), I(θ) =n

θ(1− θ)

Pour une loi BN (θ, σ2), I(θ) =1

σ2

Pour une loi BN (µ, θ), I(θ) =1

2θ2

67

Page 68: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

Definition 13. Soit {x1, · · · , xn} un echantillon de loi fθ, ou θ ∈ Θ. On appelle

estimateur du maximum de vraisemblance θn de θ

θn ∈ argmax{L(θ;x1, · · · , xn),θ ∈ Θ}.

Proposition 14. Sous quelques conditions techniques, θn converge presque

surement vers θ, θnp.s.→ θ.

Proposition 15. Sous quelques conditions techniques, θn est un estimateur

asymptotiquement efficace de θ,

√n(θn − θ)

L→ N (0, I−1(θ)).

L’estimateur du maximum de vraisemblance n’a aucune raison d’etre sans biais.

68

Page 69: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance, cas N (µ, σ2)

Soit {x1, · · · , xn} un echantillon independant, distribue suivant la loi N (µ, σ2),

de densite

f(x | µ, σ2) =1√

2π σexp

(− (x− µ)2

2σ2

).

La vraisemblance est alors

f(x1, . . . , xn | µ, σ2) =n∏i=1

f(xi | µ, σ2) =

(1

2πσ2

)n/2exp

(−∑ni=1(xi − µ)2

2σ2

),

ou encore

f(x1, . . . , xn | µ, σ2) =

(1

2πσ2

)n/2exp

(−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

).

69

Page 70: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance, cas N (µ, σ2)

Le maximum de vraisemblance en µ est obtenu a l’aide de la condition du

premier ordre,

∂µlog

((1

2πσ2

)n/2exp

(−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

))

=∂

∂µ

(log

(1

2πσ2

)n/2−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

)

= 0− −2n(x− µ)

2σ2= 0.

qui donne µ = x =∑ni=1 xi/n.

70

Page 71: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La seconde condition du premier ordre s’ecrit

∂σlog

((1

2πσ2

)n/2exp

(−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

))

=∂

∂σ

(n

2log

(1

2πσ2

)−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

)= −n

σ+

∑ni=1(xi − x)2 + n(x− µ)2

σ3= 0.

Le maximum est alors obtenu pour σ2 =∑ni=1(xi − µ)2/n.

Par substitution de µ, on peut ecrire

σ2 =1

n

n∑i=1

(xi − x)2 =1

n

n∑i=1

x2i −1

n2

n∑i=1

n∑j=1

xixj .

On peut noter facilement que E [µ] = µ, mais aussi E[σ2]

=n− 1

nσ2.

71

Page 72: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance, cas uniforme sur [0, θ]

La densite des Xi est ici fθ(x) =1

θ1(0 ≤ x ≤ θ).

La vraisemblance s’ecrit alors

L(θ;x1, · · · , xn) =1

θn

n∏i=1

1(0 ≤ xi ≤ θ) =1

θn1(0 ≤ inf{xi} ≤ sup{xi} ≤ θ).

Cette fonction n’est pas derivable en θ, mais on note que L est maximale pour θ

le plus petit possible, i.e. θ = sup{xi}.

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.000

0.001

0.002

0.003

0.004

72

Page 73: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

Notons que l’estimateur du maximum de vraisemblance n’est par necessairement

unique.

Supposons que {x1, · · · , xn} soient uniforment distribuees sur [θ, θ + 1]. Si

θ− = sup{xi} − 1 < inf{xi} = θ+

Alors tout estimateur θ ∈ [θ−, θ+] est un estimateur du maximum de

vraisemblance de θ.

Enfin l’estimateur du maximum de vraisemblance n’est pas forcement sans biais.

Dans le cas de la loi exponentielle θ = 1/x. En utilisant des proprietes de la loi

inverse-gamma, onm peut montrer que

E(θ) =n

n− 1θ > θ.

73

Page 74: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance, aspects numeriques

Pour les lois usuelles, sous R, library(MASS) permet de calculer le maximum de

vraisemblance pour les lois usuelles, e.g. fitdistr(x.norm,"normal") pour estimer les

parametres d’une loi normale pour un echantillon x.

Si on souhaite utiliser des methodes numeriques sous R, LV <-

function(theta){-sum(log(dexp(x,theta)))} puis optim(2,LV) permet de calculer

numeriquement le maximum de la fonction de log-vraisemblance.

Parfois, obtenir le maximum de la vraisemblance peut etre difficile, ou impossible.

On peut alors utiliser des methodes de type Newton-Rahpson ou la methode du

score pour approcher numeriquement le maximum.

Soit S(x, θ) =∂

∂θlog f(x, θ) la fonction score. On pose

Sn(θ) =n∑i=1

S(Xi, θ).

74

Page 75: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

En faisant un developpement de Taylor, de Sn au voisinage de θ0,

Sn(x) = Sn(θ0) + (x− θ0)S′n(y) pour y ∈ [x, θ0]

En x = θn,

Sn(θn) = 0 = +(θn − θ0)S′n(y) pour y ∈ [θ0, θn]

Aussi, θn = θ0 −Sn(θ0)

S′n(y)pour y ∈ [θ0, θn]

75

Page 76: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance, aspects numeriques

Construisons la suite (Newton-Raphson)

θ(i+1)n = θ(i)n −

Sn(θ(i)n )

S′n(θ(i)n )

,

a partir d’une valeur initiale θ(0)n bien choisie.

Construisons la suite (methode du score)

θ(i+1)n = θ(i)n −

Sn(θ(i)n )

nI(θ(i)n )

,

a partir d’une valeur initiale θ(0)n bien choisie.

76

Page 77: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La methode des moments

La methode des moments est la methode la plus simple et la plus intuitive pour

estimer un parametre θ. Si E(X) = g(θ), on cherche θ tel que x = g(θ).

Exemple Dans le cas d’une loi exponentielle sur E(θ), P(X ≤ x) = 1− e−θx,

E(X) = 1/θ, donc θ = 1/x.

Exemple Dans le cas d’une loi uniforme sur [0, θ], E(X) = θ/2, donc θ = 2x.

Si θ ∈ R2, on utilise egalement soit V ar(X), soit E(X2).

77

Page 78: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparer des estimateurs

Parmi les proprietes usuelles des estimateurs,

• sans biais, E(θn) = θ,

• convergent, θnP→ θ, quand n→∞

• asymptotiquement normal,√n(θ − θ) L→ N (0, σ2) quand n→∞,

• efficace

• optimal

Soient T1 et T2 deux estimateurs sans biais, alors T1 sera dit plus efficace que T2

s’il est de variance plus faible.

Pour comparer deux estimateurs sans biais, on compare souvent leur variance. Le

meilleur estimateur aura la variance la plus faible.

78

Page 79: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparer des estimateurs, biais vs. variance

−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

Figure 11 – Choisir un estimateur, θ1 versus θ2.

79

Page 80: Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparer des estimateurs, biais vs. variance

• θ1 estime avec biais θ (E(θ1) 6= E(θ)),

• θ2 estime sans biais θ (E(θ2) = E(θ)),

• V ar(θ1) ≤ V ar(θ2).

L’estimateur θ1 peut etre interessant des lors que l’on peut estimer correctement

le biais. Mais

• le biais est souvent une fonction de θ (qui est inconnu),

• le biais est souvent une fonction compliquee de θ.

80