Rappels stats-2014-part2

Post on 22-Nov-2014

4.298 views 0 download

description

 

Transcript of Rappels stats-2014-part2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Probabilites & statistiques

quelques brefs rappels # 2

Arthur Charpentier, 2014

http ://freakonometrics.hypotheses.org/category/courses/m1-statistique

1

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Plan du cours

◦ Introduction, la modelation statistique

• Rappels de probabilite

◦ Fonctions usuelles, P, F , f , E, Var

◦ Lois uselles, discetes et continues

◦ Conditionnement, esperance conditionnelle et melanges

◦ Convergence, approximations et theoremes limites

· Loi(s) des grands nombres

· Theoreme central limite

• Rappels de statistique (mathematique)

◦ De la statistique descriptive a la statistique mathematique

◦ Echantillonnage, moyenne et variance

◦ Intervalle de confiance

◦ Introduction aux tests

2

Arthur CHARPENTIER - Rappels de probabilites & statistiques

L’estimateur comme variable aleatoire

En statistique descriptive, on construit des estimateurs comme des fonctions des

valeurs de l’echantillon, {x1, · · · , xn}, e.g.

xn =x1 + · · ·+ xn

n

En statistique mathematique, on suppose que xi = Xi(ω), i.e. la realisation d’un

variable aleatoire sous-jacente

Xn =X1 + · · ·+Xn

n

X1,..., Xn etant des variables aleatoires, Xn devient une variable aleatoire.

Exemple : supposons que nous disposons d’un echantillon de n = 20 valeurs

tirees suivant une loi uniforme sur [0, 1].

3

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Distribution de la moyenne d'un échantillon U([0,1])

Fré

quen

ce

0.0 0.2 0.4 0.6 0.8 1.0

050

100

150

200

250

300

0.457675

0.0 0.2 0.4 0.6 0.8 1.0

Figure 1 – Distribution de la moyenne de {X1, · · · , X10}, Xi ∼ U([0, 1]).

4

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Distribution de la moyenne d'un échantillon U([0,1])

Fré

quen

ce

0.0 0.2 0.4 0.6 0.8 1.0

050

100

150

200

250

300

0.567145

●● ●● ●●● ●●●● ● ●● ●●● ●●● ●●● ●● ●● ● ●● ●● ●●● ●● ● ●●● ●● ● ●● ● ●● ●●●● ● ●● ●●●● ●● ● ● ●●●●●● ●● ● ●● ●●● ● ●● ●● ● ●● ●● ● ●● ●● ●●● ●● ●●● ●● ●●●● ●●●● ●● ●●● ● ●●●● ● ● ●●● ●● ● ●● ●●●●● ●● ● ●● ●● ●●●●●● ● ●● ●●● ● ●● ● ●● ●●●●● ● ●●●●● ●●● ● ● ●●● ●●●●● ●●● ●● ● ●●● ●● ●●● ● ●●● ●● ●● ●● ●●● ●● ●● ●●●●● ●●●●● ●●● ●●●● ●● ● ● ●●●● ●●● ●●●● ●● ●●●● ● ●● ●●●●● ●●●● ●● ●●● ●● ●● ●● ● ● ● ●●● ● ●●● ● ●●● ● ●● ●●● ● ●●●● ●● ●● ●●● ●● ● ●● ●●● ● ● ●●● ●●● ●●● ●●● ●●● ●● ●●● ●● ●● ● ●● ●● ● ●●● ●●● ●● ● ●●● ● ●● ●●● ●● ●● ●●● ●● ●●●●●●● ●● ● ●●● ●●●●● ● ● ●●● ●● ●● ●●●● ●● ●●● ●● ●● ●● ●●●● ●●●●●●●● ●●●● ●●● ●● ●●● ●●● ●● ●●●● ●● ●● ● ●● ●● ●●● ●●● ●●●●● ●● ●● ●● ●● ● ●● ● ●●● ●●● ●● ●● ●● ●●● ● ●● ●● ●●● ●●●● ●●● ●● ●●●● ●● ●● ●● ●●● ● ●● ●● ●●●● ●●●●● ● ●●● ●●●●● ●●●● ●●●● ●● ●● ● ● ●● ●● ●● ●● ●● ● ●●● ● ●● ●● ● ●● ●● ● ● ●●●●●●●●● ●●●● ●●● ● ●●● ●● ●● ●● ●● ●● ●●● ● ●●● ●● ● ●●●● ● ●● ● ●●● ●● ●● ●● ●●●●● ●● ●● ●● ● ●● ● ● ●●● ●● ● ●● ●●● ●●●● ●● ●● ●● ● ●●●● ●● ●● ●● ●●● ●●● ● ●● ●● ● ●● ● ●● ●●● ●●●● ●●● ●● ● ●●●●● ●●● ●●● ●● ● ●●● ●● ●●● ● ●●●● ●● ●● ●●●● ●● ● ●●● ●● ●●● ●● ●● ●●●● ●●● ● ●●●● ●● ●●●● ● ●●● ● ●●● ●● ●● ● ●● ● ●●● ●● ●●● ●●● ●●● ● ●●●●● ● ●● ● ●●● ●●● ●● ●●●● ● ● ●● ●● ●●● ●● ●●● ●●●● ●●● ●● ●● ●●● ●●●● ●●● ●● ●●●● ●● ● ●●●●● ●● ● ●● ●●● ● ●●● ●●● ●●●● ●●● ●●●●● ●●● ●● ● ●●● ●●● ● ●●● ● ●●●● ●● ●●● ● ●● ●● ● ●● ● ●● ●●● ●●● ● ●● ●● ●●● ● ●●● ●● ●● ● ●●● ●● ● ● ●●●● ● ● ●● ● ●●

0.0 0.2 0.4 0.6 0.8 1.0

Figure 2 – Distribution de la moyenne de {X1, · · · , X10}, Xi ∼ U([0, 1]).

5

Arthur CHARPENTIER - Rappels de probabilites & statistiques

L’estimateur comme variable aleatoire

Si l’echantillon change, l’estimateur n’est pas le meme.

Constituons 1000 echantillons de maniere aleatoire. En moyenne, l’estimateur

vaut 1/2. Aussi, la moyenne empirique est un estimateur sans biais de 1/2,

l’esperance mathematique de la loi uniforme sur [0, 1].

Cet estimateur a une variance, et aussi une loi (en l’occurence une densite). Ici,

la moyenne empirique suit (presque) une loi normale.

On distingera toutefois les comportements a distance finie (n fixe) et

asymptotique (theoremes limites - loi des grands nombres et theoreme central

limite - obtenus lorsque n→∞).

6

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Petites proprietes preliminaires

Soit x = (x1, · · · , xn) ∈ Rn. Posons x =x1 + · · ·+ xn

n. Alors,

minm∈R

{n∑i=1

[xi −m]2

}=

n∑i=1

[xi − x]2

etn∑i=1

[xi − x]2 =n∑i=1

x2i − nx2

7

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La moyenne (empirique)

Definition 1. Soit {X1, · · · , Xn} des variables i.i.d. de loi F . La moyenne

empirique est

Xn =X1 + · · ·+Xn

n=

1

n

n∑i=1

Xi

Si on suppose les Xi d’esperance finie (notee µ), alors

E(Xn) = E

(1

n

n∑i=1

Xi

)∗=

1

n

n∑i=1

E (Xi) =1

nnµ = µ

∗ par linearite de l’esperance

Proposition 2. Si on suppose les Xi d’esperance finie (notee µ),

E(Xn) = µ.

La moyenne est un estimateur sans biais de l’esperance mathematique.

8

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La moyenne (empirique)

Si on suppose les Xi independants de variance finie (notee σ2), alors

Var(Xn) = Var

(1

n

n∑i=1

Xi

)∗=

1

n2

n∑i=1

Var (Xi) =1

n2nσ2 =

σ2

n

∗ car les variables sont independantes, et car la variance est quadratique.

Proposition 3. Si on suppose les Xi i.i.d. de variance finie (notee σ2),

Var(Xn) =σ2

n.

9

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La variance (empirique)

Definition 4. Soit {X1, · · · , Xn} des variables i.i.d. de loi F . La variance

empirique est

S2n =

1

n− 1

n∑i=1

[Xi −Xn]2.

Si on suppose les Xi de variance finie (notee σ2),

E(S2n) = E

(1

n− 1

n∑i=1

[Xi −Xn]2

)∗= E

(1

n− 1

[n∑i=1

X2i − nX

2

n

])

∗ par la propriete preliminaire enoncee auparavant

E(S2n) =

1

n− 1[nE(X2

i )− nE(X2)]∗=

1

n− 1

[n(σ2 + µ2)− n

(σ2

n+ µ2

)]= σ2

∗ car Var(X) = E(X2)− E(X)2

10

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La variance (empirique)

Proposition 5. Si on suppose les Xi independants de variance finie (notee σ2),

E(S2n) = σ2.

La variance (empirique) est un estimateur sans biais de la variance.

Remarque Pour avoir un estimateur sans biais, on considere comme estimateur

S2n, avec un facteur n− 1, et non pas

S2n =

1

n

n∑i=1

[Xi −Xn]2

(qui reste un estimateur classique).

11

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Cas d’un echantillon Gaussien

Proposition 6. Si on suppose les Xi i.i.d. de loi N (µ, σ2), alors

• Xn et S2n sont des variables aleatoires independantes,

• Xn a pour loi N(µ,σ2

n

)• (n− 1)S2

n/σ2 a pour loi χ2(n− 1).

Remarque Pour comprendre l’histoire du n− 1 degres de libertes pour une

somme de n termes, notons que

S2n =

1

n− 1

[n∑i=1

(Xi −Xn)2

]=

1

n− 1

[(X1 −Xn)2 +

n∑i=2

(Xi −Xn)2

]

soit S2n =

1

n− 1

( n∑i=2

(Xi −Xn)

)2

+n∑i=2

(Xi −Xn)2

car

n∑i=1

(Xi −Xn) = 0. Aussi S2n est fonction de n− 1 variables (centrees),

X2 −Xn, · · · , Xn −Xn

12

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Cas d’un echantillon Gaussien

Proposition 7. Si on suppose les Xi i.i.d. de loi N (µ, σ2), alors

•√nXn − µ

σsuit une loi N (0, 1)

•√nXn − µSn

suit une loi de Student a n− 1 degres de liberte

En effet,

√nXn − µS

=√nXn − µ

σ︸ ︷︷ ︸N (0,1)

/

√(n− 1)S2

n

σ2︸ ︷︷ ︸χ2(n−1)

×√n− 1

13

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Proprietes asymptotiques

Proposition 8. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie). Alors pour tout ε > 0,

limn→∞

P(|Xn − µ| > ε) = 0

i.e. XnP→ µ (convergence en probabilite).

Proposition 9. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie). Alors pour tout ε > 0,

limn→∞

P(|S2n − σ2| > ε) ≤ Var(S2

n)

ε2

i.e. une condition suffisante pour que S2n

P→ σ2 (convergence en probabilite) est

que Var(S2n)→ 0 lorsque n→∞.

14

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Proprietes asymptotiques

Proposition 10. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie). Alors pour tout z ∈ R,

limn→∞

P(√

nXn − µ

σ≤ z)

=

∫ z

−∞

1√2π

exp

(− t

2

2

)dt

i.e.√nXn − µ

σ

L→ N (0, 1).

Remarque Si les Xi ont pour loi N (µ, σ2), alors

√nXn − µ

σ∼ N (0, 1).

15

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Estimation de la variance

Considerons un echantillon Gaussien, alors

Var

((n− 1)S2

n

σ2

)= Var(Z) avec Z ∼ χ2

n−1

donc cette quantite vaut

(n− 1)2

σ4Var(S2

n) = 2(n− 1)

de telle sorte que

Var(S2n) =

2(n− 1)σ4

(n− 1)2=

2σ4

(n− 1).

16

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Estimation de l’ecart-type et de la variance

Considerons le cas ou Xi ∼ N (µ, σ2). Un estimateur naturel de σ est

Sn =√S2n =

√√√√ 1

n− 1

n∑i=1

(Xi −Xn)2

On peut alors montrer que

E(Sn) =

√2

n− 1

Γ(n/2)

Γ([n− 1]/2)σ ∼

(1− 1

4n− 7

32n2

)σ 6= σ

mais

SnP→ σ et

√n(Sn − σ)

L→ N(

0,σ

2

)

17

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Estimation de l’ecart-type et de la variance

0 50 100 150

0.93

0.95

0.97

0.99

Taille de l'échantillon (n)

Bia

is (

mul

tiplic

atif)

Figure 3 – Biais lors de l’estimation de l’ecart-type.

18

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Echantillon transforme

Soit g : R→ R suffisemment reguliere pour ecrire un developpement de Taylor en

tout point,

g(x) = g(x0) + g′(x0) · [x− x0] + un reste

Soit Yi = g(Xi). Alors, si E(Xi) = µ avec g′(µ) 6= 0

Yi = g(Xi) ≈ g(µ) + g′(µ) · [Xi − µ]

de telle sorte que

E(Yi) = E(g(Xi)) ≈ g(µ)

et

Var(Yi) = Var(g(Xi)) ≈ [g′(µ)]2Var(Xi)

Remarque Il ne s’agit que d’approximations.

19

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Echantillon transforme

La delta-method permet d’obtenir des proprietes asymptotiques.

Proposition 11. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie), alors

√n(Xn − µ)

L→ N (0, σ2)

Et si g′(µ) 6= 0, alors

√n(g(Xn)− g(µ))

L→ N (0, [g′(µ)]2σ2)

Proposition 12. Si on suppose les Xi i.i.d. de loi F , de moyenne µ et de

variance σ2 (finie), et si g′(µ) = 0 mais g′′(µ) 6= 0, alors

√n(g(Xn)− g(µ))

L→ g′′(µ)

2σ2χ2(1)

20

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Echantillon transforme

Example Si µ 6= 0,√n

(1

Xn

− 1

µ

)L→ N

(0,

1

µ4σ2

)

21

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance pour µ

Quand on parlera de l’intervalle de confiance de µ a un niveau de confiance 1− α(e.g. 95%), il s’agira du plus petit intervallle I tel que

P(µ ∈ I) = 1− α.

Notons uα le quantile de la loi N (0, 1) au niveau α, i.e.

uα/2 = −u1−α/2 verifie Φ(uα/2) = α/2

Comme Z =√nXn − µ

σ∼ N (0, 1),

on peut en deduire que P(Z ∈ [uα/2, u1−α/2]) = 1− α,

et donc

P(µ ∈

[X +

uα/2√nσ,X +

u1−α/2√n

σ

])= 1− α.

22

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

• si α = 10%, u1−α/2 = 1.64 et donc, avec une probabilite de 90%,

X − 1.64√nσ ≤ µ ≤ X +

1.64√nσ,

• si α = 5%, u1−α/2 = 1.96 et donc, avec une probabilite de 95%,

X − 1.96√nσ ≤ µ ≤ X +

1.96√nσ,

23

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

Si la variance est inconnue, on l’estime par S2n =

1

n− 1

(n∑i=1

X2i

)−X2

n.

On a vu que

(n− 1)S2n

σ2=

n∑i=1

Xi − E(X)

σ︸ ︷︷ ︸N (0,1)

2

︸ ︷︷ ︸loi du χ2(n)

Xn − E(X)

σ/√n︸ ︷︷ ︸

N (0,1)

2

︸ ︷︷ ︸loi du χ2(1)

Le theoreme de Cochrane permet de conclure que(n− 1)S2

n

σ2∼ χ2(n− 1).

24

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

Comme Xn et S2n sont independantes,

T =√n− 1

Xn − µSn

=

Xn−µσ/√n−1√

(n−1)S2n

(n−1)σ2

∼ St(n− 1).

Si t(n−1)α/2 designe le quantile de la loi St(n− 1) au niveau α/2, i.e.

t(n)α/2 = −t(n−1)1−α/2 verifie P(T ≤ t(n−1)α/2 ) = α/2

on peut en deduire que P(T ∈ [t(n−1)α/2 , t

(n−1)1−α/2]) = 1− α, et donc

P

µ ∈X +

t(n−1)α/2√n− 1

σ,X +t(n−1)1−α/2√n− 1

σ

= 1− α.

25

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

• si n = 10 et α = 10%, u1−α/2 = 1.833 et donc, avec une probabilite de 90%,

X − 1.833√nσ ≤ µ ≤ X +

1.833√nσ,

• si n = 10 et si α = 5%, u1−α/2 = 2.262 et donc, avec une probabilite de 95%,

X − 2.262√nσ ≤ µ ≤ X +

2.262√nσ,

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Quantiles

Inte

rvall

e de

conf

iance IC 90%

IC 95%

Figure 4 – Quantiles pour n = 10, σ connue ou inconnue.

26

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

• si n = 20 et α = 10%, u1−α/2 = 1.729 et donc, avec une probabilite de 90%,

X − 1.729√nσ ≤ µ ≤ X +

1.729√nσ,

• si n = 20 et si α = 5%, u1−α/2 = 2.093 et donc, avec une probabilite de 95%,

X − 2.093√nσ ≤ µ ≤ X +

2.093√nσ,

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Quantiles

Inte

rvall

e de

conf

iance IC 90%

IC 95%

Figure 5 – Quantiles pour n = 20, σ connue ou inconnue.

27

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Intervalle de confiance, moyenne d’un echantillon normal

• si n = 100 et α = 10%, u1−α/2 = 1.660 et donc, avec une probabilite de 90%,

X − 1.660√nσ ≤ µ ≤ X +

1.660√nσ,

• si n = 100 et si α = 5%, u1−α/2 = 1.984 et donc, avec une probabilite de 95%,

X − 1.984√nσ ≤ µ ≤ X +

1.984√nσ,

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Quantiles

Inte

rvall

e de

conf

iance IC 90%

IC 95%

Figure 6 – Quantiles pour n = 100, σ connue ou inconnue.

28

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La lecture des tables

Fonction de repartition de la loi normale X ∼ N (0, 1),

P(X ≤ u) = Φ(u) =

∫ u

−∞

1√2πe−y

2/2dy

Example P(X ≤ 1, 96) = 0, 975.

29

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Interpretation d’un intervalle de confiance

Si on genere des echantillons i.i.d. suivant une loi N (µ, σ2), avec µ et σ2 fixes, il y

a 90 chances sur 100 que µ soit dans un des intervalles suivants[X +

uα/2√nσ,X +

u1−α/2√n

σ

]

●●●

●●●

●●●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

0 50 100 150 200

−1.0

−0.5

0.00.5

1.0

interv

alle de

confi

ance

Figure 7 – Intervalle de confiance pour µ, avec σ2 connue.

30

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Interpretation d’un intervalle de confiance

ou X +t(n−1)α/2√n− 1

σ,X +t(n−1)1−α/2√n− 1

σ

●●●

●●●

●●●●

●●

●●●

●●

●●●

●●●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●●

0 50 100 150 200

−1.0

−0.5

0.00.5

1.0

interv

alle de

confi

ance

Figure 8 – Intervalle de confiance pour µ, avec σ2 estimee.

31

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Un peu de tests

Le lien entre la decision est la vraie valeur peut etre represente par le tableau

ci-dessous

H0 vraie H1 vraie

Decision d0 Bonne decision erreur de seconde espece

Decision d1 erreur de premiere espece Bonne decision

32

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyenne sur un echantillon H0 : µ = µ0

H0 : µ6=µ0

La statistique de test est

T =√nx− µ0

sou s2 =

1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ St(n− 1).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

33

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparaison de moyennes de deux echantillons

Considerons un test d’egalite de moyenne sur deux echantillons.

On dispose de deux echantillons, {x1, · · · , xn} et {y1, · · · , ym}. On souhaite tester H0 : µX = µY

H0 : µX 6=µY

On rajoute une hypothese, X ∼ N (µX , σ2X) et Y ∼ N (µY , σ

2Y ), i.e.

X ∼ N(µX ,

σ2X

n

)et Y ∼ N

(µY ,

σ2Y

m

)

34

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparaison de moyennes de deux echantillons

−1 0 1 2

0.0

0.5

1.0

1.5

2.0

●●● ● ● ●● ●●● ●●● ●●

35

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparaison de moyennes de deux echantillons

Par independance entre X et Y , notons que ∆ = X − Y suit une loi normale,

E(∆) = µX − µY et V ar(∆) =σ2X

n+σ2Y

m

Donc sous H0, µX − µY = 0 et donc

D ∼ N(

0,σ2X

n+σ2Y

m

),

i.e. ∆ =X − Y√σ2X

n+σ2Y

m

∼ N (0, 1).

36

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparaison de moyennes de deux echantillons

Probleme σX et σY sont inconnus : on les remplace par des estimateurs σX et

σY ,

i.e. ∆ =X − Y√σ2X

n+σ2Y

m

∼ St(ν),

ou ν est une fonction (compliquee) de n1 et n2.

On se donne un seuil d’acceptation α ∈ [0, 1] (e.g. 10%), on accepte H0 si tα/2 ≤ δ ≤ t1−α/2on accepte H0 si δ < tα/2 ou δ > t1−α/2

37

Arthur CHARPENTIER - Rappels de probabilites & statistiques

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●●● ● ● ●● ●●● ●●● ●●

ACCEPTATIONREJET REJET

38

Arthur CHARPENTIER - Rappels de probabilites & statistiques

On peut se demander la probabilite p d’obtenir une valueur au moins aussi

grande que δ si H0 est vraie,

p = P(|Z| > |δ||H0 vraie) = P(|Z| > |δ||Z ∼ St(ν)).

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●●● ● ● ●● ●●● ●●● ●●

34.252 %

39

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Sous R, t.test(x, y, alternative = c("two.sided", "less", "greater"), mu = 0,

var.equal = FALSE, conf.level = 0.95) permet de tester si les moyennes de deux

chantillons x et y sont egales (mu=0), contre H1 : µX 6= µY ("two.sided").

−2 −1 0 1 2

0.0

0.5

1.0

1.5

2.0

●● ●● ● ●●● ●● ●● ● ●● ●●

40

Arthur CHARPENTIER - Rappels de probabilites & statistiques

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●● ●● ● ●●● ●● ●● ● ●● ●●

ACCEPTATIONREJET REJET

41

Arthur CHARPENTIER - Rappels de probabilites & statistiques

−2 −1 0 1 2

0.0

0.1

0.2

0.3

0.4

0.5

●● ●● ● ●●● ●● ●● ● ●● ●●

2.19 %

42

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyenne sur un echantillon H0 : µ = µ0

H0 : µ≥µ0

La statistique de test est

T =√nx− µ0

sou s2 =

1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ St(n− 1).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

43

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyenne sur un echantillon H0 : µ = µ0

H0 : µ≤µ0

La statistique de test est

T =√nx− µ0

sou s2 =

1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ St(n− 1).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

44

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variance sur un echantillon H0 : σ2 = σ20

H0 : σ2 6=σ20

La statistique de test est

T =(n− 1)s2

σ20

ou s2 =1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ χ2(n− 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

45

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variance sur un echantillon H0 : σ2 = σ20

H0 : σ2≥σ20

La statistique de test est

T =(n− 1)s2

σ20

ou s2 =1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ χ2(n− 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

46

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variance sur un echantillon H0 : σ2 = σ20

H0 : σ2≤σ20

La statistique de test est

T =(n− 1)s2

σ20

ou s2 =1

n− 1

n∑i=1

(xi − x)2,

qui verifie, sous H0, T ∼ χ2(n− 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

47

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyennes sur deux echantillons H0 : µ1 = µ2

H0 : µ1 6=µ2

La statistique de test est

T =

√n1n2n1 + n2

[x1 − x2]− [µ1 − µ2]

sou s2 =

(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2

,

qui verifie, sous H0, T ∼ St(n1 + n2 − 2).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

48

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyennes sur deux echantillons H0 : µ1 = µ2

H0 : µ1≥µ2

La statistique de test est

T =

√n1n2n1 + n2

[x1 − x2]− [µ1 − µ2]

sou s2 =

(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2

,

qui verifie, sous H0, T ∼ St(n1 + n2 − 2).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

49

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de moyennes sur deux echantillons H0 : µ1 = µ2

H0 : µ1≤µ2

La statistique de test est

T =

√n1n2n1 + n2

[x1 − x2]− [µ1 − µ2]

sou s2 =

(n1 − 1)s21 + (n2 − 1)s22n1 + n2 − 2

,

qui verifie, sous H0, T ∼ St(n1 + n2 − 2).

−6 −4 −2 0 2 4 6

0.00.1

0.20.3

0.4

50

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variances sur deux echantillons H0 : σ21 = σ2

2

H0 : σ21 6=σ2

2

La statistique de test est

T =s21s22, si s21 > s22,

qui verifie, sous H0, T ∼ F(n1 − 1, n2 − 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

51

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variances sur deux echantillons H0 : σ21 = σ2

2

H0 : σ21≥σ2

2

La statistique de test est

T =s21s22, si s21 > s22,

qui verifie, sous H0, T ∼ F(n1 − 1, n2 − 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

52

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Resumons les principaux tests usuels

Considerons un test d’egalite de variances sur deux echantillons H0 : σ21 = σ2

2

H0 : σ21≤σ2

2

La statistique de test est

T =s21s22, si s21 > s22,

qui verifie, sous H0, T ∼ F(n1 − 1, n2 − 1).

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

53

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Modele parametrique

On dispose d’un echantillon {x1, · · · , xn}, de n observations independantes.

On suppose que les xi sont des realisations d’une variable aleatoire X dont la loi

F est inconnue. Le but est de determiner F .

En statistique parametrique, on suppose que F appartient necessairement a une

famille caracterisee par un parametre θ ∈ Θ.

• X suit une loi de Bernoulli, X ∼ B(p), θ = p ∈ (0, 1),

• X suit une loi de Poisson, X ∼ P(λ), θ = λ ∈ R+,

• X suit une loi normale, X ∼ N (µ, σ), θ = (µ, σ) ∈ R× R+,

On cherche donc une valeur de θ, notee θ0, inconnue, telle que l’on supposera

que X suit une loi Fθ0.

Remarque On supposera souvent que Θ est un ouvert, il est delicat d’estimer

sur les bords.

54

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Exemple : jeu de pile ou face

On dispose d’un echantillon

{pile,pile, face,pile, face,pile, face, face,pile, face, pile, face}

que l’on interpretera en posant

X =

1 si pile

0 si face.

On dispose de l’echantillon

{1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0}

On peut supposer ici que X suite une loi binomiale, X ∼ B(p), de parametre p

inconnu (mais que l’on va chercher a estimer).

55

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Inference statistique

Quelle est la vraie valeur de p, que l’on ne connaıt pas ?

• Quelle est la valeur de p la plus vraisemblable ?

Sur n lancers, la probabilite d’obtenir precisement l’echantillon {x1, · · · , xn} est

P(X1 = x1, · · · , Xn = xn),

ou X1, · · · , Xn sont n versions independentes de X, supposees suivre la loi B(p).

Aussi,

P(X1 = x1, · · · , Xn = xn) =n∏i=1

P(Xi = xi) =n∏i=1

pxi × (1− p)1−xi ,

car pxi × (1− p)1−xi =

p si xi vaut 1

1− p si xi vaut 0

56

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Inference statistique

Aussi,

P(X1 = x1, · · · , Xn = xn) = p∑n

i=1 xi × (1− p)∑n

i=1 1−xi .

Cette fonction, qui depend de p mais aussi de {x1, · · · , xn} est appelee

vraisemblance de l’echantillon, et sera notee L (likelihood),

L(p;x1, · · · , xn) = p∑n

i=1 xi × (1− p)∑n

i=1 1−xi .

Ici, nous avons obtenu 5 valeurs de 1 et 6 fois 0. On en deduit les vraisemblances

suivante en fonction de l’echantillon.

57

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Valeur de p L(p;x1, · · · , xn)

0.1 5.314410e-06

0.2 8.388608e-05

0.3 2.858871e-04

0.4 4.777574e-04

0.5 4.882812e-04

0.6 3.185050e-04

0.7 1.225230e-04

0.8 2.097152e-05

0.9 5.904900e-07

0.0 0.2 0.4 0.6 0.8 1.0

0e

+0

01

e−

04

2e

−0

43

e−

04

4e

−0

45

e−

04

Probabilité p

Vra

ise

mb

lan

ce

L

● ●

●●

La valeur la plus vraisemblance pour p est obtenue au maximum de la

vraisemblance, i.e. 0.4545.

58

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Inference statistique

• Peut-on utiliser la moyenne empirique ?

Rappelons que l’on dispose de l’echantillon

{1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0}

Rappelons que pour une loi binomiale, E(X) = p. Aussi, il pourrait etre legitime

de considerer comme estimateur de p la version empirique de E(X), i.e. x.

Un estimateur naturel de p serait donc x 5/11 = 0.4545.

59

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

Formellement, si fθ designe la vraie loi (inconnue) de X,

• la densite de X si X est continue, i.e. fθ(x) =dF (x)

dx= F ′(x),

• la loi de probabilite de X si X n’est pas continue, i.e. fθ(x) = P(X = x),

La vraisemblance s’ecrit, comme les Xi sont i.i.d.

L(θ;x1, · · · , xn) = P(X1 = x1, · · · , Xn = xn) =n∏i=1

fθ(xi)

Un estimateur naturel pour θ est obtenu au maximum de la vraisemblance,

θ ∈ argmax{L(θ;x1, · · · , xn),θ ∈ Θ}.

Petite remarque pratique : pour toute fonction croissante h,

θ ∈ argmax{h (L(θ;x1, · · · , xn)) ,θ ∈ Θ}.

60

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

0 1 2 3 4 5

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

Figure 9 – Invariance de la position du maximum par transformation croissante.

61

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

Prenons le cas particulier de la fonction h = log

θ ∈ argmax{log (L(θ;x1, · · · , xn)) ,θ ∈ Θ}.

i.e. on cherche le maximum de la log-vraisemblance, qui s’ecrit simplement

logL(θ;x1, · · · , xn) =n∑i=1

log fθ(xi)

et pour chercher le maximum, la condition du 1er ordre impose de calculer des

derivees (et la derivee d’une somme est plus simple a calculer que la probabilite

d’un produit), si θL(θ;x) est derivable.

62

Arthur CHARPENTIER - Rappels de probabilites & statistiques

0.0 0.2 0.4 0.6 0.8 1.0

0e

+0

01

e−

04

2e

−0

43

e−

04

4e

−0

45

e−

04

Probabilité p

Vra

ise

mb

lan

ce

L

● ●

●●

0.0 0.2 0.4 0.6 0.8 1.0

−3

0−

25

−2

0−

15

−1

0

Probabilité pL

og

vra

ise

mb

lan

ce

L

●● ● ● ●

Figure 10 – Fonction de vraisemblance et de log-vraisemblance.

63

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

Les quations de vraisemblance sont alors

• condition du premier ordre

si θ ∈ Rk,∂ log (L(θ;x1, · · · , xn))

∂θ

∣∣∣∣θ=θ

= 0

si θ ∈ R,∂ log (L(θ;x1, · · · , xn))

∂θ

∣∣∣∣θ=θ

= 0

• condition du second ordre

si θ ∈ Rk,∂2 log (L(θ;x1, · · · , xn))

∂θ∂θ′

∣∣∣∣θ=θ

est definie negative

si θ ∈ R,∂2 log (L(θ;x1, · · · , xn))

∂θ

∣∣∣∣θ=θ

< 0

La fonction∂ log (L(θ;x1, · · · , xn))

∂θest appele fonction score : au maximum de

vraisemblance, le score est nul.

64

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La notion d’information de Fisher

Un estimateur θ de θ sera dit exhaustif s’il fournit autant d’information sur θ que

l’ensemble des observations {x1, · · · , xn}.

L’information de Fisher associee a une densite fθ, θR est

I(θ) = E(d

dθlog fθ(X)

)2

ou X a pour loi fθ,

I(θ) = V ar

(d

dθlog fθ(X)

)= −E

(d2

dθ2log fθ(X)

).

Notons que l’information de Fisher est simplement la variance du score.

Pour parle aussi d’information de Fisher pour un observation unique. Dans le cas

d’un echantillon X1, · · · , Xn de densite fθ, l’information est In(θ) = n · I(θ).

65

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Notions d’efficacite et d’optimalite

Si θ est une estimateur sans biais de θ, alors V ar(θ) ≥ 1

nI(θ). Un estimateur qui

atteint cette borne sera dit efficace.

Mais la borne n’est pas toujours atteignable.

Un estimateur θ sans biais sera dit optimal s’il est de variance minimale parmi

tous les estimateurs sans biais.

La notion d’information de Fisher en dimension plus grande

L’information de Fisher est la matrice k × k I = [Ii,j ] ou

Ii,j = E(∂

∂θiln fθ(X)

∂θjln fθ(X)

).

66

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Exemple de calcul d’information de Fisher

Soit X suivant une loi P(θ),

log fθ(x) = −θ + x log θ − log(x!) etd2

dθ2log fθ(x) = − x

θ2

I(θ) = −E(d2

dθ2log fθ(X)

)= −E

(−Xθ2

)=

1

θ

Pour une loi B(n, θ), I(θ) =n

θ(1− θ)

Pour une loi BN (θ, σ2), I(θ) =1

σ2

Pour une loi BN (µ, θ), I(θ) =1

2θ2

67

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

Definition 13. Soit {x1, · · · , xn} un echantillon de loi fθ, ou θ ∈ Θ. On appelle

estimateur du maximum de vraisemblance θn de θ

θn ∈ argmax{L(θ;x1, · · · , xn),θ ∈ Θ}.

Proposition 14. Sous quelques conditions techniques, θn converge presque

surement vers θ, θnp.s.→ θ.

Proposition 15. Sous quelques conditions techniques, θn est un estimateur

asymptotiquement efficace de θ,

√n(θn − θ)

L→ N (0, I−1(θ)).

L’estimateur du maximum de vraisemblance n’a aucune raison d’etre sans biais.

68

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance, cas N (µ, σ2)

Soit {x1, · · · , xn} un echantillon independant, distribue suivant la loi N (µ, σ2),

de densite

f(x | µ, σ2) =1√

2π σexp

(− (x− µ)2

2σ2

).

La vraisemblance est alors

f(x1, . . . , xn | µ, σ2) =n∏i=1

f(xi | µ, σ2) =

(1

2πσ2

)n/2exp

(−∑ni=1(xi − µ)2

2σ2

),

ou encore

f(x1, . . . , xn | µ, σ2) =

(1

2πσ2

)n/2exp

(−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

).

69

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance, cas N (µ, σ2)

Le maximum de vraisemblance en µ est obtenu a l’aide de la condition du

premier ordre,

∂µlog

((1

2πσ2

)n/2exp

(−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

))

=∂

∂µ

(log

(1

2πσ2

)n/2−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

)

= 0− −2n(x− µ)

2σ2= 0.

qui donne µ = x =∑ni=1 xi/n.

70

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La seconde condition du premier ordre s’ecrit

∂σlog

((1

2πσ2

)n/2exp

(−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

))

=∂

∂σ

(n

2log

(1

2πσ2

)−∑ni=1(xi − x)2 + n(x− µ)2

2σ2

)= −n

σ+

∑ni=1(xi − x)2 + n(x− µ)2

σ3= 0.

Le maximum est alors obtenu pour σ2 =∑ni=1(xi − µ)2/n.

Par substitution de µ, on peut ecrire

σ2 =1

n

n∑i=1

(xi − x)2 =1

n

n∑i=1

x2i −1

n2

n∑i=1

n∑j=1

xixj .

On peut noter facilement que E [µ] = µ, mais aussi E[σ2]

=n− 1

nσ2.

71

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance, cas uniforme sur [0, θ]

La densite des Xi est ici fθ(x) =1

θ1(0 ≤ x ≤ θ).

La vraisemblance s’ecrit alors

L(θ;x1, · · · , xn) =1

θn

n∏i=1

1(0 ≤ xi ≤ θ) =1

θn1(0 ≤ inf{xi} ≤ sup{xi} ≤ θ).

Cette fonction n’est pas derivable en θ, mais on note que L est maximale pour θ

le plus petit possible, i.e. θ = sup{xi}.

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.000

0.001

0.002

0.003

0.004

72

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance

Notons que l’estimateur du maximum de vraisemblance n’est par necessairement

unique.

Supposons que {x1, · · · , xn} soient uniforment distribuees sur [θ, θ + 1]. Si

θ− = sup{xi} − 1 < inf{xi} = θ+

Alors tout estimateur θ ∈ [θ−, θ+] est un estimateur du maximum de

vraisemblance de θ.

Enfin l’estimateur du maximum de vraisemblance n’est pas forcement sans biais.

Dans le cas de la loi exponentielle θ = 1/x. En utilisant des proprietes de la loi

inverse-gamma, onm peut montrer que

E(θ) =n

n− 1θ > θ.

73

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance, aspects numeriques

Pour les lois usuelles, sous R, library(MASS) permet de calculer le maximum de

vraisemblance pour les lois usuelles, e.g. fitdistr(x.norm,"normal") pour estimer les

parametres d’une loi normale pour un echantillon x.

Si on souhaite utiliser des methodes numeriques sous R, LV <-

function(theta){-sum(log(dexp(x,theta)))} puis optim(2,LV) permet de calculer

numeriquement le maximum de la fonction de log-vraisemblance.

Parfois, obtenir le maximum de la vraisemblance peut etre difficile, ou impossible.

On peut alors utiliser des methodes de type Newton-Rahpson ou la methode du

score pour approcher numeriquement le maximum.

Soit S(x, θ) =∂

∂θlog f(x, θ) la fonction score. On pose

Sn(θ) =n∑i=1

S(Xi, θ).

74

Arthur CHARPENTIER - Rappels de probabilites & statistiques

En faisant un developpement de Taylor, de Sn au voisinage de θ0,

Sn(x) = Sn(θ0) + (x− θ0)S′n(y) pour y ∈ [x, θ0]

En x = θn,

Sn(θn) = 0 = +(θn − θ0)S′n(y) pour y ∈ [θ0, θn]

Aussi, θn = θ0 −Sn(θ0)

S′n(y)pour y ∈ [θ0, θn]

75

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Le maximum de vraisemblance, aspects numeriques

Construisons la suite (Newton-Raphson)

θ(i+1)n = θ(i)n −

Sn(θ(i)n )

S′n(θ(i)n )

,

a partir d’une valeur initiale θ(0)n bien choisie.

Construisons la suite (methode du score)

θ(i+1)n = θ(i)n −

Sn(θ(i)n )

nI(θ(i)n )

,

a partir d’une valeur initiale θ(0)n bien choisie.

76

Arthur CHARPENTIER - Rappels de probabilites & statistiques

La methode des moments

La methode des moments est la methode la plus simple et la plus intuitive pour

estimer un parametre θ. Si E(X) = g(θ), on cherche θ tel que x = g(θ).

Exemple Dans le cas d’une loi exponentielle sur E(θ), P(X ≤ x) = 1− e−θx,

E(X) = 1/θ, donc θ = 1/x.

Exemple Dans le cas d’une loi uniforme sur [0, θ], E(X) = θ/2, donc θ = 2x.

Si θ ∈ R2, on utilise egalement soit V ar(X), soit E(X2).

77

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparer des estimateurs

Parmi les proprietes usuelles des estimateurs,

• sans biais, E(θn) = θ,

• convergent, θnP→ θ, quand n→∞

• asymptotiquement normal,√n(θ − θ) L→ N (0, σ2) quand n→∞,

• efficace

• optimal

Soient T1 et T2 deux estimateurs sans biais, alors T1 sera dit plus efficace que T2

s’il est de variance plus faible.

Pour comparer deux estimateurs sans biais, on compare souvent leur variance. Le

meilleur estimateur aura la variance la plus faible.

78

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparer des estimateurs, biais vs. variance

−2 −1 0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

1.0

Figure 11 – Choisir un estimateur, θ1 versus θ2.

79

Arthur CHARPENTIER - Rappels de probabilites & statistiques

Comparer des estimateurs, biais vs. variance

• θ1 estime avec biais θ (E(θ1) 6= E(θ)),

• θ2 estime sans biais θ (E(θ2) = E(θ)),

• V ar(θ1) ≤ V ar(θ2).

L’estimateur θ1 peut etre interessant des lors que l’on peut estimer correctement

le biais. Mais

• le biais est souvent une fonction de θ (qui est inconnu),

• le biais est souvent une fonction compliquee de θ.

80