Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune...

23
Les tests d’hypothèses

Transcript of Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune...

Page 1: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

Les tests d’hypothèses

Page 2: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

2

Variables aléatoires • Une variable aléatoire X est un résultat d’une expérience aléatoire.

Ex: Résultat du tirage d’un dé à 6 faces, v.a. discrète.

• Problème : comment faire si on doit représenter le même genre d’histogramme pour une v.a. pouvant prendre n’importe quelle valeur dans [0;1] uniformément ?

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

1 2 3 4 5 6

Page 3: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

3

DensitéPour les v.a. continues, on ne peut plus caractériser la probabilité point par point, on a donc recours à une fonction nommée densité.

On définit pour X la probabilité d’appartenir à un intervalle [a;b]

Propriétés remarquables :

La densité d’une somme est la convolée des densités.

0

0,2

0,4

0,6

0,8

1

1,2

-1 -0,5 0 0,5 1 1,5 2

b

aduufbaXP )(]),[(

1).( dxxf

dxxfxXE ).(.)(

Page 4: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

4

Loi normaleDensité de la loi normale de moyenne et d’écart type N (, )

Ex: loi normale N (0,1)

2

2

2

)(

2

1)(

x

exf

Page 5: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

5

Table de la loi normale

Page 6: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

6

Théorème Central LimitThéorème :

Soit Xi une suite de v.a. de même loi d’espérance μ et d’écart type σ. Alors la v.a.

converge en loi vers une v.a. normale centrée réduite N (0,1).

Conséquences :

la moyenne des Xi converge vers une N (μ, σ/√n).

une proportion Fn tend vers une N (p, σ/√(p(1-p) / n)).

Attention : On suppose tout de même l’existence d’un écart type fini !!!

n

i

iX

n 1

)(1

Page 7: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

7

But des tests d’hypothèses:Répondre à des questions de la forme :

Cette pièce est-elle truquée ?Ces deux populations sont-elles significativement différentes ?Est-il possible que ces données suivent une loi Gaussienne ?

En fait on cherche à trancher entre deux hypothèses dont une et une seule est vraie en ayant une idée sur les erreurs commises.

Soient H0 et H1 ces deux hypothèses.α et β sont des probabilités

α erreur de première espèceβ erreur de seconde espèce1-β est la puissance du test

H0 vraie H1 vraie

H0 décidée 1-α β

H1 décidée α 1- β

Page 8: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

8

Région d’acceptationα étant fixé, il faut choisir une variable de décision X dont le comportement est connu sous l’hypothèse H0.

Ω ensemble des possibles pour X

A : Région d’acceptation de H0

P(X A /H0)=α

P(X A /H1)=1-β

R : Région de rejet de H0

P(X R /H0)=1-α

P(X R /H1)=β

Page 9: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

9

Sur un exemple

On souhaite construire un test au niveau 5% permettant de détecter si une pièce est truquée ou non. On se donne pour cela 1000 tirages.

H0 : « la pièce est normale »

H1 : « la pièce est truquée »

Si H0 est vraie la pièce doit faire « pile » avec une probabilité ½.

Donc si X est le nombre de « pile » :

X→B(1000,1/2) ; cette loi est approximée par une N (500,250)

Il faut trouver une région R telle que X soit dans R avec probabilité 95%.

Page 10: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

10

Exemple (2)

On cherche a et b tels que

P(X[a,b] / H0) ≥ 0.95

P(N (500, 250) [a,b] ) ≥ 0.95

P(N (0,1) [(a-500)/250,(b-500)/ 250] ) ≥ 0.95

Il faut trouver les valeurs des bornes de l’intervalle de confiance.

Page 11: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

11

Table de la loi normale

Page 12: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

12

Exemple (3)

96.1250

500

a

96.1250

500

b

a 530.99

b 469.01

On accepte H0 (la pièce n’est pas truquée) si X est dans [470;530]. On rejette H0 dans les autres cas.

On est sûr que si H0 est vraie, il n’y a que 5% des cas où on ne va pas le détecter.

Que se passe t-il dans le cas où H1 est vraie ?

Page 13: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

13

Exemple (4)Impossible de déterminer la puissance de notre test.

Pour capable de la minorer, il faut se fixer une tolérance sur le biais de la pièce. Par exemple on tolère les pièces dont la probabilité de faire pile est comprise entre 0.49 et 0.51.

1- = P(X[469;530] / H1) > P(N (510, 249.9) [469;530] )

= P(N (490, 249.9) [469;530])

= P(N (0,1) [-1.328 ; 2.530])

= 0.0895

Passage à un test unilatéral (on sait que les pièces truquées font moins de piles)

Au niveau 5%, le rejet à lieu si X < 474

La puissance est minorée (pour une tolérance de 0.01) par 0.1562

Page 14: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

14

Lien entre seuil et risque

Page 15: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

15

Loi du 2

Elle possède un paramètre : m « degré de liberté »

Soit (xi) une suite de v.a. indépendantes suivant une N (0,1) alors :

Remarque :

m

iim x

1

22

222nmnm

Page 16: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

16

Test du 2

C’est un test d’adéquation d’une loi de probabilités à des données.

Soit {x1,…,xn} un échantillon de n réalisations indépendantes de la v.a. X

Soit f(x) la densité réelle de X

Soit f* notre hypothèse sur la densité de X

(les paramètres de f* sont soit connus soit estimés à partir des données)

H0 : f(x) = f*(x)

H1 : f(x) ≠ f*(x)

• A partir de l’échantillon on construit un histogramme pour X de k classes Ci .

Soit Oi le nombre d’observations dans la classe Ci

Les classes sont déterminées à partir des valeurs prises dans l’échantillon au bon vouloir de l’utilisateur.

Page 17: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

17

On construit ensuite le tableau suivant :

suit une 2 à degrés de libertés

= k – nombre de relations entre effectifs théoriques sous H0 et effectifs observés.

En fait I mesure une « distance » entre la distribution attendue et la distribution observée

Pour construire un test au niveau de H0 contre H1, il suffit de choisir un seuil s tel que P(I>s/H0)<, ce qui est facile car sous H0 I suit un 2 dont les valeurs sont tabulées.

C1 C2 … Ck

Effectif Observé O1 O2 Ok

Effectif théorique sous H0 P(XC1/f=f*).n P(XC2/f=f*).n P(XCk/f=f*).n

Carré de la différence a1 a2 ak

k

i i

i

nffCXP

aI

1 *)./(

Page 18: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

18

Expérience de MendelChez les pois, le caractère couleur est codé par un gène présentant deux formes allèles C et c, correspondant aux couleurs jaune et vert. Le jaune est dominant, le vert récessif. La forme, rond ou ridé, est portée par un autre gène à deux allèles R (dominant) et r (récessif). On croise deux individus dont le génotype est CcRr.

Dans ses expériences, Mendel a obtenu les résultats suivants.

I=0.47 à comparer avec la valeur d’un 2 à 3 ddl (au niveau 5% on rejette H0 dessus de 7.815).

En réalité sous H0 on avait seulement 8% de chances d’avoir des résultats aussi proches de la théorie…

Jaune

Rond

Jaune

Ridé

Vert

Rond

Vert

Ridé

Effectif observé 315 101 108 32

Effectif théorique 312.75 104.25 104.25 34.75

Proportion théorique 9/16 3/16 3/16 1/16

Page 19: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

19

2 de contingence

Utilisé pour tester l’indépendance de deux caractères A et B dans une même population. Chacun des deux caractères possède plusieurs classes.

H0 : « Algo 1 » et « Algo 2 » ont des performances équivalentes.

H1 : « Algo 1 » et « Algo 2 » ont des performances différentes.

Effectifs observés Effectifs attendus sous H0

A \ B Algo 1 Algo 2 Total

Bien classés 246 213 459

Mal classés 54 87 141

Total 300 300 600

A \ B Algo 1 Algo 2 Total

Bien classés 229.5 229.5 459

Mal classés 70.5 70.5 141

Total 300 300 600

Page 20: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

20

2 de contingence (2)Différence entre observation Carré des différences divisé par

et effectifs attendus l’effectif attendu

En fait on observe la statistique

Avec h nb de lignes, k nb de colonnes

O(i,j) effectif observé en (i,j)

E(i,j) effectif attendu en (i,j)

Sous H0 I suit un 2 à (h-1)(k-1)=1 degré de liberté

Donc pour un test au niveau 1% on rejette H0 (le seuil est de 6.635)

A \ B Algo 1 Algo 2 Total

Bien classés 16.5 -16.5 0

Mal classés -16.5 16.5 0

Total 0 0 0

A \ B Algo 1 Algo 2 Total

Bien classés 1.19 1.19 2.37

Mal classés 3.86 3.86 7.72

Total 5.05 5.05 10.10

h

i

k

j jiE

jiEjiOI

1 1

2

),(

)),(),((

Page 21: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

21

Remarques

Pour un tableau 2x2 c’est mal de faire un 2 car il est équivalent à un t-test sur les proportions qui possède deux avantages :

Possibilité de calculer la puissance pour le t-test;

On peut créer un test unilatéral alors que 2 est toujours bilatéral ce qui signifie que l’on obtient que des informations du type « algo 1 et algo 2 sont différents » mais pas davantage.

On peut citer de nombreux autres tests :

Tests du maximum de vraisemblance

Test de Fisher (variances) ; Student (moyennes) ; Kolmogorov-Smirnov, Cramer (tests sur fonction répartition) ; Spearman (indépendance des réalisations) …

ANOVA (analyse of variance).

Page 22: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

22

Documents utilesJean-Michel JOLION :

http://rvf.insa-lyon.fr/~jolion/STAT/poly.html

Stephan MORGENTHALER

« Introduction à la statistique », Presses Polytechniques et Universitaires Romandes

SMEL

Projet de l’INRIA sur les statistiques en médecine.

Page 23: Les tests dhypothèses. 2 Variables aléatoires Une variable aléatoire X est un résultat dune expérience aléatoire. Ex: Résultat du tirage dun dé à 6 faces,

23

Densité