BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7....

18
BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) 04/02/2015 NGUYEN Jessica L3 CR : Claire MARIE Biomédecine quantitative Pr Bernard GIUSIANO 18 pages Introduction à l'analyse quantitative (deuxième partie) La première partie du cours traitée le 02 février portait sur des rappels, cette deuxième partie traitera des estimations et tests. A. Estimation I. Estimateurs On appelle estimateur d'un paramètre de la population, un paramètre calculé à partir de l'échantillon, approchant au mieux le paramètre de la population. Un estimateur t d'un paramètre θ est dit « sans biais » ou « non biaisé », si son espérance (moyenne des moyennes de différents échantillons) est égale à la valeur du paramètre : E(t) = θ La valeur d'un estimateur sans biais est « en moyenne » égale à la valeur à estimer . II. Paramètres de position 1. La moyenne : m ou #x On appelle m la moyenne d'une variable quantitative calculée sur un échantillon et μ la moyenne inconnue dans la population . On prend : x les valeurs de la variable, Σx la somme de ces valeurs n la taille de l'échantillon Alors: m= x n La moyenne m est un bon estimateur sans biais de la moyenne μ inconnue . 1/18 Plan A. Estimation I. Estimateurs II. Paramètres de position III. Paramètres de dispersion IV. Estimation d'un paramètre B. Principes des tests statistiques I. Définitions II. Les étapes d'un test statistique C. Quelques tests et leurs applications I. Étude de la liaison entre une variable quantitative et une variable qualitative II. Étude de la liaison entre deux variables qualitatives

Transcript of BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7....

Page 1: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

04/02/2015NGUYEN Jessica L3CR : Claire MARIEBiomédecine quantitative Pr Bernard GIUSIANO18 pages

Introduction à l'analyse quantitative (deuxième partie)

La première partie du cours traitée le 02 février portait sur des rappels, cette deuxième partie traitera des estimations et tests.

A. Estimation

I. Estimateurs

• On appelle estimateur d'un paramètre de la population, un paramètre calculé à partir de l'échantillon, approchant au mieux le paramètre de la population.

• Un estimateur t d'un paramètre θ est dit « sans biais » ou « non biaisé », si son espérance (moyenne des moyennes de différents échantillons) est égale à la valeur du paramètre : E(t) = θ

• La valeur d'un estimateur sans biais est « en moyenne » égale à la valeur à estimer .

II. Paramètres de position

1. La moyenne : m ou x ���@�������Fil#x x ���@�������Fil

On appelle m la moyenne d'une variable quantitative calculée sur un échantillon et μ la moyenne inconnue dans la population .On prend :

• x les valeurs de la variable, • Σx la somme de ces valeurs • n la taille de l'échantillon

Alors: m=∑ x

n

La moyenne m est un bon estimateur sans biais de la moyenne μ inconnue .

1/18

Plan

A. Estimation I. Estimateurs II. Paramètres de position III. Paramètres de dispersion IV. Estimation d'un paramètre

B. Principes des tests statistiques I. Définitions II. Les étapes d'un test statistique

C. Quelques tests et leurs applications I. Étude de la liaison entre une variable quantitative et une variable qualitative II. Étude de la liaison entre deux variables qualitatives

Page 2: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

2. Pourcentage

On appelle p un pourcentage observé sur un échantillon, et P le pourcentage inconnu dans la population.

Avec n la taille de l'échantillon et k le nombre d'individus présentant la caractéristique, on a p=kn

.

Le pourcentage p est un bon estimateur sans biais du pourcentage P inconnu.

III. Paramètres de dispersion

1. La variance ν

On appelle ν la variance empirique, observée à partir d'un échantillon. Avec x les valeurs de la variable, m la moyenne de l 'échantillon et n la taille de l'échantillon :

ν=∑ (x−m) ²

n

Peut-on estimer σ² (variance au niveau de la population) par ν ?

Non, l'estimateur ν est biaisé : E (ν)=n−1

nσ ²

On estimera donc la variance de la population par s²=n

n−1ν=

∑ ( x−m) ²

n−1

2. La variance s²

On appelle s² la variance d'une variable quantitative calculée sur un échantillon, estimateur de la variance σ² inconnue dans la population. Avec x les valeurs de la variable, m la moyenne de l'échantillon et n la taille de l'échantillon :

s²=∑ (x−m) ²

n−1=

(∑ x² )−(∑ x) ²

nn−1

NB :L' intérêt de cette deuxième égalité est que le calcul de la variance est plus rapide (on a juste à faire la somme des valeurs des x).

La variance s² est l'estimateur de la variance σ² inconnue.

3. L'écart type

On appelle s l'écart type calculé sur les valeurs de l'échantillon, σ étant l'écart type inconnu dans la population.s=√s²

L'écart type s est l'estimateur de l'écart type σ inconnu.

2/18

Page 3: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

IV. Estimation d'un paramètre

Une estimation consiste à définir les paramètres d'une population à partir des paramètres observés sur un échantillon.

La valeur observée a fort peu de chances d'être exactement la valeur inconnue de la population. Néanmoins, elle est assez proche si l'échantillon est représentatif : en répétant l'échantillonnage, on trouvera d'autres valeurs, toutes assez proches les unes des autres et tournant autour de la véritable valeur de la population.

1. Estimation d'une moyenne

Théorème central limite :

La moyenne d'une variable quantitative calculée sur un échantillon est une variable aléatoire (moyenne des échantillons) qui suit une loi normale (convergence vers une loi normale) centrée sur la moyenne μ de la population.

Rappel : La loi normale est définie par sa moyenne égale à 0 et son écart type égal à 1 : N(0,1).

Distribution des moyennes des échantillons :

On étudie une population P selon une variable x et une moyenne μ inconnue. On tire un échantillon d'effectif réduit pour calculer la moyenne des x : x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes G x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes calculées, on peut considérer que ce sont les valeurs d'une variable aléatoire d'une population, celles des moyennes des échantillons . La moyenne est x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes G x, et la moyenne de ces moyennes est égale à μ.

3/18

Page 4: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

Alors, la moyenne des x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes G x est égale à la moyenne d'origine, les moyenne de ces échantillons sont distribuées normalement, donc grâce à cette loi normale, on peut prédire la probabilité qu'une moyenne x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes G x dans un échantillon pris au hasard soit comprise entre 2 valeurs autour de μ.

Distribution des moyennes des échantillons et intervalle de confiance de la moyenne:

2. Comment passer de la variable d'origine à la variable centrée réduite et inversement ?

z=x− x

sz.s= x− xx= x+z.s

z est appelé z score. C'est la variable centrée réduite. A chaque x correspond un z score. On peut donc retrouver chaque x en utilisant z, l'écart type s et la valeur des moyennes des x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes G x.

3. Comment déterminer les valeurs de l'intervalle de confiance ?

On lit dans la table de la variable normale centrée réduite les valeurs correspondant au risque choisi :

4/18

Page 5: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

Puis on dé-réduit et on décentre ces valeurs pour les ramener à l'échelle de la variable étudiée. La valeur recherchée μ a une probabilité 1-α de se trouver dans cet intervalle.

L'intervalle de confiance correspond donc à : x±∣zα∣. sm

B. Principes des tests statistiques

I. Définitions

Prenons un exemple : On compare la moyenne des poids des enfants de différentes maternelles.

Est- ce que μA= μB ? 18,2=18,2 → OUIPeut-on en être sûrs ? OUI, on peut calculer la moyenne de chaque population.Ce ne sont pas des tests statistiques, on calcule directement la moyenne des populations.

5/18

Page 6: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

Est-ce que μA= μC ? 18,2 ≠ 18,7. Donc, non.En est-on sûrs ? Oui, ce sont bien les moyennes des populations, pas des échantillons.

Est-ce que μD=μE ? → ???= ??? → on ne sait pas !Est-on sûrs de ne pas pouvoir conclure ? OUI !!! Il est impossible de peser tous les étudiants, trop nombreux.C'est dans ces cas que l'on fait des tests statistiques .

→ Il faut donc travailler sur des échantillons :

Mais les estimations sont imprécises :• La moyenne de l'échantillon n'est pas la moyenne de la population, ce n'en est qu'une estimation.• Les moyennes des échantillons peuvent être différentes alors que les moyennes des populations sont

égales.• Ceci s'explique à cause des fluctuations d'échantillonnage.

Distribution de la différence des moyennes

Si μD=μE alors μD – μE=0

Nous allons partir de cette hypothèse (hypothèse nulle) et regarder comment est distribuée la variable « différence des moyennes des échantillons » (d) : d = xD− x E

6/18

Page 7: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

Hypothèse nulleSous l'hypothèse nulle (H0) (i.e. μD=μE alors μD – μE=0), la moyenne des différences entre les moyennes des échantillons ( x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes G d) doit être égale à zéro.On montre alors que d suit une distribution normale.Quelle est la probabilité pour qu'un di (différence des moyennes de 2 échantillons) soit différent de zéro sous H0 ?

Hypothèse nulle vs hypothèse alternative

• Intuitivement , si di est très près de 0, on peut penser que l'hypothèse nulle est la réalité.• Tandis que, si di est très éloignée de 0, on préférera rejeter l'hypothèse nulle au profit de l'hypothèse

alternative qui dit que μD≠μE Plus objectivement, on utilisera les propriétés de la distribution normale de la variable d.

Degré de significativité :

La table de la loi normale centrée réduite nous dira avec quelle probabilité on peut trouver le d i que l'on a effectivement trouvé si l'hypothèse nulle est la réalité.

Risque α :

Plus classiquement, on se fixera une probabilité (α) et on regardera dans la table si notre di trouvé dépasse la valeur seuil correspondant à cette probabilité. Bien sûr, il faudra déréduire et décentrer la valeur seuil pour revenir à l'échelle de la variable d.

7/18

Page 8: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

Il existe 2 types de risques : le risque α et le risque β.

Réalité (inconnue)

Ho vraie HA vraie

DécisionHo vraie Pas d'erreur Risque β

HA vraie Risque α Pas d'erreur

II. Les étapes d'un test statistique

• Hypothèses à tester ◦ Choix de l'hypothèse H0

◦ Choix de l'hypothèse alternative HA

• Choix du risque α : fixer une règle pour décider de l'acceptation ou du rejet de H0

• Conditions d'application : tirage au hasard des échantillons, taille des échantillons etc.• Statistique du test : calcul de la statistique appropriée• Conclusion du test : décision en comparant la valeur de la statistique calculée au seuil de signification

au risque α choisi.

C. Quelques tests et leurs applications

Etude de la liaison entre 2 variables : tests de comparaison et tests d'indépendance

Tests de comparaison : Ils se font entre 2 échantillons pris au hasard.

Exemple : échantillon 1 : patients ayant eu une thrombose veineuse échantillon 2 : patients ayant eu une thrombose artérielle

La variable étudiée est le sexe de chaque individu.→ Question : La répartition est-elle différente dans les 2 échantillons ?

Tests d'indépendance : Ils se font entre 2 variables jouant des rôles symétriques pris sur un échantillon pris au hasard.

Exemple : Variables observées : le type de thrombose et le sexe de chaque individu→ Questions : Le type de thrombose dépend-il du sexe ? Le sexe dépend-il de la thrombose ?

8/18

0 3,2

Page 9: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

I. Étude de la liaison entre une variable quantitative et une variable qualitative

1. Comparaison des moyennes de 2 sous populations

a. Cas des grands échantillons (n1 et n2 ≥ 30)

1. Hypothèse à tester : • H0 : μ1=μ2 ou μ1-μ2=0• HA : μ1≠μ2

2. Choix du risque α : 5% (choisi en fonction de l'importance de la différence recherchée :Si l'étude porte sur des crèmes solaires, ces 5% sont largement suffisants. Mais si l'on compare des traitements oncologiques par exemple, on peut descendre à 1% voire 1 pour 1000. Le risque choisi est néanmoins rarement supérieur à 5%)

3. Conditions d'application : • échantillons pris au hasard• échantillons indépendants• n1 et n2 ≥ 30

4. Statistique du test

e=( x1)−

(x2)

sD

suit une loi Normale N(0,1) sous H0

Détails du calcul de la statistique du test :

Soit x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes GX la variable aléatoire de la moyenne d'un échantillon.L'écart ( x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes GX 1- x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes GX2 ) suit une loi normale de moyenne 0.Les 2 échantillons étant pris au hasard et de manière indépendante, x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes GX1 et x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes GX2 sont indépendantes et donc :

En exprimant l'écart ( x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes GX1--G X2 ) en unité d'écart type, la variable aléatoire E suit une loi normale N(0,1) sous H0 avec :

E=X 1− X 2

√σ ²D

Les vraies variances σ1² et σ2² sont peu souvent connues.Elles seront estimées respectivement par :

La variance de la différence σD² peut donc être estimée par :

s² D=s² x1

n1

+S² x2

n2

9/18

Page 10: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

La statistique du test est :

e=x1− x2

S D

5. Conclusion du test• si ∣e∣<N α on conserve H0

• Si ∣e∣⩾N α on rejette H0 pour accepter HA au risque α

6. Degré de significationOn lit la valeur de p dans la table bilatérale de la loi normale telle que ∣e∣=N p

Exemple : La durée moyenne vraie de séjour en réanimation après une chirurgie abdominale est-elle différente de la durée moyenne vraie de séjour en réanimation après une chirurgie vasculaire ?On a prélevé au hasard parmi les dossiers d'un service de réanimation :n1= 100 dossiers de malades réanimés après une chirurgie abdominale.n2=90 dossiers de malades réanimés après une chirurgie vasculaire.La durée moyenne du séjour en réanimation a été respectivement

– de x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes G x1 = 9 jours, avec une variance de l'échantillon (empirique) Var (X1) =8,8– de x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes G x2 = 7,9 jours, avec une variance de l'échantillon var (X2) =8,5.

1. Hypothèses à tester :

• H0 :La différence de durée moyenne de réanimation est due aux fluctuations d'échantillonnages (H0 : μ1= μ2)Cette différence D= 9-7,9 = 1,1 jours va être comparée à 0.

• HA : Les moyennes vraies dans les deux populations sont différentes :μ1≠μ2

2. Choix du risque α : 5%

3. Conditions d'application : échantillons indépendants, pris au hasard, de taille ≥ 30

4. Statistique du test : connaissant la variance de l'échantillon, l'estimation de la variance de la population est s²x=Var (X).(n/(n-1))s²x1= Var (X1).(n1/(n1-1))=8,8.(100/99)=8,89s²x2= Var(X2).(n2/n2-1))=8,5.(90/89)=8,59

5. Conclusion du test : pour un risque de 5% la valeur seuil N0,05 dans la table numérique bilatérale de la loi normale est 1,96.Comme 2,56>1,96, on rejette H0 au risque de 5%. Autrement dit, au risque de 5%, on affirme que la différence des durées moyennes d'hospitalisation est statistiquement significative.

6. Détermination du degré de signification : Dans la table numérique bilatérale de la loi Normale, on trouve N0,01=2,58 et N0,02=2,33. La valeur exacte ne se trouve pas dans la table (0,01≤p≤0,02). On dira que le degré de signification du test est p<0,02.

10/18

Page 11: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

b. Cas des petits échantillons (n1 ou/et n2<30)

1. Hypothèse à tester : • H0 : μ1=μ2 ou μ1-μ2=0• HA : μ1≠μ2

2. Choix du risque α : 5%

3. Conditions d'application : • échantillons pris au hasard• échantillons indépendants • X1 et X2 suivent des lois normales de même variance.

4. Statistique du test

t=x1− x2

S D

suit une loi de Student à ν= n1+n2 -2 degrés de liberté sous H0

5. Conclusion du testSi ∣t∣<T α; n1+n2−2 on conserve H0

Si ∣t∣⩾T α; n1+n2−2 on rejette H0 pour accepter HA au risque α

6. Degré de signification : on lit la valeur de p dans la table bilatérale de la loi de Student telle que ∣t∣=T p ;n1+n2−2

Détails du calcul de la statistique du test :

Dans le cas des petits échantillons, la différence des variances dans la population, σ1² et σ2² ne peut plus être estimée par le calcul donné précédemment pour s²x1 et s²x2.

Afin de simplifier le problème, on suppose que les échantillons sont issus de populations dont les moyennes peuvent être différentes mais de variances égales :σ1² = σ2² = σ²Sous l'hypothèse de normalité des variables, σ² peut être estimée à partir des 2 échantillons à la fois (moyenne pondérée) par :

La statistique du test, notée t, correspond alors à la différence des moyennes exprimées en unité d'écart-type estimé.

t=x1− x2

s D

Cette statistique t suit une loi de Student à ν=n1+n2-2 ddl.

Exemple : Le rythme cardiaque moyen des individus hyperthyoïdiens est-il différent du rythme cardiaque moyen des individus non hyperthyroïdiens (normaux) ?

On étudie 2 échantillons pris au hasard :– Pour les n1 = 12 hyperthyroïdiens : une moyenne x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes G x1=102,9 et une variance estimée de la population

d'origine s²x1=251,1– Pour les n2=11 normaux : une moyenne x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes G x2=77,8 et une variance estimée de la population d'origine

s²x2=99,5.

11/18

Page 12: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

Nous supposerons par la suite que le rythme cardiaque suit une loi normale et que les variances sont les mêmes dans les 2 populations.

1. Hypothèses à tester : les 2 échantillons hyperthyroïdiens et normaux sont issus de 2 populations caractérisées par un même rythme cardiaque (H0 : μ1=μ2)

La différence observée D= 102,9 -77,8 va être comparée à 0.HA : les moyennes vraies dans les deux populations sont différentes : μ1≠μ2

2. Choix du risque d'erreur α : 5%3. Conditions d'application : échantillons indépendants, pris au hasard, de taille <30, et le rythme cardiaque

est distribué normalement avec des variances identiques dans les deux populations.4. Statistique du test : Les conditions d'application étant vérifiées, nous pouvons utiliser le test t :

5. Conclusion du test : il y a 12+11-2 =21 ddl. Pour un risque de 5% la valeur seuil T 0,05;21 lue dans la table numérique bilatérale de la loi de Student est 2,08.Comme 4,49>2,08, nous acceptons l'hypothèse alternative selon laquelle la moyenne de la fréquence

cardiaque chez les hyperthyroïdiens est statistiquement différente de la moyenne de la fréquence cardiaque chez les normaux et cela avec un risque d'erreurs de 5%.

6. Détermination du degré de signification : Dans la table numérique bilatérale de la loi de Student, la valeur α la plus proche de 4,49 pour 21 ddl est 0,01. On dira que le degré de signification du test est p<0,01.

2. Comparaison d'une moyenne observée à une constante

a. Cas d'un grand échantillon (n ≥ 30)

1. Hypothèses à tester : H0 : μ=a ou μ-a=0HA : μ≠a

2. Choix du risque α: 5%3. Conditions d'application : échantillon pris au hasard n≥ 304. Statistique du test :

Il suit une loi normale N(0,1) sous H0.

5. Conclusion du testSi ∣e∣<N α On conserve H0 Si ∣e∣⩾N α on rejette H0 pour accepter HA au risque α.

6. Degré de signification : on lit la valeur de p dans la table bilatérale de la loi normale telle que ∣e∣=N p

12/18

Page 13: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

Détails du calcul de la statistique du test :

L'écart ( x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes GX-a) suit une loi Normale de moyenne 0 et Var( x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes GX-a) x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes = x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes Var( x1. On tire un deuxième échantillon de même n que l'échantillon 1, puis un troisième échantillon, et ainsi de suite. Avec cet ensemble de moyennes GX)=σ²/n

La statistique du test, notée e, correspond à la différence, exprimée en unité d'écart-type, entre la moyenne observée et la constante.Lorsque la variance de la population théorique est connue :

Lorsque la variance de la population théorique n'est pas connue, il est possible d'estimer σ² à partir de s² où :

La statistique du test devient alors :

Que la variance de la population soit connue ou estimée, la statistique e suit une loi normale N(0,1).

b. Cas d'un petit échantillon (n <30)

• Cas où la variance de la population théorique est connue

1. Hypothèses à tester :• H0 : μ=a ou μ-a=0• HA : μ≠a2. Choix du risque α : 5%3. Conditions d'application : échantillon pris au hasard et X suit une loi normale.4. Statistique du test (comme pour un grand échantillon)

suit une loi Normale N(0,1) sous H0

5. Conclusion du test• Si ∣e∣<N α on conserve H0

• Si ∣e∣⩾N α on rejette H0 pour accepter HA au risque α6. Degré de signification : On lit la valeur de p dans la table bilatérale de la loi Normale telle que

∣e∣=N p

• Cas où la variance de la population théorique est inconnue

1. Hypothèses à tester :• H0 : μ=a ou μ-a=0• HA : μ≠a2. Choix du risque α : 5%

13/18

Page 14: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

3. Conditions d'application : échantillon pris au hasard et X suit une loi normale.4. Statistique du test :

suit une loi de Student à ν = n-1 ddl sous H0

5. Conclusion du test :• Si ∣t∣<T α; n−1 on conserve H0

• Si ∣t∣⩾T α; n−1 on rejette H0 pour accepter HA au risque α

6. Degré de signification : On lit la valeur de p dans la table bilatérale de la loi de Student telle que ∣t∣=T p ;n−1

3. Séries appariées:1 échantillon, 2 séries de valeurs

a.Cas des grands échantillons (n≥30)

1. Hypothèses à tester :• H0 : μD=0 La moyenne D est nulle• HA : μD≠02. Choix du risque α : 5%3. Conditions d'application : 1 échantillon pris au hasard, n≥304. Statistique du test

suit une loi Normale N(0,1) sous H0 avec

5. Conclusion du test :• Si ∣e∣<N α on conserve H0

• Si ∣e∣⩾N α on rejette H0 pour accepter HA au risque α

6. Degré de signification : on lit la valeur de p dans la table bilatérale de la loi normale telle que ∣e∣=N α

b. Cas des petits échantillons (n<30)

1. Hypothèses à tester :• H0 : μD=0• HA : μD≠02. Choix du risque α : 5%3. Conditions d'application : 1 échantillon pris au hasard, D suit une loi normale.4. Statistique du test

suit une loi de Student à ν = n-1 ddl sous H0.

14/18

Page 15: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

5. Conclusion du test• Si ∣t∣<T α; n−1 on conserve H0

• Si ∣t∣⩾T α; n−1 on rejette H0 pour accepter HA au risque α

6. Degré de signification : on lit la valeur de p dans la table bilatérale de la loi de Student telle que ∣t∣=T p ;n−1

Exemple : Chez 16 malades atteints d'une tumeur du même type on a mesuré la surface de la tumeur avant et après un traitement par radiothérapie.La moyenne des différences après-avant traitement pour chaque individu est -2,37 et la variance estimée de la population théorique des différences est de 28,25.On suppose que la loi de distribution de la différence est une loi normale.

1. Hypothèses à tester : La radiothérapie ne change pas en moyenne la taille de la tumeur ;• L'écart observé est dû aux fluctuations d'échantillonnages (H0 :μD=0)• HA : La radiothérapie change en moyenne la taille de la tumeur μD≠0.2. Choix du risque d'erreur α : 5%3. Conditions d'application : un échantillon pris au hasard, de taille <30, et la distribution de la différence

de la surface de la tumeur suit une loi normale.4. Statistique du test : l'hypothèse de la normalité des différences étant admise, on peut calculer la

statistique t :

5. Conclusion du test :Seule la valeur absolue de t nous intéresse : 1,78.Pour un risque de 5%, la valeur seuil T0,05;15 lue dans la table numérique bilatérale de la loi de Student est 2,13.Comme 1,78<2,13, on rejette l'hypothèse selon laquelle la radiothérapie est active. On conserve l'hypothèse nulle au risque 5%.

6. Détermination du degré de signification : Dans la table numérique bilatérale de la loi de Student à 15 ddl, on a une valeur de 1,75 pour α=0,10. Le degré de signification du test est donc p>0,05.

15/18

Page 16: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

II. Étude de la liaison entre deux variables qualitatives

Exemple : On étudie la couleur des yeux des étudiants marseillais qui peuvent être bleus, verts ou marrons. Les proportions chez ces étudiants est -elle la même que dans la population générale ? On prend des échantillons (o1,o2,o3). On compare ces données avec les effectifs théoriques et on élève au carré pour ne pas que ces valeurs s'annulent et on divise par l'effectif théorique pour remettre à la bonne échelle. On suit alors une loi du χ².

16/18

Page 17: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

Je vous mets les différentes tables numériques ici, elles pourraient servir (si vous essayez de comprendre ce cours...)

Table numérique de la loi Normale :

Table de la loi du χ² :

17/18

Page 18: BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie) · 2015. 7. 22. · BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième

BIOMEDECINE QUANTITATIVE – Introduction à l'analyse quantitative (deuxième partie)

Table de la loi de Student :

Voilààà premier ronéo terminé. J'espère qu'il vous a plu. Que dis-je, j'en suis certaine, mes ronéos sont toujours très intéressants (#PlannelsenP2). Moi même, je ne me suis pas endormie 3 fois en le faisant, non non.Bref cassdedi aux Bgettes, QT et à l'appart E36 qui aura supporté mon scandaleux séjour au WES... Au SM, Bus le plus chaud, comme chacun le sait parce que CHEZ NOUS LES LEGUMES, C'EST UNE COUTUME !Aux autres, Jessviet vous remet des baguettes :

Et comme dirait l'autre, « Par exemple, vous prenez aujourd’hui. Vous comptez sept jours. Ça vous emmène dans une semaine. Et bien on sera exactement le même jour qu’aujourd’hui… À une vache près, hein… C’est pas une science exacte. » Et bien ce jour verra apparaître mon deuxième ronéo. A bon entendeur, je vous salue.

18/18