Biostatistiques : Petits effectifs

88
Biostatistiques : Petits effectifs 20/09/2012 Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos – DRCI CHRU de Lille – EA2694 [email protected]

Transcript of Biostatistiques : Petits effectifs

Page 1: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Biostatistiques :

Petits effectifs

Master Recherche Biologie et Santé

P. Devos – DRCI CHRU de Lille – EA2694

[email protected]

Page 2: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Plan

� Données Générales :

� Définition des statistiques

� Principe de l’échantillonnage

� Principe du test statistique – Tailles d’échantillons

� Analyse descriptive / Test de Normalité.

� Petits échantillons :

� Petits / Grands échantillons.

� Comparaison de deux ou plusieurs échantillons.

� Tests non-paramétriques

� Mesure de l'association entre plusieurs variables.

Page 3: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

La Statistique et les Biostatistiques

� La STATISTIQUE : discipline traitant du recueil (plans d’expérience, sondages, …), du traitement et de l’interprétation de données caractérisées par une grande variabilité .

� Partie des mathématiques appliquées, utilisant la théorie des probabilités.

� Beaucoup de domaines d’applications� Sondages : enquêtes d’opinion � Industrie : contrôle de qualité� Marketing : scoring, profil de consommateurs� Médecine : épidémiologie, recherche clinique� ……..

� Statistiques appliquées à la Médecine = BIOSTATISTIQUES � Données spécifiques : variabilité inter et intra, données interprétées, …� Méthodes spécifiques : survie, courbes ROC, plans d’expérience…

Page 4: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Méthodologie statistique

� Employer bien sûr la "bonne" procédure statistique pendant l’analyse !!!

� MAIS cela ne suffit pas …

� Choisir le bon type d’étude

� Choisir le bon plan d’expérience

� Choisir les bons critères de jugement

� Définir les variables recueillies

� Qualité des données recueillies

� Analyse statistique rigoureuse (tests, modèles, …)

� Bonne interprétation des résultats

Avant l ’étude !!!

Fin d’étude

Page 5: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

L’Échantillonnage

Page 6: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

L’inférence statistique

� On désire étudier une population P

� Principe : � On tire un échantillon E de taille n issu de P� On analyse les caractéristiques de E� On généralise à P

� Attention !!� E doit être un échantillon représentatif de P (même probabilité pour chaque individu

de se retrouver dans E)� E doit être de taille suffisamment élevée pour pouvoir extrapoler les résultats

Définir très précisément la population que l’on désire étudier !!

Page 7: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Les fluctuations d’échantillonnage

� Quand on tire aléatoirement un échantillon, on a des fluctuations.

� Exemple : on s’intéresse aux 10 premiers étudiants entrant dans l’amphi. On comptabilise 7 femmes et 3 hommes. Peut-on en déduire que 70% des étudiants qui assisteront au cours sont des femmes ? NON !!!

On considère que dans la population totale, les proportions d’hommes et de femmes sont les mêmes P(H)=P(F)=1/2

Soit X le nombre de femmes parmi les 10 étudiants. On peut montrer que X suit une loi binomiale de taille 10 et de paramètre 0.5 et calculer la probabilité d’observer 0,1,2,…,10 femmes.

0

0.05

0.1

0.15

0.2

0.25

0.3

0 1 2 3 4 5 6 7 8 9 10

P(X=k)

Page 8: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Les prendre en compte

Comment prendre en compte les fluctuations d’échantillonnage ?

1) En vérifiant que l’échantillon est représentatif (tests d’adéquation par exemple)

2) En donnant la marge d’erreur que l’on commet en raisonnant sur un échantillon (Intervalles de confiance)

3) En maîtrisant les risques d’erreurs (puissancedans le cas de comparaisons)

Page 9: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Principe du test statistique

Page 10: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le test statistique

� Un travail de recherche est bâti pour répondre à une question

� Le test statistique est basé sur 3 principes généraux :� Le test statistique sert à répondre à une question� Le test statistique est un test d’hypothèse : à la question on associe une

hypothèse (H0)� Le test statistique ne peut conclure de manière certaine : preuve

expérimentale donc il faut prendre un risque (première espèce)

� Conclusion fondée sur un test statistique

Principe du test statistique

Page 11: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Principe du test statistique

� Étape 1 : on cherche à prouver qu’elle est pipée

� Étape 2 : confrontation expérimentale : on jette 50 fois la pièce.

� Étape 3 : test d’hypothèse � Si pièce non pipée : P(Face)=P(Pile)=1/2

� Choix de l’hypothèse à tester notée H0 : :« la pièce de monnaie n’est pas pipée »

� Soit X : nombre de « Pile » (ou Face)

� Si H0 est vraie, la loi de X est connue (binomiale)

Question : une pièce de monnaie est-elle pipée?

k k N-kNP(X=k)= (1 )C p p−

Page 12: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Si H0 vraie, toutes les configurations sont possibles, y comprisP(0P)=(0,5)50

Principe du test statistique : Notion de risque

8.8 10-16 !!

0

0.02

0.04

0.06

0.08

0.1

0.12

0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50

k

P (

X=k

)

Page 13: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Principe du test statistique : Notion de risque

� Il faut décider : on choisit un risque raisonnable = 5%� On partage l’ensemble des possibilités en 2 zones, selon le risque 5% :

50P0P

25P

Compatible H0 = 95%

Très improbable sous H0 = 5% de chance =REJET DE H0

18P 32P

Limites de la zone compatible avec H0 se déterminent grâce au calcul des probabilités. Ici 18 - 32

Page 14: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

� Zone compatible avec H0 = probabilité de 95% de se produire si H0 vraie

� Zone de rejet de H0 =probabilité de 5% de se produire si H0 est vraie !!! (risque)

� Règle de décision: on fixe a priori la règle suivante :

- Si le résultat de l’expérience se trouve dans la zone compatible avec H0 (exemple 22P), on ne décide rien (« non significatif»)

- Si il se situe dans le zone « rejet de H0» on déclare H0 FAUSSE, donc on déclare H1 vraie, mais au risque 5%.

- Exemple : 15P, on décide que la pièce est truquée

� Risque de première espèce = Probabilité de rejeter H0 à tort = 5%

Principe du test statistique : Règle de décision

Page 15: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Notion de Puissance d’un test

Vérité

DécisionH0 H1

Compatible H0 β

Rejet de H0 =on décide H1

α 1-β

α = Proba (décider H1 / H0 est vraie) = risque de première espèce

β = Proba ( décider « compatible avec H0 » / H1 est vraie) = risque de deuxième espèce

Puissance = 1-β = Proba ( décider H1 / H1 est vraie)

α = Risque d'affirmer qu'il y a une différence significative alors qu'elle n'existe pasréellement.

β = Risque d'affirmer qu'il n'y a pas de différence significative alors qu'elle existeréellement.

Puissance = Probabilité de détecter une différence si elle existe réellement

Page 16: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

� Puissance dépend du risque de première espèce αααα , mais inutile en pratique car α fixé à 5%

Notion de puissance d’un test

Puissance = F(∆,N,DS)

En pratique, on estime ∆ et DSet on déduit N

� Puissance dépend de la différencemais aussi de la variabilité

Page 17: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

En pratique…

� Dépend du plan d’expérience :� Nombre de groupes� Indépendant / Apparié (patient propre témoin)

� Dépend du critère de jugement principal� Numérique� Binaire� Survie� …

� Des 2 risques:� α : risque de première espèce : généralement 5%� β : risque de seconde espèce : inférieur à 20%

Page 18: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Application : Taille des échantillons

Comparaison de 2 moyennes (groupes indépendants)

Alpha Beta Zalpha Zbéta K

0.05 0.05 1.96 1.64 25.99

0.05 0.1 1.96 1.28 21.01

0.05 0.2 1.96 0.84 15.70

Test bilatéral Test unilatéral

2

1 1

² ²2( )

² ²n Kz zα β

σ σ− −= + =

∆ ∆

Alpha Beta Zalpha Zbéta K

0.05 0.05 1.64 1.64 21.64

0.05 0.1 1.64 1.28 17.13

0.05 0.2 1.64 0.84 12.37

(Formules approchées)

Page 19: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple

� Différence attendue (∆) : 5mm de mercure

� Ecart-type (DS): 10 mm

� Risque de première espèce (α ): 5%

� Puissance (1-β ): 90%

210

21.01* 845

N = =

( par groupe )

0

0.2

0.4

0.6

0.8

1

0 50 100 150 200

Nombre de Patients par Groupe

Pui

ssan

ce

Page 20: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Application : Taille des échantillons

2

1 1

(1 ) (1 ) (1 ) (1 )( )

( )² ( )²A A B B A A B B

A B A B

P P P P P P P Pn K

P P P Pz zα β− −

− + − − + −= + =− −

Comparaison de 2 fréquences (groupes indépendants)

Test bilatéral Test unilatéral

(Formules approchées)

Alpha Beta Z1 Z2 K

0.05 0.05 1.96 1.64 12.99

0.05 0.1 1.96 1.28 10.51

0.05 0.2 1.96 0.84 7.85

Alpha Beta Z1 Z2 K

0.05 0.05 1.64 1.64 10.82

0.05 0.1 1.64 1.28 8.56

0.05 0.2 1.64 0.84 6.18

Page 21: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple

� PA = 0.1, PB = 0.2

� Risque de première espèce (α ): 5%

� Puissance (1-β ): 90%

10.51*25 263N = =( par groupe )

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 50 100 150 200 250 300 350 400 450 500

Effectif par Groupe

Pu

issa

nce

Page 22: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Comparaison de deux antihypertenseurs avec :� ∆∆∆∆ : 5mm de mercure

� Ecart-type (DS): 10 mm

� Risque de première espèce (α ): 5%

1- ββββ = 0.9 ���� N1=N2=86

L’étude a été réalisée sans calcul de puissance préalable sur 2 groupes de 30 sujets.

Ne pas confondre :

Conditions d’application du testet Puissance du test

Puissance = 1-ββββ = 0.48 !!!

Puissance d’un test et Taille d’échantillon

Page 23: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Traitement statistique

des données

Page 24: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Méthodes Statistiques : définitions générales

� INDIVIDU : « Objet » sur lequel un ou plusieurs caractères peuvent être observés.

� POPULATION : Ensemble des individus pris en considération.

� VARIABLE : peut être qualitative (attribut) ou quantitative (numérique).

VARIABLES

QUANTITATIVES

QUALITATIVES

DISCRETES (Nombre limité de valeurs)

CONTINUES (prend ses valeurs dans un intervalle

NOMINALES (SEXE, Couleur des Yeux, CSP, …)

ORDINALES = SCORE (Notion d’ordre)

BINAIRES ( Présent / Absent )

Page 25: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Les méthodes statistiques

La statistique

Inférentielle

DescriptiveMultivariée (ACP, …)

Univariée (moyenne, DS, …)

Multivariée (modèles, …)

Univariée (tests, …)

Page 26: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

La Statistique Descriptive

� BUTS :� Contrôle de qualité des données, descriptifs simples (moyennes, …).� Synthétiser, résumer, structurer l'information contenue dans les données.� Mettre en évidence des propriétés de l'échantillon.� Suggérer des hypothèses.

� Analyses univariées : moyennes, histogramme, box-plot, fréquences, …

� Analyses multivariées =Analyse des Données. Permet de traiter des données multidimensionnelles.

� Principales méthodes multivariées:� Méthodes de classification : déterminer des sous-groupes homogènes� Méthodes factorielles : réduire le nombre de variables par construction d'axes

synthétiques (ACP, AFC, ACM, ...), mais aussi sous-groupes d’individus� 2 classes de méthodes souvent complémentaires Cours N° 2

Page 27: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

La Statistique Inférentielle Univariée

� BUT : Valider ou infirmer des hypothèses a priori ou formulées après une phase exploratoire.

� Utilisation de tests statistiques se référant à des modèles probabilistes.

� EXEMPLES :

� Comparaison de moyennes (test T, Wilcoxon, …)

� ANOVA (+ + + !!!) / Modèle mixte

� Comparaison de fréquences (Khi², Fisher exact)

� Tests de lois (Shapiro-wilk, Kolmogorov-Smirnov)

� ...

Page 28: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

STATISTIQUE DESCRIPTIVE

UNIVARIEE

Page 29: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Analyse descriptive univariée

� Contrôle des données : Fréquences et Box-plots

� Calcul des statistiques descriptives : moyenne, ….

� Présentation des résultats :

�Moyenne et Déviation standard ouMédiane et Quartiles

�Fréquence avec Intervalle de confiance

3 Objectifs :

Page 30: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Paramètres statistiques de base

� Moyenne :

� Variance estimée:

� Déviation standard : racine carrée de la variance

� Min, Max, Médiane, Quartiles, Centiles

∑=

=n

i

in

xx1

1

( )2

1

1

n

i

in

s x x=

= −− ∑

Page 31: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

X max

X min

Médiane

Q3

Q1

+

0

II=Q3-Q1

1,5 (Q3-Q1)

1,5 (Q3-Q1)

0 : valeur comprise entre 1.5 et 3 interquartiles

* : valeur supérieure à 3 interquartiles

Le Box-Plot ( Boîte à Moustaches )

Page 32: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Représentations graphiques

VARIABLES DISCRETES

VARIABLES CONTINUES

Homme55%

Femme45%

Homme

Femme

VARIABLES QUALITATIVES

Page 33: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Distribution d’un paramètre (loi)

� Différentes formes observables

� Modélisation de la distribution : Hypothèse de loi

-2 2 6 1014182226303438

X

0

0. 02

0. 04De

n

s

i

ty

Page 34: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Tests de Normalité

� SHAPIRO-WILK ( N< 50 )

� KOLMOGOROV-SMIRNOV ( N> 50 )

-4 -3 -2 -1 0 1 2 3 4

Hypothèses de normalité requise pour

• test T, ANOVA

• régression,

• Intervalles de confiance (valeurs normales)

• …

Page 35: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Présentation des résultats

� Toujours rappeler la population étudiée, les patients inclus ou exclus, …

� Préciser les méthodes statistiques utilisées

� Faire des tableaux de synthèse

� Utiliser des graphiques

� Existence de recommandations ( http://www.consort-statement.org/)

� Suivre scrupuleusement les guidelines si article scientifique !!!

Page 36: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

� Utilisation de la moyenne si distribution symétrique, de la médiane si distribution asymétrique

� Pas de moyenne sans déviation standard

� Pas de médiane sans quartiles

� Pas de fréquence sans Intervalle de confiance

Présentation des résultats

-4 -3 -2 -1 0 1 2 3 40

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

0.5

0 2 4 6 8 10 12

moyenne

médiane

Page 37: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Intervalles de confiance à 95%

� d’un paramètre numérique :

si X suit une loi normale

� d’une moyenne :

quelque soit la loi de X, si n > 30

� d’une fréquence

si np , nq > 10

DS 96.1 ±x

n

DS 96.1 ±x

n

p)-p(11.96 p ±

Page 38: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Normalité d’un paramètre

Page 39: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

La droite de Henry

Normalité : très important car condition de nombreux tests

Méthode graphique qui permet de vérifier la normalité d’une distribution

Soit X, une variable aléatoire N(m,σ²)

φ : ]-∞,+∞[ → [0,1]x → φ (x) = P(X<x)

On définit la fonction réciproque :

φ-1: [0,1] → ]-∞,+∞[p → φ-1(p)

p z

0.01 -2.326 0.025 -1.96 0.05 -1.64 0.5 0 0.95 1.64 0.975 1.96 0.99 2.326

Exemple :

-3 -2 -1 0 1 2 3

p

z

Page 40: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

En pratique

Soit (X1, ... , Xn) un échantillon issu de X, R1, ..., Rn les rangs associés, 1

1

RiYi

nφ − = +

Si X suit une loi normale, alors les points (Xi,Yi) sont alignés

R2 = 0.9775

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

15 17 19 21 23 25 27 29 31 33

Droite de pente 1/σ coupant l’axe des abscisses en m.

Cas particulier des diagrammes P-P

Page 41: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le test de Shapiro-Wilk

Test implémenté dans de nombreux logiciels et utilisé pour des petits échantillons

Basé sur le calcul des différences symétriques :

d1 = Xn - X1d2 = Xn-1 - X2

. . . . . . . . .dk = Xn-k+1 - Xk

On obtient k=n/2 ou k=(n-1)/2 différences selon la parité de n

Puis on calcule :1

k

i ii

b a d=

=∑ , ( )2

1

²n

ii

S x x=

= −∑ puis ²

²

bW

S=

Les ai sont des coefficients dépendants de i et n

Utilisation d’une table qui permet de conclure.

Page 42: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple

Xi di ai ai*di 16.3 31.0-16.3=14.7 0.5150 7.5705 16.8 19.6 27.4-16.8=10.6 0.3306 3.50436 19.8 20.6 27.0-19.6=7.4 0.2495 1.8463 21.0 22.4 25.0-19.8=5.2 0.1878 0.97656 23.0 23.4 24.4-20.6=3.8 0.1353 0.51414 23.9 24.4 23.9-21.0=2.9 0.0880 0.2552 25.0 27.0 23.4-22.4=1 0.0433 0.0433 27.4 31.0 23

1

14.71k

i ii

b a d=

= =∑

( )2

1

² 220.77n

ii

S x x=

= − =∑0.9803W =

Lecture de la table : α = 0.05

n = 15

C(α,n) = 0.881

H0 : le paramètre suit une loi normale

W > C(α,n)

On ne rejette pas H0

Page 43: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Comparaisons de groupes

Page 44: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Comparaisons de groupes

� Dépend du type de variable :� Qualitatitives : Khi² ou Fisher Exact

� Quantitatives

� Comparaison Quantitatives – 2 approches:� Tests paramétriques : Student par exemple

• Paramétrique = on fait une hypothèse sur la loi du paramètre

• on compare des moyennes : interprétation facile

• Hypothèse forte : normalité !!!

� Tests non paramétriques :• Basé sur des rangs

• On compare des distributions : interprétation délicate

• Mais pas d’hypothèse de loi mais conditions d’application

Page 45: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

� Soit H0 : Les 2 caractères sont indépendants� Calcul des effectifs théoriques Tij=( Li * Cj) / N (tous supérieurs à 5)

� 1 degré de liberté

� Calcul de D² = 8,11 ⇒ on rejette l’indépendance

EXEMPLE : On veut savoir s’il existe une relation de cause à effet entre un pneumococque et le décès.

V (vivant) D (décés)

Pneumocoque G1 33 15 48

Autre G2 314 55 369

347 70 N=417

On dispose d’un échantillon se résumant ainsi :

La mortalité est-elle plus élevée chez les pneumocoques ?

Comparaisons de fréquence : le test du Khi²

Page 46: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

χ² d ’Indépendance : généralisation

� Sous l’hypothèse d’indépendance,

� Calcul de :

� Degrés de liberté : ν = (k-1) * (p-1)

� Utilisation de la table pour déterminer une valeur limite z� Conclusion du test : si D² > z alors rejet de H0, donc il existe une liaison entre

les caractères A et B

A1 A2 ........ Aj ........ Ak

B1 O11 ........ ........ ........ ........ O1k L1B2 O21 ........ ........ ........ ........ O2k L2

........ ........ ........ ........ ........ ........ ........ ........Bi ........ ........ ........ Oij ........ ........ Li

........ ........ ........ ........ ........ ........ ........ ........Bp Op1 ........ ........ ........ ........ Opk Lp

C1 C2 ........ Cj ........ Ck N

On souhaite savoir si deux paramètres A et B sont indépendants

On construit le tableau de

contingence croisant A et B

( )1 1

²²

p k

i j

Tij OijD

Tij= =

−=∑ ∑

*Cj LiTij

N=

Attention à Tij < 5

Page 47: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Cas particuliers : Fisher exact

� Test pouvant remplacer le χ² dans le cas d’effectifs théoriques inférieurs à 5.

� Basé sur la combinatoire

� Valide quelque soient les effectifs théoriques

� Valide quelque soit le nombre de lignes et de colonnes

� Attention, temps de calcul prohibitif si le nombre de cases du tableau est élevé

Page 48: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

a b

c d

2 Modalités 3 Modalités

( ) ²² si b+c 10

b c

b cχ

−=

+≥

( )1 ²² si b+c <10

b c

b cχ

− −=

+

Test de Mac Nemar

a b c L1

d e f L2

g h i L3

C1 C2 C3

( ) ( ) ( )2 2 2* 1 1 * 2 2 * 3 3

2 2 2²

2* * * *2 2 2 2 2 2

f h c g b dC L C L C L

b d c g b d f h c g f hχ

+ + + − + − + − =

+ + + + + + + +

χχχχ² à 1 ddl

χχχχ² à 2 ddl

FLEISS : Statistical methods for rates and proportions

Approximation par la loi normale

Test exact

Cas particuliers : Khi² apparié

Page 49: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Comparaisons de moyennes

Page 50: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Tests paramétriques

� Chaque fois que possible, utiliser des tests paramétriques car plus faciles à interpréter et utilisent l’information totale (pas de perte d’information) et donc a priori plus puissants.

� Attention : des conditions à vérifier :� Normalité de la distribution (population totale ou par sous-groupe)

� L’équilibre des groupes (même effectif dans chaque groupe)

� L’égalité des variances (test de Fisher ou de Levene)

� En fonction de la compatibilité avec certaines de ces conditions, possibilité d’utiliser un test paramétrique

Page 51: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Comparaison de 2 groupes

X ~ N(m,σ) ?

Égalité desVariances ?

OUI

NONOUI

Test de StudentApproximationde Satterthwaite

N1, N2 > 30 ?

NONOUI

Test de Student

Wilcoxon(non-paramétrique)

NON

Loi symétrique ?

OUI NON

Page 52: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Comparaison de k groupes

� Paramétrique : ANOVA (pas au programme)

� Non paramétrique : test de Kruskal-Wallis

� H0 : les moyennes (ANOVA) ou les distributions (KW) sont les mêmes dans les k groupes

Cas 1 : on ne rejette pas H0 Pas de différence STOP

Cas 2 : on rejette H0 Où sont les différences ? Post-hocs

Post-hocs : comparaisons multiples (par exemple, comparaison des groupes 2 à 2)

Page 53: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le modèle linéaire

� Permet de modéliser de nombreux plans d’expérience, simples ou complexes, en indépendant ou apparié, à un ou plusieurs facteurs.

� Hypothèse préalable de normalité sur « l’erreur » (les résidus)

� En fait, comme tout modèle linéaire, validation a posteriori :� Analyse des résidus

� Analyse des individus influents

Page 54: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Tests non-paramétriques

Page 55: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Définition - Impact

� Utilisé en général sur de petits échantillons (taille inférieure à 30 individus).

� Pas de statistiques en dessous de 8par groupe

� Attention : les théorèmes statistiques (Th Central limite, par exemple) ne s’appliquent plus � Nécessité de disposer de tests spécifiques

� Interprétation plus compliquée : on ne compare pas des moyennes.

� Problème de l’estimation :� Dans les statistiques standard : moyenne, déviation standard

� Dans les modèles

Page 56: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Tests non-paramétriques

� « Distribution-free » tests : tests ne faisant aucune hypothèse a priori sur la distribution des variables analysées (pas d’hypothèse de normalité).

� Généralement basés sur l’analyse des rangs.

RANG(X i) : Position de la valeur Xi dans la série classée par ordre croissant

-2 3 2 1 0 -1 -3 4 5 -4 3 8 7 6 5 4 2 9 10 1

On obtient une nouvelle variable Rx qui varie de 1 àn

� Problèmes :

� On « gomme » les différences

� Tests moins puissants

Attention aux ex-aequo (individus ayant la même valeur Xi)

soit (X1, X2,…, Xn) n valeurs numériques d’une même variable

Page 57: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le test de Wilcoxon ou Mann-Withney

� Utilisé pour comparer les distributions de 2 groupes indépendants

� H0 : Fa(X) <> Fb(X) (les fonctions de répartition sont différentes)

� On classe les observations par ordre croissant et on calcule la somme des rangs dans chaque groupe.

� On obtient une variable de décision qui suit une N(0,1) si au moins 8 individus dans chaque groupe

X

Si distribution identiques, alors mélange parfait entre le groupe A (ronds rouges) et le groupe B (triangles verts).

Dans ce cas, les sommes des rangs sont identiques (ou proches) dans les 2 groupes

Page 58: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le test de Wilcoxon

Soit n et m les effectifs des groupe 1 et 2,

Wx la somme des rangs du groupe A (ou B)

Sous H0 : «les distributions sont identiques», on peut calculer E(Wx) et V(Wx)

( 1)( )

2

n n mE Wx

+ +=( 1)

( )12

nm n mV Wx

+ +=et

Si n et m > 8, alors suit une loi N(0,1)( )

( )

Wx E WxZ

V Wx

−=

(Formules valides sans ex-aequo)

Page 59: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le test de Kruskal-Wallis

� Utilisé pour comparer les distributions de plus de 2 groupes indépendants

� H0 : les distributions (fonctions de répartition) sont égales

� Basé sur la différence de la moyenne des rangs dans chaque groupe à la moyenne des rangs sur la population globale

� Si Ni≥ 5, on obtient une variable de décision H qui suit un χ² à k-1 ddl

2

21

1 (N+1)H - N

4

ki

i i

R

S n=

=

( N, effectif total, Ni effectif par groupe et Ri somme des rangs du groupe i )

(Formule sans ex-aequo)

Page 60: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Kruskal-Wallis : différences 2 à 2 ?

Exemple : 3 groupes G1, G2 et G3 – Test global significatif

On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!!

Attention : Nécessité d’une correction du risque αααα

� Option 1: Utiliser les procédures implémentées dans certains logiciels (SAS, SPSS, …) et qui permettent une correction :� Procédure de Dwass-Steel

� Procédure de Conover-Inman

� Option 2: on effectue 3 tests de Wilcoxon au risque α/3

2 options possibles :

Page 61: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

La méthode de Conover

� On transforme la variable X en variable R en calculant les rangs (en faisant attention aux ex-aequo).

� On réalise une ANOVA « normale » sur la variable R (en utilisant les corrections du risque a telles que Bonferroni ou Tukey)

� Méthode simple mais pas forcément optimale (simulations) et qui a été critiquée (préservation du risque alpha et puissance)

Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics, W. J. Conoverand Ronald L. Iman - The American Statistician - Vol. 35, No. 3 (Aug., 1981), pp. 124-129

Page 62: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Quelques exemples

Page 63: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple 1 : comparaison de 2 groupes

Comparaison du BMI dans 2 groupes

Question 1 : le BMI suit-il une loi normale dans cet échantillon ?

Test de Shapiro-Wilk :

W=0.978 et p = 0.891

On ne rejette pas H0

Le BMI suit une loi normale !

N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 N11 N12Gr 1 20 22 23 23 23 23 24 24 25 25 26 27Gr 2 25 26 26 27 27 27 28 28 29 30

Page 64: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple 1 : comparaison de 2 groupes

Utilisation d’un test paramétrique : le test de Student

Test de Fisher (ou Levene)F=1.56 , p=0.5155

Égalité desVariances ?

Cas 1 : Variances égalesTest de Student sur variances poolées

T = - 4.85DF = 20p < 0.0001

Cas 2 : Variances inégalesTest de Student avec

corr Satterthwaite

T = - 4.96DF = 19.98p < 0.0001

Page 65: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple 1 : comparaison de 2 groupes

Si le BMI n’avait pas suivi une loi normale, alors utilisation du test de Wilcoxon.

Somme des Rangs du Groupe 1 : 85.5

Somme des Rangs du Groupe 2 : 167.5

Z = 3.4582

p = 0.005

Les distributions du BMI sont statistiquement différentes dans les 2 groupes.

Page 66: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple 2 : le test de Kruskal-Wallis

3 groupes de 10 individus – Réponse cotée de 0 à 20

N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 Somme RiGr 1 7 8 6 5 6 7 9 10 9 8 57.5Gr 2 9 12 11 11 10 12 12 11 13 12 156.5Gr 3 13 12 14 15 15 16 14 15 16 13 251

Test de KW :

• Khi² = 24.3885

• DDL = 2

• P < 0.0001

Page 67: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Kruskal-Wallis : différences 2 à 2 ?

On aimerait comparer G1/G2, G2/G3 et G1/G3 : 3 tests post-hoc !!!

Attention à la correction du risque α !!α !!α !!α !!

� Option 1 : correction disponible dans le logiciel

� Option 2: on effectue 3 tests de Wilcoxon au risque α/3

2 options possibles :

G1#G2 , G1#G3 et G2#G3

G1-G2 : p=0.00004

G2-G3 : p=0.00013

G1-G3 : p=0.00001< 0.0166

Page 68: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Méthode de Conover

� On transforme la variable en rang

� On réalise l’ANOVA sur les rangs

� Si rejet de H0, comparaisons post-hoc

Test global : p < 0.0001

Tests post-hocs significatifs

Mêmes conclusions qu’avec le test de Kruskal-Wallis

Page 69: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple 2 : Modèle linéaire

� Utilisation du modèle linéaire

� Test de l’effet global

� Vérification de l’influence et des résidus

� Si modèle OK et effet global significatif, alors calcul des tests post-hoc

Et si la loi était normale ??? Test de Shapiro-Wilk p=0.3541 !

La distribution suit une loi normale

Page 70: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple 2 : Modèle linéaire

-3

-2

-1

0

1

2

3

0 5 10 15 20 25 30

Obs Number

Res

idua

l

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0 5 10 15 20 25 30 35

Obs Number

Coo

k's

D

Résidus aléatoires et normalement distribués

2 individus ayant une Distance de Cook (influence) supérieure à 4/n

mais inférieure à 1.

Modèle paramétrique parfaitement valide !!!

Vérification du modèle sans les 2 individus

Page 71: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

1 groupe –Mesures répétées

Page 72: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

2 mesures

� Problématique : même paramètre X mesuré 2 fois sur le même individu : Mesure Avant / Après traitement par exemple.

� Plusieurs méthodes possibles

Cas 1 : X suit une loi normale Test paramétrique Test T apparié

Cas 2 : X ne suit pas une loi normale

Tests non paramétriques

Test des signes

Wilcoxon apparié

Page 73: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Test de Student pour données appariés

� On suppose que le paramètre X suit une loi normale, X mesuré 2 fois : X1 et X2

� H0 : m1=m2

� On calcule, pour chaque individu, la différence d, puis la moyenne et la déviation standard de la différence.

d

dt

n

σ=alors suit une loi de Student à n-1 ddl

Page 74: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le test des signes

� On dispose de n différences

� Soit K le nombre de différences positives (ou négatives)

� Sous H0 : m1=m2, il y a une chance sur 2 qu’une différence soit positive

On peut établir la loi de K qui suit une loi binomiale

K ~ B(n,1/2)

Page 75: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le test de Wilcoxon pour données appariées

� On dispose de n différences en valeur absolue

� On ordonne par ordre croissant et on calcule les rangs

� Soit Wx la somme des rangs des différences positives

Sous H0 : les distributions sont identiques, on peut calculer E(Wx) et V(Wx)

( 1)( )

4

n nE Wx

+=( 1)(2 1)

( )24

n n nV Wx

+ +=et

Si n > 10, alors suit une loi N(0,1)( )

( )

Wx E WxZ

V Wx

−=

(Formules valides sans ex-aequo)

Page 76: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple

10 vins notés par 2 experts

Différence de notation ?

1) Normalité ?

OUI : D suit une loi normale

2) Utilisation du T apparié

md=9

σd=7.90

n=10

t=3.60

ddl=9

p=0.0057 Très significatif !

Num X1 X2 D Ri1 62 79 17 92 73 69 -4 13 66 84 18 104 69 83 14 75 61 72 11 56 69 71 2 37 64 62 -2 28 76 83 7 49 61 73 12 610 65 80 15 8

Moyenne 66.6 75.6 9

Page 77: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple

Si la loi n’avait pas été normale , utilisation de tests non paramétriques

1) Test des signes : K=2 différences négatives - K suit une B(10,1/2)

2) Wilcoxon apparié : Wx=50.5 (sommes des rangs des diff >0)

( 1)( ) 27.5

4

n nE Wx

+= = ( 1)(2 1) 10*11*21( ) 96.25

24 24

n n nV Wx

+ += = =

( ) 50.5 27.52.3444

( ) 96.25

Wx E WxZ

V Wx

− −= = = p=0.019

( )2

10

100

0.5 0.0547 en unilatéral, 0.109 en bilatéralk

k

p C=

= =∑ NS !!

?

Page 78: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

3 mesures ou plus

� Problématique : même paramètre X mesuré k fois sur le même individu : Test de plusieurs traitements / Mesures répétées dans le temps.

� Plusieurs méthodes possibles

Cas 1 : X suit une loi normale Paramétrique Modèle linéaire

Cas 2 : X ne suit pas une loi normale

Test non paramétriques

Test de Friedman

Page 79: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le test de Friedman

� Un échantillon de n individus, k mesures répétées

� On calcule le rang de chaque variable pour chaque individu

� Test basé sur la dispersion des rangs moyens de chaque mesure

2

1

12 1

( 1) 2

k

i

i

n kQ R

k k =

+ = − + ∑

Q suit une loi de Khi² à k-1 ddl

(Formule valide sans ex-aequo)

Page 80: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple

Obs X1 X2 X31 7.7 7 5.12 9.2 8.3 7.93 5.5 4.8 5.34 8.8 8.1 7.75 8.3 7.2 5.56 7.9 7.5 5.37 7.2 7.1 4.98 8.5 7.3 89 9.4 8.4 8

10 8.9 8.2 7.9

8.14 7.39 6.56

10 souris – Hormone mesurée à M0, M6, M12Obs R1 R2 R3

1 3 2 12 3 2 13 3 1 24 3 2 15 3 2 16 3 2 17 3 2 18 3 1 29 3 2 1

10 3 2 1

3 1.8 1.2

Rangs

Q=16.8 – Suit un Khi² à 2 ddl – p=0.0002245Très significatif !!

Problème des tests post-hocs : pas simple !!!

Alternative : Wilcoxon appariés 2 à 2 avec correction du risque α

Page 81: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Associations entre paramètres

Page 82: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le coefficient de Corrélation : Introduction

EXEMPLES :� Rapport entre la taille et le poids

� Rapport entre un prix de vente et une superficie

� Interaction entre des paramètres biologiques

� etc ...

Utilisé pour étudier la liaison (ou l’indépendance) entre 2 paramètres numériques.

On considère donc un couple de variables (X,Y)

N couples (Xi,Yi) , réalisations du couple de variables aléatoires (X,Y)

Page 83: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le coefficient théorique

REMARQUES :

� ρ est toujours compris entre -1 et 1

� Si X et Y sont indépendantes, alors E(XY)=E(X)E(Y) et donc ρ = 0

� S‘il existe une relation fonctionnelle du type Y=aX+b entre X et Y, alors |ρ| = 1

Soit (X,Y) un couple de variables aléatoires

Le coefficient de corrélation linéaire entre X et Y est défini par :

2 2 2 2

COV(X,Y) E(XY)-E(X)E(Y)

X Y X Y

ρσ σ σ σ

= =

Page 84: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

1(xi-x)(yi-y)

n 1 12 21 2 2 et (xi-x) (yi-y) avec n n1 1x y

n

n nr S Sx yS S

= = =∑ ∑

� De même que pour le coefficient théorique :� r est compris entre -1 et 1

� r = 0 : pas de liaison

� r proche de 1 : liaison fonctionnelle

� ATTENTION : absence de liaison n’est pas équivalent à indépendance

On dispose d ’un échantillon de taille N (N>30)(X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn)

On définit le coefficient de corrélation de BRAVAIS-PEARSON par :

Le coefficient observé

Page 85: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Du bon usage de r !!!

� r mesure le caractère LINEAIREd’une liaison

� Usage réservé à des nuages de points où les points sont répartis de part et

d’autre d’une tendance

� R est très sensible aux individus extrêmes.

� Attention aux valeurs aberrantes.

� Utilité de la représentation graphique.

Page 86: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Le coefficient de corrélation de Spearman

� Soient (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn),

� (R1,...,Ri,...Rn) et (S1,...,Si,...Sn) les rangs associés.

� Le coefficient de corrélation de Spearman calculé entre (X1,...,Xi,...Xn) et (Y1,...,Yi,...Yn) est égal au coefficient de corrélation de Pearson calculé entre (R1,...,Ri,...Rn) et (S1,...,Si,...Sn).

� Utilisé en non paramétrique si N<30

Page 87: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Exemple

0

20

40

60

80

100

120

140

0 5 10 15 20 25 30 35 40 45 50

X

Y

2 paramètres numériques mesurés chez 10 patients

Mesure de l’association : calcul du coefficient de Spearman

R=0.973 p<0.0001

Page 88: Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs 20/09/2012

Des questions ???

Patrick Devos – Délégation à la Recherche - [email protected]

Alain Duhamel – Pôle de Santé Publique - [email protected]

Possibilité de RDV le Mardi AM ou Jeudi AM (ou autre si nécessaire)

Mme Brigitte Bonneau

Pôle de Santé Publique

03 – 20 – 44 – 55 – 18

Contact :

Julia Salleron – Pôle de Santé Publique – [email protected]