Post on 18-Jul-2015
Conception d’un essaiAspects statistiques
Michel Cucherat
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 3.0 France
But à atteindre
Un effet démontré par un résultat statistiquement significatif sans inflation du risque alpha
Cela nécessite de prévoir– Une absence de multiplicité des comparaisons
– Ou une procédure de contrôle du risque alpha lors de comparaisons multiples
– Un effectif suffisant pour garantir une puissance satisfaisante à l’essai
Obtenir pile à pile ou face(Probabilité = 50%)
Échantillon 148%
Échantillon 252%
Échantillon 350%
Échantillon 445%
Fluctuations aléatoires
Même type de patients(Probabilité d'AVC = 12%)
Échantillon 19%
Échantillon 212%
Échantillon 316%
Échantillon 426%
Fluctuations aléatoires
Conséquences pour la comparaison de 2 échantillons
– les proportions observées dans 2 échantillons peuvent être différentes
– uniquement du fait du hasard
– même si dans ces 2 échantillons la vraie probabilité était la même
les FAE sont susceptibles de fausser les comparaisons
Groupe T+ Groupe T-
Vrai risque = 10% Vrai risque = 10%
Effet du traitement = 0
Risque observé = 6% Risque observé = 12%
Différence observée = -6%
Conséquences des fluctuations
Problématique des comparaisons
Quand on ignore la réalité,
la différence observée de -6% est-elle ?
– une manifestation des fluctuations aléatoires, donc due uniquement au hasard
– la traduction d’une réelle différence entre les deux groupes, donc d’un effet non nul du traitement
Comment départager ces 2 possibilités ?
Solution : test statistique .
Conclure à l'existence
d'une différence
Décider d'utiliser le
nouveau traitement
Grp T
Grp C
diff -6%
La conclusion doit être conforme à la réalité
mais elle se base uniquement sur l’observé
But des comparaisons
Quel est le but des comparaisons ?
Effets des fluctuations dans une comparaison
Le hasard peut faire apparaître une différence qui n'existe pas en réalité
Inversement, le hasard peut réduire une différence qui existe réellement
donc 2 façons de fausser la conclusion
Vrai valeur12%
Échantillon 17.5%
Échantillon 215%
Différencenon réelle
Erreur statistique alpha
Conclure à l'existence d'une différence qui n'existe pas en réalité : faux positif
Vrai valeur12%
Échantillon 115%
Échantillon 215%
Fausse absencede différence
Vrai valeur19%
Erreur statistique bêta
Ne pas conclure à une différence qui existe pourtant en réalité : faux négatif
Erreur alpha
Erreur bêtaDifférence
Pas de différence
Différence Pas de différence
Ré
alit
é
Conclusion
Application à l’essai thérapeutique
Risque alpha : considérer comme efficace un traitement qui ne l’est pas
Risque bêta : ne pas conclure alors que le traitement est efficace
Puissance : montrer l’efficacité d’un traitement réellement efficace
Tests statistiques
Outils d'aide à la décision
Principe– conclure à une différence
– que si le risque de faire une erreur (de première espèce) est faible
Quantification du risque d'erreur alpha– à partir des données disponibles
(Risque de commettre une erreur alpha = risque alpha)
Démarche du test statistique
Calcul de la probabilité p– p : probabilité que "la différence observée soit due uniquement au
hasard"
p représente le risque de faire une conclusion erronée si l'on décidait de conclure
p est une quantification du risque alpha
On ne conclut que si ce risque d'erreur est suffisamment petit
5% ?
Un risque de 5% est-il acceptable pour décider de l'utilisation d'un traitement
Exigence réglementaire de 2 essais significatifs– alpha de la décision 5%*5%=2.5/1000
Exemples
Événements coronariens majeurs (« MACE Major Coronary Events ») : décès, infarctus, nécessité de revascularisation
Survie sans progression : durée jusqu’au critère composite décès ou progression de la maladie nécessitant un traitement (chirurgie)
Intérêts
regrouper des équivalents du même phénomène clinique.
mesurer directement le rapport bénéfice/risque
sensibiliser la recherche d'un effet,
Exemple Benestent
Angioplasty
n=410
Stent
n=413
Relative risk
(95%)
Death 1 2
Q-wave myocardial
infarction7 5
Non Q-wave myocardial
infarction6 10
Coronary artery bypass
surgery6 6
Repeat PTCA 56 33
Composite endpoint 79 530,67
(0,48;0,92)
Analyses intermédiaires
en cours d’essai, avant que tous les patients prévus aient été recrutés
et/ou avant la fin de la période de suivi initialement prévue
But arrêter prématurément– pour efficacité
– pour toxicité
– pour futilité
Ajustement du seuil de signification
Méthode de Bonferroni
– Pour k comparaisons, le seuil ajusté est :
– Pour k=3, saj = 5% / 3 = 1.67%
– Quand est petit,
– Donc pour conserver un risque alpha global de 5% :
– Inconvénient : fait l’hypothèse d’une stricte indépendance des variables testées méthode conservatrice
ajsk
1 1
1 1
k
k
k
k
0.05
0.05
k
k
Cas 1
3 analyses intermédiaires + 1 analyse finale = 4 comparaisons
Arrêt prématuré de l’essai
Analyse intermédiaire
1 2 3
Analyse finale
p = 0.10 p = 0.011
5%/ 4 1.25%ajs
Cas 2
Pas d’arrêt prématuré mais conclusion à l’efficacité
Analyse intermédiaire
1 2 3
Analyse finale
p = 0.25 p = 0.08 p = 0.04 p = 0.01
Cas 3
Pas d’arrêt prématuré et résultat non significatif (p=4%>saj)
Analyse intermédiaire
1 2 3
Analyse finale
p = 0.42 p = 0.28 p = 0.12 p = 0.04
Cas 4
Résultat non significatif
Analyse intermédiaire
1 2 3
Analyse finale
P = 0.89 p = 0.48 p = 0.25 p = 0.10
Autres méthodes
Fonctions de dépenses du risque alpha
Méthode Analyses intermédiaires
1 2 3 4
Analyse finale
Pocock 0.017 0.017 0.017 0.017 0.017
O’Brien et Flemming
0.00005 0.004 0.012 0.025 0.04
Lan et Demets 1
0.015 0.016 0.017 0.018 0.019
Lan et Demets 2
0.00001 0.002 0.011 0.025 0.041
Peto 0.001 0.001 0.001 0.001 0.05
P ajusté
Problème : différents p donnés par les tests
– exemple : 0.01, 0.02, 0.20
Problème de l'intervalle de confiance
ajp pk
CARDS
interim analysis when 25%, 50%, and 75% of the total
anticipated primary endpoints had accrued.
The interim analyses used an asymmetric (Peto-Haybittle)
type rule and we prespecified that the board might advise
termination if a significant difference emerged
– in favour of atorvastatin (at p<0·0005 one-sided, p<0·001 twosided
at any analysis) or
– in favour of placebo (at p<0·005, 0·1, and 0·2 one-sided, for the
three interim analyses, respectively).
At the second interim analysis a significant difference was
reported in favour of atorvastatin at p<0·001 (two-sided)
Puissance
Aptitude d'une comparaison à mettre en évidence une différence qui existe réellement
Pour une situation donnée, dépend du nombre de sujets
1-β
β ne se calcule pas comme le p
Conditionnée par le nombre de sujets
Calcul du nombre de sujets +++
Conséquences d'une puissance insuffisante
Forte probabilité d'obtenir un résultat négatif (différence non significative)– coût
Force de conviction faible des petits essais– partie visible de l'iceberg
Difficulté d'interprétation d'une différence non significative
Calcul a priori du nombre de sujets nécessaires– pour garantir une puissance élevée (80 - 95%)
Le calcul dépend– de alpha (5%)
– de la puissance recherchée (90%)
– de la différence à mettre en évidence (vrai effet)
– de la fréquence de l'événement r0 (dans le groupe placebo)
nécessaire de faire des hypothèses sur r0 et le vrai effet– car inconnu avant de recueillir les observations
La démarche est spéculative
– si le vrai effet du traitement est de -7%
– si la fréquence r0 est de 10%
– un nombre de sujets de 578
– donne une puissance de 90%
• l'essai a 90% de chance de mettre en évidence cet effet
Mais si en réalité
– le vrai effet est plus petit
– ou r0 < 10%
– la probabilité d'obtenir un résultat significatif est < 90%
Influence du nombre de sujets
La signification statistique et la valeur de p– dépend du nombre de sujets (observations) n
p1=7% p0=13% – n=100 p = 0.56 (NS)
– n=1000 p = 0.01 (p<0.05)
Visualisation avec les IC
Différence0
P<0.05
NSn=100
n=1000
-6%
Taille de l'effet
0%
25%
50%
75%
100%
0.4 0.5 0.6 0.7 0.8 0.9 1
Taille de l'effet (risque relatif)
Puis
sance
Pertinence clinique
Signification statistique pertinence clinique
Réduction de mortalité de 25% à 12%, p<0.05– réduction statistiquement significative
– pertinente cliniquement
Réduction de mortalité de 2.3% à 2.1%, p<0.05– réduction statistiquement significative
– peu pertinente cliniquement
Intervalle de confiance
Différence = -6%
IC 95% = [-8%;-4%]
L’intervalle *-8%;-4%] à 95% de chance de contenir la vraie
valeur de la différence
reflète l'incertitude de l'estimation
Il n'est pas possible d'exclure que le vrai effet ne soit que de -
4%
– situation la pire
– efficacité plus faible que les -6% de l'estimation ponctuelle
Interprétation des IC
ensemble des valeurs raisonnablement possibles pour la vraie moyenne
il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%)
95% = degré de confiance
il est peu probable (prob 5%)– que la vraie valeur soit > à bs
– ou que la vraie valeur soit < à bi
– il est donc peu raisonnable de parier que la vraie valeur soit à l'extérieur de l'IC
Intervalles de confiance
0.40 0.60 0.80 1.00 1.20 1.40
Risque relatif
Essai A
Essai B
Essai C
Essai D
Essai E
G1 G2
51
01
52
02
5
Groupe
Y
2 4 6 8 10
51
01
52
02
5
Covariable
Y
Groupe 1
Groupe 2
Exposé de la problématique
Exposé de la problématique 2
G1 G2
51
01
52
02
5
Groupe
Y
2 4 6 8 10
51
01
52
02
5
Covariable
Y
Groupe 1
Groupe 2
Ajustement
L'ajustement consiste à corriger un résultat des effets parasites induits par des covariables influençant aussi le critère de jugement
Réaliser la recherche de l'effet du traitement en ajustant sur un autre facteur
Augmenter la précision de l'estimation
Décès / n
G. traité
G. contrôle
RR [IC 95%]
p
bon pronostic 5 / 200
2,5%
10 / 200
5,0%
0,50
[0,17 ; 1,44] -
mauvais
pronostic
6 / 20
30%
12 / 20
60%
0,50
[0,23 ; 1,07] -
Analyse non
ajustée
11 / 220
5%
22 / 220
10%
0,50
[0,25 ; 1,01]
p =
0,052
Analyse ajustée - - 0,50
[0,27 ; 0,93]
p =
0,027
Supprimer l'effet des facteurs de confusion
Décès / n
G. traité
G. contrôle
RR [IC 95%]
p
mauvais
pronostique
35 / 141
25%
30 / 61
49%
0,50
[0,34 ; 0,74] -
bon pronostique 3 / 59
5%
14 / 138
10%
0,50
[0,15 ; 1,68] -
Analyse non
ajustée
38 / 200
19%
44 / 199
22%
0,86
[0,58 ; 1,27] NS
Analyse ajustée - - 0,50
[0,35 ; 0,73]
p <
0,001
Supprimer l'effet des facteurs de confusion -stratification
Décès / n
G. traité
G.
contrôle
RR
[IC 95%] p
mauvais
pronostique
37 / 150
25%
74 / 150
50%
0,50
[0,36 ; 0,69] -
bon pronostique 2 / 50
4%
4 / 50
8%
0,50
[0,10 ; 2,60] -
Analyse non
ajustée
39 / 200
19%
78 / 199
22%
0,50
[0,36 ; 0,70] 0.0004
Analyse ajustée - - 0,50
[0,35 ; 0,73]
p <
0,001
En pratique
Risque de sur-ajustement en cas de – ajustement sur les variables déséquilibrées entre les groupes
– choix post hoc
Ajustement– Sur des variables pronostiques connues
– défini a priori
Données de survie
Objectif : montrer que le traitement recul le moment de survenue du décès (ou de n'importe quel événement)
comparaison des temps moyens de survie
Nécessite de suivre tous les patients jusqu'au décès– quasiment impossible
A la fin de l'étude, une proportion variable de sujets sont toujours vivants
Durée moyenne de survie– moyenne des durées de survie de chaque patient de l'échantillon
Exemple– n = 4 : 6 mois, 2 ans, 3 ans, 10 ans
– moyenne = 3,9 ans
– analyse impossible avant 10 ans !!!
– Moyenne des données partielles est fausse (sous estime)
• Calcul à 3 ans (3 décès / 4) = 1.83 ans
Calcul de la fréquence des décès
Durées de suivi variables
Les patients sont suivis + ou - longtemps
Calcul de la fréquence des décès à un temps donné problématique– sous estime la mortalité
Solution partielle– raisonnement en patients années
– sous entend que le nombre de décès est proportionnel au temps d'observation --> Faux
En pratique– suivi des patients sur une certaine période calendaire
– arrêt du suivi à une date de point
– détermination de l'état (VV ou DCD) à la date de point
– 2 types de données
• patients DCD avant la date de point : durée de survie
• patients toujours vivant à la date de point
Censure du suivi– patient VV à la date de point
– suivi censuré avant la survenue du décès
Référentiel initial des données
Temps calendaire
– les durées de suivi des censurés dépendent du recul (inclusion du patient - date de point)
Calendrier2001 2002 Date de
point
DCVV
DC
VV
Temps de survie
Abscisse = temps de survie après inclusion
– pour chaque patient : durée de suivie ou de survie à partir de son t = 0 (inclusion)
Temps
DCVV
DC
VV
t=0
Autre source de censure : les perdus de vue– patients impossibles à contacter à la date de point
– état à la date de point inconnu
– date de dernières nouvelles (< date de point)
• censure à cette date
Courbe de survie
Estimation suivant la méthode de Kaplan Meier– prise en compte des suivis censurés pour la période de temps où ils sont
informatifs
– le nb de patients pris en compte diminue au cours du temps au fur et à mesure des censures
Précision de l'estimation
Intervalle de confiance à 95%
0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
Temps (an)
Su
rvie
S(t
)
Conséquence des censures
Diminution de la quantité d'information– une censure est non informative pour la durée de survie
– mais il est partiellement informatif
• (durée de survie au moins égale à x)
– Perte de précision
• la précision diminue au fur et à mesure de l'accumulation des censures
Biais– Les différents types de censure
• perdus de vue
• censures à la date de point
– ne vont pas avoir les mêmes conséquences sur l'estimation en terme de biais
Essai à durée de suivi fixe
temps
Premier patient
Dernier patient
Période d'inclusion
1 an de suivi
1 an de suivi
temps
Premier patient
Dernier patient
Période d'inclusion
1 an de suivi
1 an de suivi
Cas mixte
temps
Date
de fin
Premier patient
Dernier patient
Période d'inclusion
temps
Date
de fin
Premier patient
Dernier patient
Période d'inclusion
Essai à durée de suivi fixe (ou mixte)
Censures sont liées à la fin de l'essai
L'étalement des censures correspond à l'étalement des inclusions
elles ne faussent pas la partie de la courbe où il n’y a pas de censure
0 5 10 15
0.2
0.4
0.6
0.8
1.0
Temps (mois)
Surv
ie S
(t)
Essai à date de point
Censures représentent l'étalement des inclusions
Signification de la durée moyenne de suivi ?
0 5 1 0 1 5
0.2
0.4
0.6
0.8
1.0
Te m p s (m o is )
Su
rvie
S(t
)
Durée moyenne de suivi
Courbe de survie représentée jusqu'à 12 mois, – mais seulement 30% des sujets ont été suivis aussi longtemps
Valeur de la l'estimation à 1 mois ?
Il faut :– la durée de suivi durant laquelle tous les patients ont été suivis
– la durée moyenne ou médiane
– l’estimation de la survie n’est vraiment informative qu’à la médianne de survie
Censures non aléatoires
Correspondent à des perdus de vue ou à des sorties d'essais
Non indépendantes du traitement ou de l'état du patient
Biais dans l'estimation de la courbe
0 5 10 15
0.2
0.4
0.6
0.8
1.0
Temps (mois)
Surv
ie S
(t)
Lecture verticale des courbes de survie
Lecture verticale– comparaison à un temps donné des taux de survie ou du taux de décès
– idem analyse à un temps de suivi donné
Nouvelle chimio
Chimio standard
3 ans
100%
50%
0%
Essai thérapeutique en cancero, nouvelle
chimio comparée à chimio standard
51%
25%
Lecture horizontale
Le temps t50 pour lequel la survie est de 50% = médiane des temps de survie– 50% des sujets sont DCD, donc ont
une durée de survie < t50
– 50% sont VV, donc ont une durée de survie > t50
Lecture horizontale– augmentation de la médiane de survie liée au traitement
Nouvelle chimio
Chimio standard
100%
50%
0%
10 mois 30 mois
Comparaison de 2 courbes
Test du Logrank– hypothèse nulle : les 2 courbes sont superposées
– test "globalement" si les 2 courbes sont différentes
– peut être significatif même si la lecture horizontale ou verticale ne l'est pas
Modèle de Cox– ajustement multivarié
Modèle de Cox
Méthode multivariée d'analyse des données de survie
Permet de faire des ajustements
coefficients – exp(coeff.) = risque relatif instantané
– facteur multiplicatif de la probabilité de décéder à un instant t
test H0: coeff.=0 (RR instantané = 1)– le facteur modifie t-il la survie ?
Quantification de l'effet traitement
Rapport des risques instantanés– HR (hazard ratio)
– assimilable à un risque relatif
Estimable avec– le logrank
– le modèle de Cox
The median overall survival was 12.3 months in the paclitaxel–carboplatin–bevacizumab group, as compared with 10.3 months in the paclitaxel–carboplatin group (hazard ratio for death, 0.79; 95% CI, 0.67 to 0.92; P = 0.003) (Fig. 2A). Survival rates were 51% in the paclitaxel–carboplatin–bevacizumab group, as compared with 44% in the paclitaxel–carboplatin group, at 1 year and 23%, as compared with 15%, respectively, at 2 years.
Répétition des tests
Plusieurs tests réalisés pour répondre à une même question– par exemple plusieurs critère de jugement
Conclusion à un effet à partir du moment où il existe au moins un test significatif
Le risque de la conclusion est bien supérieure à 5%= Inflation du risque alpha
Rappel, avec un ttt. sans effet,– sur 100 tests, il y en aura 5 significatifs (en moyenne)
Conclusion1 test Contrôle parfait du risque alpha (5%)
Conclusion
Test 1
Test 2
Test 3
Test 4
Le risque de conclure à tort est > à 5%
(seuil de 5%)
A partir du moment où au moins 1 test est significatif
Comparaisons multiples
Avec un traitement sans efficacité
en faisant 10 tests statistiques (p.e. 10 essais)
nous avons 40% de risque de faire au moins une conclusion (à tort)
Nb de tests Risque alpha global
5 0.23
10 0.40
20 0.64
50 0.92
1 1k
global
Inflation risque alpha
Situations d’inflation du risque par répétition des comparaisons :– Essai multi-bras (multi doses par exemples)
– Absence de critère principal
– Analyses en sous groupes
– Analyses intermédiaires « non protégées »
– Recherche de l’effet répété dans le temps
The significance level used in the pairwise comparisons
between the groups receiving experimental treatment and the
group receiving standard treatment was 0.017 on the basis of
the Bonferroni correction for multiple comparisons,
corresponding to an overall type I error rate of 0.05.
N Engl J Med 2008;358:1663-71.
Critère principal
• Décès de toute cause
Critères secondaires
• Décès cardiovasculaire
• Mort subite
• Infarctus
• Accident vasculaire cérébraux
• Chirurgie
• Décès de toute cause
• Décès cardiovasculaire
• Mort subite
• Infarctus
• Accident vasculaire cérébraux
• Chirurgie
Pas de définition
de critère principal
Risque de conclure à
tort à l ’efficacité du
traitement = 30%
6 tests statistiques
Critère de jugement principal
Risque de conclure à
tort à l ’efficacité du
traitement = 5%
Définition a priori
d ’un critère principal
Un seul test statistique
Critère principal
Conclusion que si le critère principal est significatif
Critères secondaires : explicatifs
Multiplicité des comparaisons - Exemple
In women, however (Table 2), a positive effect on BMD was observed
at several sites (mostly trabecular bone zones), namely the femoral
neck and the Ward’s triangle in the 60–69 y group, and upper and total
radius in the 70–79 y group.
Critère principal
Conclusion que si le critère principal est significatif
Critères secondaires : explicatifs
Méthode séquentielle hiérarchique
Permet de faire plusieurs tests statistiques
– sans inflation du risque alpha
Une conclusion est possible pour chaque test effectué
Pour cela – les tests sont hiérarchisés a priori
– Ils sont effectués ensuite de manière séquentielle
• Le test suivant n’est autorisé que si le précédent a été significatif
• On s’arrête au 1er de la hiérarchie non significative
Les tests peuvent concerner des critères de jugement ou des sous groupes
Test 1NS
stop
Test 2NS
stop
Test 3NS
stop
Test 4NS
stop
P<0.05
P<0.05
P<0.05
Exemple : PLATOTo address the issue of multiple testing, a hierarchical test sequence was planned. The secondary composite efficacy end points were tested individually, in the order in which they are listed above, until the first nonsignificant difference was found between the two treatment groups. Other treatment comparisons were examined in an exploratory manner.
Hiérarchie des critères
Primary endpoint
principal secondary efficacy endpoint = primary efficacy endpoint in the subgroup of invasive management
composite of death from any cause, myocardial infarction, or stroke;
composite of death from vascular causes, myocardial infarction, stroke, severe recurrent cardiac ischemia, recurrent cardiac ischemia, transient ischemic attack, or other arterial thrombotic events;
myocardial infarction alone;
death from cardiovascular causes alone;
stroke alone;
death from any cause
Liste critère dans le protocole
Résultat de la démarche hiérarchique de test
1. Primary endpoint
2. principal secondary efficacy endpoint = primary efficacy endpoint in the subgroup of invasive management
3. composite of death from any cause, myocardial infarction, or stroke;
4. composite of death from vascular causes, myocardial infarction, stroke, severe recurrent cardiac ischemia, recurrent cardiac ischemia, transientischemic attack, or other arterial thrombotic events;
5. myocardial infarction alone;
6. death from cardiovascular causes alone;
7. stroke alone;
8. death from any cause
1
34
56
2
7
Ajustement pour les critères secondaires
Conclusion essai 1– pas de démonstration de l'efficacité
Conclusion essai 2– démonstration de l'efficacité de manière statistiquement significative
(p<0.05)
– sur les 3 premiers critères de jugement
Essai 1 Essai 2
Infarctus mortels et non mortels p=0.03 p=0.001
infarctus non mortels p=0.05 p=0.010
décès par infarctus p=0.02 p=0.010
décès de toute cause p=0.06 p=0.03
On a comparé sur 2 groupes de 120 malades un oxygénateur cérébral à un placebo.
Le critère d’évaluation principal était évalué par l’échelle d’appréciation clinique en gériatrie (EACG).
Globalement les résultats ne montraient pas de différence significative.
Cependant, si l’on éliminait les gens trop anxieux (score d’Hamilton >18), en ne prenant en compte que les femmes (les hommes semblent moins répondeurs), la différence devient hautement significative sur la tranche d’âge 70 à 80 ans, ce qui montre bien l’activité du produit chez les gens âgés.
Essai 0.92 NS
1 Age<75 0.92 NS
2 Age>75 0.95 NS
3 Hommes 0.92 NS
4 Femmes 0.99 NS
5 Antécédents d'infarctus 0.87 NS
6 Pas d'antécédents d'infarctus 1.03 NS
7 Prise d'aspirine 0.78 p<0.05
8 Pas d'aspirine 1.09 NS
Analyse en sous-groupes - Essai non concluant
1 Age<75 test 1 risque erreur 5%
2 Age>75 test 2 risque erreur 5%
3 Hommes test 3 risque erreur 5%
4 Femmes test 4 risque erreur 5%
5 Antécédents d'infarctus test 5 risque erreur 5%
6 Pas d'ATCD d'infarctus test 6 risque erreur 5%
7 Prise d'aspirine test 7 risque erreur 5%
8 Pas d'aspirine test 8 risque erreur 5%
Limites- Multiplicité des tests
Essai 0.78 p<0.05
1 Age<75 0.65 p<0.01
2 Age>75 0.90 NS
3 Hommes 0.76 p<0.05
4 Femmes 0.78 p<0.05
5 Antécédent d'infarctus 0.97 NS
6 Pas d'antécédent d'infarctus 0.70 p<0.01
7 Diabétique 0.50 p<0.001
8 Non diabétique 0.91 p<0.05
Analyses en sous groupes - Essai concluant
Analyses en sous groupes
Résultat de nature exploratoire– hypothèse non formulée a priori
– aucune conclusion définitive possible
– inflation risque alpha et bêta
Sous groupes (suite)
Résultat global négatif– recherche du sous groupe dans lequel le traitement marche
– comparaisons multiples : inflation du risque alpha
– approche post hoc
• l'hypothèse est testée sur les données qui ont permis de la générer
Résultats global positif– recherche des patients chez lequel le traitement ne marche pas
– inflation risque bêta
– hypothèse d'absence d'effet
• donc limite de non infériorité
Hétérogénéité
Utilisation des sous groupes pour vérifier la stabilité de l'effet
Test d'interaction– RRsg1<>RRsg2
Aspect cognitif (non décisionnel)
Génération de nouvelles hypothèses
Elite 2
Losartan vs captopril
Insuffisance cardiaque (NYHA 2-4 et FE<40%)
Bertram Pitt,Lancet 2000; 355: 1582–87
Exemple
The objective was to test whether an adequate and well-balanced intake of antioxidant nutrients reduces the incidence of cancers and ischemic CVD in a middle-aged general population.
A total of 13017 French adults (7876 women aged 35-60 years and 5141 men aged 45-60 years) were included.
Conclusion : After 7.5 years, low-dose antioxidant supplementation lowered total cancer incidence and all-cause mortality in men but not in women.
Arch Intern Med. 2004; 164:2335-2342