Interprétation des essais cliniques pour la pratique médicale

Post on 19-Mar-2016

51 views 4 download

description

Interprétation des essais cliniques pour la pratique médicale. Michel Cucherat Faculté de médecine Laennec – Lyon http://sdrv.ms/WKwCNO. Pourquoi faire sa propre évaluation des résultats des essais ?. Pourquoi la lecture critique ?. Essai HOT hypertension artérielle - PowerPoint PPT Presentation

Transcript of Interprétation des essais cliniques pour la pratique médicale

Interprétation des essais cliniques pour la pratique médicale

Michel CucheratFaculté de médecine Laennec – Lyon

http://sdrv.ms/WKwCNO

POURQUOI FAIRE SA PROPRE ÉVALUATION DES RÉSULTATS DES ESSAIS ?

Pourquoi la lecture critique ?

Essai HOT– hypertension artérielle– recherche de la cible tensionnelle optimale– randomisation entre 3 cibles de PAD : <=90, <=85, <=80 mmHg– critère de jugement clinique : Ev cardiovasculaires

Interpretation : Intensive lowering of blood pressure in patients with hypertension was associated with a low rate of cardiovascular events. The HOT Study shows the benefits of lowering the diastolic blood pressure down to 82·6 mm Hg

ABSTRACT

Résultat

Origine de la conclusion

Analyse d'association statistique entre la valeur obtenue et le risque– mise en évidence d'une valeur optimale (82.6 mmHg)= association et non pas causalité

Spin des conclusions

Survient sur la conclusion et la discussion

Ne pas lire conclusion et discussion Utiliser le papier comme base informative pour vous faire votre

propre opinion des résultats

COMMENT FAIRE SA PROPRE ÉVALUATION DES RÉSULTATS DES ESSAIS THÉRAPEUTIQUES

Objectif de la démarche

Déterminer l’intérêt médical d’un traitement– Quel(s) bénéfice(s) apporte le traitement ?– Chez quels patients ?– Au prix de quel(s) risque(s) ?

– À partir des faits prouvés

Dans le but de modifier ou non la pratique médicale

Deux évaluations

Quel degré de confiance peut on avoir dans les résultats ?– Les résultats sont-ils fiables ?

Quelle est la pertinence médicale des résultats obtenus ?– Les résultats représentent-ils une avancées médicales (ont-ils un sens

médical)

Résultats des essais

Résultats démontrés Résultats suggérés

Intérêt médical du traitement

Pertinence clinique

Degré de confiance

QUEL DEGRÉ DE CONFIANCE PEUT ON AVOIR DANS LES RÉSULTATS ?

Un résultat peut être faux en raison :– D’une erreur aléatoire (due au hasard)– D’un biais

Fait courir le risque de fausse découverte (résultat faux positif) L’exactitude d’un résultat est impossible à établir

– Car on ne connait pas la réalité Il a été inventé des méthodes qui empêchent la survenue de ces

résultats faux positifs– Outils statistiques

• Contrôlent le risque de fausses découvertes dues au hasard– Principes méthodologiques

• Empêchent la survenue de biais

Si l’essai a mis en œuvre ces outils– Faible risque de fausses découvertes– On aura donc confiance dans le résultat – Le résultat est démontré– ATTENTION: à juger résultat par résultat

Si l’essai n’utilise pas / ou mal ces outils– Risque de faux positif inconnu– On aura une faible confiance dans le résultat– Le résultat est seulement suggéré et non démontré

Contrôle satisfaisant du risque de faux positif dus au hasard

Résultat statistiquement significatif (p<0.05) Pas de situation de multiplicité

– Résultat obtenu sur le CJ principal (défini a priori)• Ou approche séquentielle hiérarchique (hiérarchie établie a priori)

– Résultat non issu d’un sous groupe– Résultat non issu d’une analyse intermédiaire non protégée– Résultat non issu d’un processus de « pêche à la ligne »

N Engl J Med 2008;358:1663-71.

The significance level used in the pairwise comparisons between the groups receiving experimental treatment and the group receiving standard treatment was 0.017 on the basis of the Bonferroni correction for multiple comparisons, corresponding to an overall type I error rate of 0.05.

Multiplicité des critères de jugement - Exemple

In women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Ward’striangle in the 60–69 y group, and upper and total radius in the 70–79 y group.

X X X X

Lancet 2005; 365: 176–86

Utilisation des sous groupes – recherche d’une interaction

Treatment A -

Lancet 2005; 365: 176–86

Critère principal

Conclusion que si le critère principal est significatif Critères secondaires : explicatifs

Trt A

Résultatnon significatif

Absence réelle d'effet

Manque de puissance

?

Différence non significative

Impossible de conclure Ne pas conclure à l’absence de différence «L’absence de preuve n’est pas la preuve de l’absence»

Validité méthodologique

Respect de la démarche hypothetico-déductive– Confirmatory study– Expérience entreprise spécialement pour tester une hypothèse formulée

à priori Résultat post hoc

– Hypothèse formulée d'après les résultats– Vérifiée sur les mêmes données– Situation tautologique

Introduction

Contrôle satisfaisant du risque de faux positif dus de biais

(Prise en compte des facteurs de confusion) Randomisation imprévisible Double aveugle Analyse en ITT avec remplacement des données manquantes

Biais

Biais – Le résultat observé peut provenir d’une autre cause que le traitement– la méthodologie empêche la survenue de biais

Essai biaisé– Il existe un défaut dans la méthodologie ou la réalisation– qui est susceptible d’entraîner une différence au niveau du critère de jugement,

même en l’absence d’effet du traitement

Impossible de savoir si un essai est effectivement biaisé– déterminer si la méthode utilisée protège contre les biais

Exemple de biais patent

6%

10%

Ev. cardiovasculaires

Traitement

Diabétique 45%

Diabétique 15%

La différence de fréquence des ev. cardiovasculaires peut provenir de la différence de pronostic et non pas de l’effet traitement

Biais potentiel : il y a un défaut dans la méthodologie qui n’empêche pas de sélection les patients dans les groupes

Les différents biais

Un biais de sélection est évoqué – quand le résultat présenté peut provenir d’une différence dans le

pronostic de base des patients Biais de réalisation

– différence dans le suivi et les soins appliqués aux patients Biais de mesure

– différence dans l'évaluation du critère de jugement Biais d'attrition

– différence au niveau des "sorties" d‘analyse

Biais de sélection

Ce qui met à l’abris de ce biais :– randomisation– le processus de randomisation ne doit pas être prévisible par les

investigateurs : randomisation centralisée

Comment évaluer l’absence de biais en fin d’essai– imprévisibilité de la rando– (comparabilité des groupes)

Danger des randomisations prévisibles

hypertension, captopril vs traitement standard par diurétique ou bêta-bloquants

10 985 patients suivis en moyenne 6,1 ans PA initiale : 166.6/103.6 vs 163.3/101.2 mm Hg, p<0·0001

Treatment A Treatment B Treatment C

Concealment of allocation(inadequate or unclear versus adequate)

Schultz 1995

Kjaergard 2000

Jüni 2000

Combined

Moher 1998

//

0.4 0.5 0.6 0.7 0.8 0.9 1 1.2 1.4 1.6 1.8 2

0.66 (0.59 - 0.73)

0.63 (0.45 - 0.88)

0.60 (0.31 - 1.15)

0.79 (0.70 - 0.89)

0.70 (0.62 - 0.80)

Jüni et al. BMJ 2001;323:42-46

Validation empirique des marqueurs de qualité

ROR

Biais de suivi

Ce qui met à l’abris de ce biais :– le double aveugle

Comment évaluer l’absence de biais en fin d’essai:– Le double aveugle a-t-il été réellement respecté ?– Comparer dans les 2 groupes (et particulièrement si essai en ouvert) :

violations de protocole, arrêts de traitements, traitements concomitants…

Biais d’évaluation

Ce qui met à l’abris de ce biais :– le double aveugle – en cas de double aveugle impossible (essai ouvert)

• évaluation à l’aveugle• choix de critères objectifs

Biais de mesure - mécanisme

Prophylaxie des TVP en chirurgie Les HBPM sont considérés comme plus efficace que l'HNF

– Subjectivement les TVP sont plus facilement suspectées devant des signes cliniques avec l'HNF

– Recours à la phlébographie plus facile

Sensibilité Incidence réelle Test positif

HBPM 70% 10% 7%HNF 90% 10% 9%

Biais des études en ouvert

Recherche empirique de biais– Pour un domaine donné– comparaison des résultats des essais en ouvert au essai en double

aveugle– calcul du rapport des odds ratio (ROR)

Jüni P BMJ 2001;323:42-

Jüni et al. BMJ 2001;323:42-46

Biais d’attrition

Situation potentiellement biaisée : – Tous les patients randomisés ne sont pas analysés.

Ce qui met à l’abris de ce biais : – L’analyse en intention de traiter avec remplacement des données

manquantes Comment évaluer l’absence de biais en fin d’essai

– nb malades analysés / nb malades randomisés– robustesse du résultat vis à vis de l’hypothèse de biais maximum

Biais d'attrition

Nouveau traitement

Traitement standard

Patients randomisés Effectif randomisé 1000 1000 Fréquence échec 10.0% 10.0% Échecs thérapeutiques (non rép.) 100 100 Patients analysés taux d'arrêts chez les répondeurs 13% 2% taux d'arrêts chez les non répondeurs 26% 4% sortie d’étude chez les répondeurs 117 18 sorties d’étude chez les non rép. 26 4 Répondeurs 783 882 non répondeurs 74 96 Effectif 857 978 fréquence échec 8.6% 9.8% risque relatif 0.88

Treatment A Treatment B

G traité G contrôlen randomisé 100 100pdv 10 30n analysable 90 70événement 10 20 Risque relatiffréquence mesurable 10 / 90 20 / 70

% 11% 29% 0.39biais maximum (10+10)/100 20/100

% 20% 20% 1.00

Biais maximum

MMSE

Treatment A

Essai contrôlé randomisé en double aveugle

Randomisation

Grp T

Grp C

Critère

Critère

Groupe comparable Maintient de la comparabilité

Biais de sélection Biais de réalisation Biais d'évaluation

Biais d'attrition

Randomisation Double aveugle

ITT

COHÉRENCE EXTERNE

Cohérence externe

Concordance avec d’autres essais sur le même domaine : – un seul essai ne suffit pas– intérêt de la méta-analyse (hétérogénéité ?)

Concordance avec les autres connaissances dans le domaine (physiopathologie, épidémiologie, pharmacologie, …)

Si toutes les études réalisées vont dans le même sens – Cela renforce la confiance que l’on peut avoir dans le résultat

Un essai de grande taille (1000 patients) montre bien l’efficacité du traitement

2 essais– le premier mené en Europe de l’Est est concluant– le second réalisé aux USA est non concluant

Conclusion– l’effet du traitement n’est pas le même aux USA et en Europe– car les contextes de soins sont différents avec un sous traitement en

Europe de l’est

3 essais ont été réalisés pour évaluer le même traitement ils sont tous négatifs conclusion : ce traitement n’a pas d’efficacité

PERTINENCE CLINIQUE

La pertinence clinique du résultat

dépend de :

Pertinence du comparateurPertinence du critère de jugementPertinence de la taille de l’effet

Pertinence des patients étudiés

De la balance bénéfice – risque

Question cliniquement pertinente

Problème médical réel (et non résolu)– FSAD (female sexual arousal disorder)

• créé de toute pièce en 1997 • pour créer une utilisation potentielle du sildenafil• BMJ 2003;326:45-47

Traitement du groupe contrôle

Placebo– en l’absence de traitement de référence

Traitement de référence – si déjà validé contre placebo

• choix acceptable ?• traitement optimal (posologie, administration) ?

Placebo + traitement de référence – 2 groupes contrôles différents si « traitement de référence » mal validé

Critères de jugement

Pertinence du critère principal d’évaluation– Critère clinique – Et non pas critère intermédiaire

Critères cliniques Critères intermédiaires Critères de substitution

– succès sur CS succès critère clinique !

Exemples

fluorure de sodium vs placebo– augmentation de la DO p<0.001– fractures vertébrales 163 vs 136– fractures non vertébrales 72 vs 24 p=0.01

Pertinence de l'outil de mesure

Artériopathie des membres inférieurs Mesure du périmètre de marche

– augmentation significative de 20 m– quel est le service médical rendu au patient ?– Quel intérêt de passer de 200m à 220m

Fréquence du succès– fréquence des patients retrouvant sous traitement un périmètre de

marche de 500m

Pertinence des patients

Voir les critères d’éligibilité Voir la population réellement incluse

– Généralisation des résultats ?

Définition de la maladie– Critères actuels– Examens couramment disponibles

Critères d'exclusion– Absence de critères d'exclusion arbitraires : age, sexe

Origine géo-ethnique– différences génétiques– différences environnementales

Pertinence de la prise en charge médicale

Circonstances de la "vraie vie"– Accès aux soins similaire à celui disponible en dehors d'une étude

Durée du suivi pertinente– Ni trop long, ni trop court

Taille et précision de l’effet thérapeutique

Effet représenté avec un IC à 95 % ? Taille de l’effet : pertinence clinique ? Précision de l’effet : la borne péjorative de l’IC représente le plus

petit effet du traitement que l’on ne peut raisonnablement exclure cet effet reste-t-il intéressant cliniquement ?

Zone de bénéfice insuffisant

0.40 0.60 0.80 1.00 1.20 1.40

Risque relatif

Essai A

Essai B

Essai C

Essai D

Essai E

Pertinence de la taille

Essai DAIS Effet du fénofibrate sur la progression des plaques

d'athérosclérose coronarien chez le diabétique – fénofibrate vs placebo– 731 hommes et femmes suivi 3 ans

Résultat – ralentissement de la progression des plaques– le traitement a réduit de 0.04 mm la diminution du diamètre moyen sur

3 ans (p=0.028) Quid des événement clinique ?

Lancet 2001

Évaluation de la balance bénéfice / risque

Effets indésirables de gravité supérieure à la maladie ? Fréquence des effets indésirables trop importante par rapport

au bénéfice ?

Comparaison avec les effets indésirables des traitements existants

www.spc.univ-lyon1.fr/lecture-critique

www.spc.univ-lyon1.fr/user/mcu/polycop