EPIDEMIOLOGIE ET STATISTIQUE · Web view16.2- Taille et précision de l’effet L’estimation de...
Transcript of EPIDEMIOLOGIE ET STATISTIQUE · Web view16.2- Taille et précision de l’effet L’estimation de...
LECTURE CRITIQUE D’ARTICLEDCEM I,II,III, et IV
Dr M. PeltierPr O. GanryPr M. Slama
Faculté de Médecine d’Amiens2005-2006
1
Le but louable de l’enseignement à la lecture critique d’article (LCA) est de
permettre à l’étudiant d’acquérir une formation à la lecture scientifique afin
d’augmenter ses connaissances et améliorer son esprit critique. Il doit être capable
de juger ce que lui apporte la lecture d’un article scientifique sur le plan de la
connaissance et de la pratique. Ce polycopié destiné aux étudiants du DCEM vise à
donner un outil en vue de préparer l’épreuve de la LCA dans le cadre de l’examen
classant national à partir de 2008, selon les modalités définies par le centre national
du concours de l’internat (CNCI) (Annexe 1). Cette épreuve de 3 heures, comptant
pour 20% des points, devrait concerner un article original, de portée générale, écrit
en langue française ; elle devrait comporter 6 à 10 questions sur la méthodologie du
travail, d’une part, et la rédaction d’un résumé de 250 mots, d’autre part. Ce
polycopié est structuré en 4 parties : (1) la première partie couvre la totalité des 24
objectifs pédagogiques définies par le CNCI pour l’enseignement de la LCA
adaptées ciblé pour la lecture d’article d’essai thérapeutique, (2) la seconde partie
issue du guide d’analyse des articles médicaux publiée par l’ANAES détaille les
objectifs et méthodologies appropriés à l’analyse d’articles évaluant une procédure
diagnostique, un pronostic selon une étude de cohorte, et une enquête cas-témoins,
(3) la troisième partie est consacrée aux modalités de rédaction du résumé, et (4) la
quatrième partie est dédiée aux méthodes statistiques les plus couramment utilisées.
L’application pratique de la LCA par des exemples d’articles traités et corrigés selon
les règles définis par le CNCI est effectuée lors des enseignements dirigés en DCEM
III. Par ailleurs, l’APNET (Association Pédagogique Nationale pour l’Enseignement
de la Thérapeutique) et ses membres ont édité un ouvrage dédié à des exercices
pratiques corrigés de la LCA*, données utiles et complémentaires à la partie
théorique développée dans ce polycopié.
* Lire et critiquer un article médical. Principes
de lecture critique et exercices pratiques
corrigés. ED : Expansion Scientifique Française
2
PLAN
I- ANALYSE D’UN ARTICLE THERAPEUTIQUE (Dr Peltier)
II- ANALYSE D’UN ARTICLE DIAGNOSTIQUE (Dr Peltier)
III- ANALYSE D’UN ARTICLE DE PRONOSTIC (Recommandations ANAES)
IV- ANALYSE D’UN ARTICLE CAS-TEMOINS (Dr Peltier)
V- MODALITES DE REDACTION DU RESUME (Dr Peltier)
VI- METHODES STATISTIQUES (Pr Ganry)
VII- ANNEXES (Dr Peltier)
VIII- REFERENCES (Dr Peltier)
3
I ANALYSE D’UN ARTICLE THERAPEUTIQUE
1- IDENTIFIER L’OBJET D’UN ARTICLE MEDICAL SCIENTIFIQUE, PARMI LES SUIVANTS : EVALUATION D’UNE PROCÉDURE DIAGNOSTIQUE, D’UN TRAITEMENT, D’UN PROGRAMME DE DEPISTAGE, ESTIMATION D’UN PRONOSTIC, ENQUETE EPIDEMIOLOGIQUE
Cet objectif introduit l’ensemble des différents types d’études rencontrées en
recherche médicales (et qui seront traités individuellement ci-dessous). Selon
l’objectif de l’étude, le protocole et la méthodologie employés par les investigateurs
seront différents. Prenons, l’exemple d’un article thérapeutique, ce dernier suivra un
protocole d’étude contrôlé randomisé alors que le protocole d’étude à visée
diagnostique suivra un protocole d’étude transversal comparatif avec étalon-or (cf
tableau ci-dessous).
Type de protocole préférentiellement proposé pour une question donnée
QUESTIONS PROTOCOLE
EPIDEMIOLOGIE Incidence Suivi de population (suivi de cohorte ou registre)
EPIDEMIOLOGIE Prévalence Transversal (sur échantillon représentatif)
THERAPEUTIQUE Efficacité Etude contrôlée randomisée
THERAPEUTIQUE Sécurité Etude contrôlée randomisée ou suivi de cohorte
DIAGNOSTIC Reproductibilité Variabilité Transversal comparatif avec répétition de mesure
DIAGNOSTIC Sensibilité Spécificité Transversal comparatif avec étalon-or
DIAGNOSTIC Efficacité Utilité Etude contrôlée randomisée
DIAGNOSTIC Stratégie Etude contrôlée randomisée ou arbre décisionnel
PRONOSTIC Maladie Etude contrôlée randomisée ou suivi de cohorte
EPIDEMIOLOGIE Facteurs de risque/ d’exposition Etude cas-témoins
Remarque : l’histoire naturelle d’une maladie pourra être appréciée de la même manière que les facteurs pronostiques. Le dépistage est apprécié comme les tests diagnostiques.
2- IDENTIFIER LA « QUESTION » ETUDIEE
4
Après avoir exposé le rationnel de l’étude (background) en faisant référence
aux données publiées de la littérature, l’introduction doit se terminer par la question
posée c’est-à-dire par l’objectif principal de l’étude (aims ou objectives). L’objectif doit
être réaliste, clairement formulé et pertinent. Il est habituel que l’objectif soit unique. Il
doit ainsi répondre à un problème réel de thérapeutique, pour lequel il n’y a pas
encore de solution satisfaisante jugée à partir des connaissances disponibles au
moment de la planification de l’essai, et de l’expérience du lecteur. Pour être
parfaitement défini, l’objectif doit préciser le traitement testé, le traitement contrôle
(placebo ou traitement actif), s’il s’agit d’un recherche de supériorité ou d’équivalence
ou visant à démontrer un effet dose-réponse, le critère de jugement principal et le
moment de sa mesure, les patients concernés : maladie et éventuellement
caractéristiques particulières. Exemple : « Démontrer que l’éplérénone entraîne une
réduction supplémentaire de la mortalité par rapport au traitement conventionnel
dans l’infarctus aigu du myocarde compliqué d’insuffisance cardiaque », est un
objectif clairement formulé. « Evaluer la spironolactone dans l’insuffisance
cardiaque » est en revanche, un objectif peu précis.
3- IDENTIFIER LES CARACTÉRISTIQUES DE LA POPULATION ÉTUDIÉE
La méthodologie des essais cliniques impose un suivi strict, plus fréquent, une
sélection plus importante des patients en termes de motivation, d’étiologie, et de
gravité de la maladie ou des symptômes, etc. Identifier les caractéristiques de la
population pourrait ainsi conduire à étudier des patients dont le cas est moins grave,
ayant une bonne tolérance médicamenteuse et un bon suivi médical. Ces biais
pourraient concourir à sélectionner des patients à meilleur pronostic. Dans le cas
exemplaire des essais thérapeutiques consacrés à l’insuffisance cardiaque, on
constate souvent de plus grandes prévalence d’hommes (80%) et de sujets
relativement jeunes (60-65 ans), aux critères d’exclusion restrictifs fonction de leur
morbidité et de leur étiologie, alors que la « vraie » population de l’insuffisance
cardiaque est constituée de sujets plus âgés (70-75 ans), en majorité féminine, aux
indices de co-morbidité habituellement élevés, et dont les étiologies sont diverses.
Par ailleurs, dans la plupart des études, le médicament testé vient s’ajouter à un
traitement de référence. Or celui-ci peut changer et rendre ainsi les études
5
caduques : le traitement bêtabloquant est par exemple, devenu un traitement de
référence dans l’insuffisance cardiaque, alors que dans l’étude RALES
(spironolactone vs placebo), seulement 11% des patients insuffisants cardiaques
prenaient des bêtabloquants. Peut-on extrapoler le bénéfice de la spironolactone aux
patients prenant des bêtabloquants. Il est donc important d’identifier les
caractéristiques et ainsi la représentativité de la population étudiée.
4- ANALYSER LES MODALITÉS DE SELECTION DES SUJETS, CRITÈRES D’INCLUSION ET CRITÈRES D’EXCLUSION
Les patients éligibles doivent être parfaitement définis - par des critères
diagnostiques de la maladie précis et communément admis (les formes cliniques et
les stades évolutifs acceptés ou exclus étant parfaitement délimités), - par des
critères d’inclusion et d’exclusion explicites et suffisamment détaillés (aptitude à la
coopération et au suivi, limites d’âge, sexe, sujets hospitalisés ou en ambulatoires,
stabilité de la maladie, pathologies ou tares associées, traitements concomitants, ..)
Il n’est pas rare qu’un grand nombre de patients puisse entrer dans une étude et
qu’au final le nombre de patients réellement inclus soit relativement faible : par
exemple, 39 924 patients dans l’étude SOLVD treatment présentant une fraction
d’éjection inférieure à 35% ont été sélectionnées, et au final seulement 6,4% des
patients ont été réellement inclus. Dans un tel cas, la généralisation de l’efficacité du
traitement ne peut pas être faite à partir du moment où moins d’un dixième des
patients sont inclus. Il est donc très important de connaître le nombre de patients qui
ont été exclus de l’étude et les raisons de l’exclusion. Il faut se méfier de la sélection
initiale des patients après émission des critères d’inclusion qui peut induire un biais
important. L’étude est proposée à tel patient et pas à tel autre pour des raisons
propres au médecin en charge de l’inclusion. Une telle attitude peut totalement
biaisée les résultats. C’est l’intérêt des études qui incluent des patients consécutifs.
Cependant, il arrive qu’une sélection initiale avant randomisation des patients soit
instituée dans le protocole. Ainsi, dans certaines études un certain nombre de
patients sont soumis au traitement pendant une période donnée de test et sont inclus
dans un second temps s’ils ont bien toléré le traitement. Ce type d’étude permet
d’éliminer les patients ne supportant pas le traitement pour ne garder inclus que les
patients qui ont parfaitement supporté le traitement. Il faut encore une fois
6
comprendre que si des critères d’inclusion et d’exclusion très stricts renforcent
l’homogénéité des patients et donc la rigueur méthodologique, ils peuvent aussi
limiter l’applicabilité des résultats à la population tout-venante (cf. Question 21).
5- ANALYSER LA TECHNIQUE DE RANDOMISATION, LE CAS ÉCHÉANT
Le maître mot de l’approche expérimentale est la randomisation. Plusieurs
techniques sont disponibles et on retiendra que la méthode la plus utilisée est celle
des « blocs de permutations » qui permet de générer des listes préétablies de
randomisation, et garantit l’équilibre entre les groupes tels qu’ils avaient été définis
dans le protocole. Un bloc est un groupe de quelques codes. La randomisation par
bloc tire au sort non pas le code du traitement attribué à un patient mais le bloc de
codes. La séquence de blocs successifs est ensuite traduite en séquences de codes.
Le bloc est dit équilibré s’il contient le même nombre (ou une proportion constante)
de codes de tous les traitements de l’étude. Son intérêt réside dans l’équilibration
des effectifs des groupes, même si tous les malades ne sont pas inclus. Le point le
plus important concerne la randomisation en cas d’essais multicentriques, elle doit
être centralisée et stratifiée par centre. Le principe de la stratification consiste à
établir une liste de randomisation pour chaque centre (de cette façon on évite le
risque qu’un centre ne procède à l’inclusion des patients appartenant à un même
groupe de traitement). La stratification peut également être justifiée sur des facteurs
pronostiques majeurs mesurés à l’entrée dans l’essai (sévérité de la maladie, âge,
sexe…). Il est en effet parfois très utile de stratifier la randomisation sur l’âge, la
gravité de la maladie ou son ancienneté. Cela autorise ultérieurement à prendre en
compte, en toute rigueur, les résultats observés dans chacune des strates.
L’utilisation de plus de deux ou trois facteurs de stratification est cependant rarement
nécessaire et justifiée.
7
6 - DISCUTER LA COMPARABILITÉ DES GROUPES SOUMIS À COMPARAISON
La constitution des groupes comparables pour toutes les caractéristiques
autres que le traitement reçu, en particulier les facteurs pronostiques, fait appel au
tirage au sort de l’attribution des traitements (randomisation, cf. ci-dessus) et aux
procédures aveugles. En effet, l’affectation aléatoire assure, indépendamment de
toute caractéristiques des malades, la comparabilité initiale des groupes. Aucune
méthode : témoins alternés, choix de témoins d’une autre époque ou d’un autre
hôpital, emploi de la 1ère lettre du patronyme ou de l’année de naissance, n’est
scientifiquement ni éthiquement défendables. Elle conduirait à constituer des
groupes dont les différences initiales ne permettraient pas une comparabilité des
groupes. Il arrive parfois, que le tirage au sort aboutisse à la constitution de deux
groupes significativement différents pour telle ou telle caractéristique, ce serait du fait
de fluctuations d’échantillonnage (possibles dans 5% des cas). Dans ce cas, un tel
phénomène (qui ne remet pas en cause l’intérêt ni la nécessité du tirage au sort) doit
être pris en compte dans l’analyse statistique comme variable potentiellement
confondante, sinon rendre plus difficile l’interprétation des résultats de l’essai. De
façon générale, plus le nombre de sujets nécessaire est grand, plus la répartition des
caractéristiques initiales sera équilibrée entre les deux groupes.
7 - VÉRIFIER LE CHOIX DES EFECTIFS ETUDIES. S’ASSURER QUE CES EFFECTIFS SONT IDENTIFIABLES DANS LA TOTALITÉ DE L’ARTICLE
Le caractère multicentrique des essais fait intervenir plusieurs investigateurs
et doivent être privilégiés en raison - d’un recrutement plus aisé d’un grand nombre
de sujets (par exemple dans le cas d’une maladie rare), et - d’une extrapolation de
résultats plus facile. Idéalement, l’essai multicentrique doit être international. En
revanche, il est beaucoup plus lourd à mettre en place et soulève des problèmes de
planification (randomisation stratifiée) ou d’analyse complexes (test d’interaction
« centre-traitement » ou non) qui dépassent le cadre de ce chapitre mais doivent
néanmoins être spécifiés dans l’article.
7.1- Le calcul du nombre de sujets nécessaire
8
Le calcul du nombre de sujets nécessaire constitue un point important à
relever dans lecture d’un article thérapeutique. Ce nombre de sujets nécessaire doit
toujours être calculée avant le début de l’étude et l’effectif ainsi calculé (effectif
théorique) doit figurer dans l’article. S’il n’a pas été effectué, on ne connaît pas la
puissance de l’essai et on n’a donc aucune idée de sa légitimité. S’il a été réalisé,
l’auteur doit avoir indiqué les 4 éléments de son calcul, (1) la différence escomptée
entre l’efficacité probable du nouveau produit et celle du comparateur, (2)
l’importance de la variabilité du critère principal du jugement, généralement fournie
par les données de la littérature, (3) le risque alpha, généralement fixé à 5%, qui
correspond au risque de déclarer « efficace » un traitement qui ne le serait pas
réellement et qui pourrait donc aboutir à mettre sur le marché un produit inutile, (4) la
puissance souhaitée pour l’essai. La puissance est l’aptitude à déceler une
différence existant réellement entre les effets des traitements que l’on compare. On
la choisit habituellement de l’ordre de 80 à 95%. Le manque de puissance (ou risque
bêta) peut conduire à ne pas mettre sur le marché un médicament réellement
efficace, parce que l’on n’a pas pu prouver qu’il est. Il serait trop facile au chercheur
de prétendre après coup que s’il n’a pas pu démontrer l’efficacité du produit testé,
c’est probablement par manque de puissance. Ainsi, lorsqu’un essai conclut à
l’absence de différence significative, deux explications sont envisageables : soit il n’y
a pas de différence réelle entre les deux traitements, soit l’effectif est trop petit pour
détecter une différence (manque de puissance, bêta trop grand). Le manque de
puissance est néfaste car il fait courir le risque d’abandonner un traitement alors qu’il
y a un réel intérêt thérapeutique.
7.2- Ecarts au protocole (cf. Question 11.3)D’une manière générale, les auteurs de l’article doivent fournir (ou permettre de
trouver aisément) les éléments qui serviront à vérifier que l’analyse réalisée a bien
été celle prévue par le protocole. L’analyse des deux groupes comporte leur
description, les taux , les moments de survenue et les motifs des écarts au protocole
pour chacun des deux groupes et fournit les éléments qui permettent de juger de la
qualité de l’essai, de sa faisabilité, et de l’acceptabilité des traitements. Les écarts au
protocole sont habituellement classés en 3 catégories :
- Les sujets inclus à tort : ce sont des sujets qui ne répondent pas aux critères aux
critères d’inclusion et de non-inclusion prévus par le protocole mais à qui un
9
traitement a été attribué au sort. Son effectif doit être clairement donné par
groupe de traitement ainsi que les motifs.
- Les sujets ayant interrompu temporairement ou définitivement leur traitement :
dans la plupart des essais, on peut observer des sujets qui n’ont jamais pris leur
traitement, qui l’ont arrêté en cours d’étude, qui ont augmenté ou diminué les
doses initialement prescrites, qui ont pris un traitement interdit dans le protocole,
ou pire encore, qui ont pris le traitement de l’autre groupe. Son effectif doit être
clairement donné par groupe de traitement ainsi que les motifs de ces écarts.
Leur exclusion de l’analyse peut aboutir à des résultats biaisés. En effet, les
raisons pour lesquelles l’observance n’a pas été bonne ont toutes les chances
d’être liées au traitement : intolérance, inefficacité, décision du patient qui trouve
le traitement trop « lourd » ou « difficile » à suivre…Tous ces sujets ayant
interrompu temporairement ou définitivement leur traitement doivent donc être
suivis normalement jusqu’à la fin de l’essai et être analysés dans le groupe de
traitement attribué par le tirage au sort (cf. ci-dessous - analyse en intention de
traiter).
- Les sujets perdus de vue : ce sont des sujets pour lesquels manque le critère de
jugement au moment de son évaluation. Un nombre important de sujets perdus
de vue dans un essai risque d’invalider les résultats de l’essai. Aussi est-il
extrêmement important de connaître le nombre de patients perdus de vue. Il n’est
pas admissible que plus de 10 % de la population suivie soit perdus de vue. Il est
bien évident que si une différence de mortalité de 1 % est retrouvée à la fin de
l’étude et s’il existe 10 % de perdus de vue, cette différence de 1 % de mortalité
ne peut pas être interprétée. Le gain obtenu doit donc être analysé en fonction du
nombre de perdus de vue.
8 - S’ASSURER QUE LA MÉTHODE EMPLOYÉE EST COHÉRENTE AVEC LE PROJET DU TRAVAIL, QUE LA MÉTHODOLOGIE EST EFFECTIVEMENT SUSCEPTIBLE D’APPORTER « UNE » REPONSE A LA QUESTION POSÉE DANS L’INTRODUCTION. POUR UNE ETUDE THÉRAPEUTIQUE, VERIFIER QU’ELLE A ÉTÉ REALISÉE « EN INTENTION DE TRAITER »
L’auteur est censé avoir choisi le plan expérimental le mieux adapté à la
réalisation de son objectif :
10
8.1- Différents types de questions, différents types d’essaisSchématiquement, quatre types d’essais thérapeutiques selon la « question
étudiée » peuvent être distingués :
- Essai d’efficacité ou de supériorité : le plus classique, où l’on cherche à
déterminer si un traitement est plus efficace qu’un placebo ou qu’un traitement
de référence (lorsque pour des raisons éthiques, un placebo n’est plus utilisable).
Dans une pratique fondée sur les preuves (médecine factuelle ou " evidence
based medicine "), un nouveau traitement n'est adopté que lorsqu'il existe une
preuve issue d'essais cliniques qu'il représente une avancée thérapeutique par
rapport au traitement de référence (ou par rapport à pas de traitement).
- Essai d’équivalence ou de non-infériorité (cf. question 14): dans certains cas, le
promoteur peut être intéressé à démontrer qu’un nouveau traitement est
équivalent à un traitement de référence. Les essais d'équivalence clinique ou de
non-infériorité deviennent de plus en plus fréquents dans l'évaluation clinique des
nouveaux traitements. Ce type d'essais fait appel à une méthodologie et à des
techniques statistiques encore mal connues. Ils nécessitent la formulation de la
différence maximale tolérée entre les traitements vis-à-vis du critère principal de
jugement. De ce fait, des nouveaux traitements peuvent être acceptés par la
communauté médicale sur la base d'essais d'équivalence discutables par
méconnaissance des pièges et des spécificités de ce type d'études. En
particulier, le processus décisionnel qui leur est attaché nécessite l'introduction
d'un seuil d'équivalence choisi arbitrairement. De la valeur de ce seuil dépend
grandement le résultat de l'essai. Les essais d'équivalence clinique ont pour
objectif de montrer que deux traitements sont équivalents en terme d'efficacité
clinique. Ils sont à distinguer des essais de bioéquivalence où l'équivalence ne
concerne que des paramètres pharmacocinétiques. Il s’agit de démontrer l'intérêt
du nouveau traitement apporté par un essai cherchant à mettre en évidence la
non-infériorité de celui-ci par rapport au traitement de référence (essai de non-
infériorité ou essai d'équivalence). Cependant, dans certaines situations, une
avancée thérapeutique peut ne pas être une efficacité supérieure mais
simplement une plus grande facilitée d'utilisation ou une meilleure tolérance. Ces
avantages pourront être suffisamment intéressant pour justifier l'adoption du
nouveau traitement même si son efficacité n'est pas supérieure à celle du
11
traitement de référence. La communauté médicale est prête à accepter de
perdre un peu d'efficacité étant donné les autres avantages. Signalons qu’un
essai d’équivalence peut être combiné avec un essai d’efficacité (inclusion d’un
bras placebo). On retiendra des essais d’équivalence deux particularités : (1) le
risque de première espèce est le plus souvent à 5 % unilatéral ; (2) c’est la seule
situation où l’analyse en intention-de-traiter n’est pas justifiée (cf.Question 8.4).
- Essai visant à démontrer un effet dose-réponse : ce type d’essai permet de
réaliser plusieurs objectifs : confirmation de l’efficacité, estimation de la courbe
dose-réponse, recherche de la première dose appropriée, identification de
stratégies individuelles optimales d’ajustement de doses, identification de la dose
maximale au-dessus de laquelle l’efficacité n’augmente plus.
- Essai pragmatique de comparaison de deux stratégies thérapeutiques : le but de
ces essais est de savoir si l’utilisation du traitement permet en pratique d’atteindre
les objectifs thérapeutiques ; la population visée est celle de la population
représentative des futurs patients qui seront traités, dont les critères de sélection
s’ils sont indispensables pour définir la population cible du traitement, sont
simples, correspondant aux critères utilisés en pratique pour décider un
traitement.
8.2- Schéma expérimental d’un essai thérapeutiqueOn distingue :
- Les groupes parallèles (parallel group study) : c’est le schéma le plus répandu.
Les patients sont répartis aléatoirement en deux ou plusieurs groupes (« bras »),
chaque bras ayant une modalité de traitement différente, par exemple (traitement
A) contre (traitement B).
- Les groupes croisés (cross-over) : dans ce type de schéma, les sujets sont
répartis aléatoirement en plusieurs « séquences » de traitements (par exemple,
traitement A, puis traitement B contre traitement B puis traitement A), chaque
traitement étant généralement séparé du traitement suivant par un intervalle libre
(d’absence de traitement). Ces schémas expérimentaux soulèvent des difficultés,
en particulier liées à l’influence individuelle du premier traitement reçu pendant la
période du deuxième traitement (carry-over effect). On retiendra qu’une indication
12
particulière des groupes croisés est celle des essais de bio-équivalence d’un
même traitement reçu à des doses différentes.
- Les plans factoriels (factorial design) : il s’agit de schémas expérimentaux
évaluant simultanément plusieurs traitements en les combinant. Par exemple, en
cas de deux traitements, quatre groupes sont constitués (A, B), (A, placebo de B),
(placebo de A, B), (placebo de A et de B). Ces schémas expérimentaux sont
particulièrement recommandés pour étudier l’efficacité de combinaisons de
traitements.
8.3- Etude prospective, contrôlée, multicentrique, randomisée, en double aveugleUn essai clinique prospectif, contrôlé, multicentrique, randomisé et conduit en double
aveugle constitue une garantie de méthodologie rigoureuse et optimale pour réponse
à la question posée. Cette méthodologie stricte évite les biais de sélection, de suivi
et d’évaluation, établit un lieu de causalité direct entre un traitement et son effet, et
fournit ainsi le plus haut niveau de preuve. Le lecteur doit systématiquement vérifier :
- si l’essai a été prospectif c'est-à-dire que l’hypothèse est posée initialement et le
design de l’étude est fait pour répondre à la question. Ceci n’a rien à voir avec les
études rétrospectives qui sont toujours moins crédibles car on ne peut jamais exclure
dans les études rétrospectives que des éléments de biais aient pu intervenir dans la
sélection des patients pour expliquer les résultats.
- si l’essai a été contrôlé, c'est-à-dire comparatif (cf. Question 7)
- si l’essai a été multicentrique c'est-à-dire faisant intervenir plusieurs investigateurs
ce qui doit être privilégié en raison - d’un recrutement plus aisé d’un grand nombre
de sujets (par exemple dans le cas d’une maladie rare), et - d’une extrapolation de
résultats plus facile. Idéalement, l’essai multicentrique doit être international. En
revanche, il est beaucoup plus lourd à mettre en place et soulève des problèmes de
planification (randomisation stratifiée) ou d’analyses complexes (test d’interaction
« centre-traitement » ou non) qui dépassent le cadre de ce chapitre.
- si l’essai a été randomisé, c'est-à-dire si l’attribution des traitements a été réalisée
de manière aléatoire (cf. Question 6).
- si l’essai a été conduit à l’aveugle. En matière d’aveugle, la méthode de référence
est le « double-aveugle » (double-blind). Elle signifie que ni le patient, ni le médecin
investigateur chargé d’évaluer l’effet du traitement ne peuvent être informés du
13
groupe dans lequel le patient a été inclus. Elle implique que les différents traitements
sont en tous points identiques (galénique, goût, rythme d’administration, etc.). Dans
certains essais (classiquement, un traitement chirurgical vs un traitement médical),
les procédures d’aveugle ne sont pas envisageables (open-label trial) ou ne peuvent
être envisagées que partiellement (single-blind) : il est alors important de s’assurer
que les décisions d’inclusion et d’allocation du patient dans un groupe de traitement
sont clairement dissociées, c’est à dire que le résultat de la randomisation n’est pas
connu a priori de l’investigateur lors de la réalisation de l’inclusion d’un patient. Par
ailleurs, toutes les procédures de levée d’aveugle doivent être décrites dans le
protocole.
8.4- Vérifier l’analyse en intention de traiter Il est maintenant admis que tout essai thérapeutique contrôlé, à l’exception des
études d’équivalence, doit être analysé en intention-de-traiter ( intention to treat) dans
le but de minimiser les biais potentiels. L’analyse en intention de traiter consiste à
comparer le caractère principal de jugement entre les groupes de traitements tels
qu’ils ont été constitués au moment de la randomisation. Elle implique qu’au cours de
l’analyse statistique, un patient changeant de groupe ou interrompant son traitement
en cours de protocole reste affecté au groupe dans lequel il était initialement inclus.
Cette méthode est conservatrice, c’est à dire n’aboutira pas à conclure à tort à
l’efficacité d’un traitement, et permet d’approcher le mieux possible ce que seront les
conditions d’utilisation ultérieures du traitement sur le terrain. Ce type d’étude en
intention de traiter est normalement le meilleur dessin d’étude pour la clinique
quotidienne puisqu’elle permet de répondre à la question, dans la population de
l’étude, de l’utilité global du traitement, même s’il y a des patients qui ne l’ont pas
supporté. Toutefois ce type d’essai peut aussi masquer le bénéfice d’un traitement
dans un sous groupe donné qui n’avait pas été individualisé initialement. Il faut donc
également bien analyser les sous groupes. Dans un nombre limité de circonstances,
il est possible d’exclure des sujets de l’analyse en intention de traiter sans introduire
de biais : en cas de violation d’éligibilité parfaitement objectivée, lorsque le patient
n’a reçu aucune dose du traitement et que l’exclusion est décidée « à l’aveugle »,
lorsqu’aucune information n’est disponible sur le patient. Dans tous ces cas, toute
exclusion d’un patient de l’analyse devra être parfaitement argumentée ; et en même
temps, les biais éventuels qui pourraient en découler devront être cités. Une difficulté
14
soulevée par l’analyse en intention de traiter vient de l’évaluation du critère principal
chez les sujets perdus de vue ou sorties en cours de projet. Une règle simple
consiste à utiliser la dernière mesure accessible pour le sujet lorsque le critère de
jugement est une variable de type « survie » (donnée censurée), et à considérer
comme échec au traitement le sujet perdu de vue dans les autres cas de figure.
Enfin, on oppose à l’analyse en intention de traiter, l’analyse « par protocole reçu »
(per protocol analysis) ; celle-ci compare les sujets ayant correctement pris le
traitement auquel ils avaient été assignés jusqu’au terme prévu. Cette méthode
comporte de nombreux risques de biais et ne doit être envisagée que si l’analyse en
intention de traiter donne un résultat significatif – pour confirmer les résultats
d’efficacité.
9 - VERIFIER QUE LES ANALYSES STATISTIQUES EMPLOYÉE EST COHÉRENTE AVEC LE PROJET DU TRAVAIL ; DISCUTER LEUR INTERPRÉTATION EN FONCTION DES NOTIONS ELEMENTAIRES EN FONCTION DES NOTIONS ELEMENTAIRES DE STATISTIQUES
9.1- Trois décisions statistiques fondamentales
Trois décisions statistiques fondamentales interviennent dans un essai
thérapeutique vérifiant la cohérence avec le projet de l’étude et la fiabilité des
résultats
- Le calcul du nombre de sujets nécessaires (cf. Question 4)
- L’analyse en intention de traiter (cf. Question 8)
- La planification des analyses statistiques
Il existe plusieurs façons d’envisager l’analyse statistique de l’essai.
Schématiquement, on peut distinguer les situations dans lesquelles l’analyse est
réalisée :
- une seule fois et en fin de durée d’essai,
- un nombre limité de fois (par exemple trois fois) dans l’essai thérapeutique
contrôlé. Cette situation correspond à la réalisation d’analyses intermédiaires
(groupes séquentiels),
- un très grand nombre de fois, à l’extrême lors de l’inclusion de chaque nouveau
patient (tests séquentiels).
15
Les méthodes statistiques d’analyse pour ces deux dernières situations sont
complexes et nécessitent l’intervention d’un biostatisticien pour leur planification.
Deux principes fondamentaux doivent être respectés :
- le maintien absolu des règles d’aveugle vis-à-vis des investigateurs qui implique
que les résultats de ces analyses ne soient pas connus autrement qu’en termes
de décision d’arrêt ou non du protocole,
- la prise en compte de la répétition des analyses, à la fois dans le calcul du
nombre de sujets à inclure et dans le choix de la valeur critique a priori pour
conclure à l’efficacité du traitement (habituellement 5 %, ici moindre pour chaque
test réalisé) (cf. question 16). Les tests séquentiels et les analyses intermédiaires
sont recommandés lors de la réalisation d’un essai thérapeutique contrôlé
nécessitant l’inclusion d’un très grand nombre de sujets et dont le critère principal
est de type mortalité ou morbidité sévère. Dans ce cadre, la pratique actuelle
privilégie plutôt les analyses intermédiaires aux tests séquentiels.
9.2- Interprétation des analyses statistiques en fonction des notions élémentaires de statistiques
Dans le chapitre « Analyses statistiques » figurant dans l’article, l’auteur doit
mentionner les tests statistiques utilisés. La pertinence de ces tests requiert une
connaissance minimale de méthodologie statistique. Cette méthodologie est détaillée
dans la dernire partie de ce polycopié (cf. METHODES STATISTIQUES). Il s’agit
d’un domaine spécialisé qui ne relève pas de la compétence du clinicien. On s’attend
toutefois à trouver dans ce paragraphe la nature des tests statistiques employés et
leur justification en fonction de la nature des données étudiées (comparaison de
deux pourcentages pour un test du X² pour les données qualitatives, comparaison de
deux moyennes par un test t, analyse de variance… pour les données quantitatives),
de l’importance des effectifs traités (tests paramétriques ou non paramétriques), de
la prise en compte du temps (comparaison de deux courbes de type survie par le test
du Log-Rank). On s’attachera de plus à dénombrer les comparaisons statistiques
prévues (c'est-à-dire le nombre de tests), afin d’avoir une idée de la vraie valeur du
risque alpha.
10 - VERIFIER LE RESPECT DES REGLES D’ÉTHIQUE
16
Toute étude de recherche clinique qui implique des patients pose le problème
de l’éthique. Il existe pour cela, dans chaque pays, une législation particulière et des
instances auxquelles l’investigateur doit se référer. En France, l’approbation du
comité de protection des personnes (CPP, ex CCPPRB) est préalablement
nécessaire à la mise en œuvre de l’essai. Le respect des règles éthiques à travers
cette approbation locale du comité d’éthique ainsi que la mention des signatures du
formulaire de consentement éclairé avant l’inclusion des patients dans l’étude
doivent être mentionnés dans l’article (habituellement dans le chapitre METHODES).
11 - ANALYSER LA PRESENTATION, LA PRECISION, ET LA LISIBILITÉ DES TABLEAUX ET DES FIGURES, LEUR COHERENCE AVEC LE TEXTE, ET LEUR UTILITE
11.1- Présentation des résultatsIl existe différents modes d’expression des résultats ; ils peuvent s’exprimer sous
forme soit de moyennes soit de pourcentages. Quand les résultats s‘expriment en
pourcentages d’apparition d’un évènement, plusieurs présentations sont possibles :
Risque relatifLe risque relatif (RR) est le rapport entre le taux de survenue d’un événement dans
le groupe sous traitement actif (TET) et le taux de survenue du même événement
dans le groupe placebo (TEP).
Taux événements sous traitement (TET) (%)
RR =
Taux événements sous placebo (TEP) (%)
Nb d’événements/nb de patients sous traitement (%)
=
Nb d’événement/nb de patients sous placebo (%)
Le risque relatif s’exprime en valeur absolue par rapport à 1.
Exemple de calcul :
17
Exemple du calcul du risque relatif de décès d’origine coronarienne ou d’infarctus du
myocarde non mortels dans l’étude WOSCOPS :
Effectif Nombre Taux
du groupe de décès d’origine d’évènement
coronarienne ou (%)
IDM non mortels
Pravastatine n=3302 174 TET =5.5%
Placebo n=3293 248 TEP =7.9%
Dans notre exemple, chez les patients non coronariens hypercholestérolémiques, le
risque relatif de survenue d’un décès d’origine coronarienne ou d’un IDM non mortel
sous pravastatine par rapport au placebo est donc égal à :
RR = 5.5/7.9 = 0.69
* La méthode de calcul présentée ici donne une valeur approchée des taux
d’évènements TET et TEP. Les valeurs exactes telles qu’elles sont dans les
publications sont calculées d’après la méthode de Kaplan-Meier. Cette méthode
permet l’estimation de la probabilité de survenue d’un évènement au cours d’une
étude en prenant en compte les patients « perdus de vue », et le fait qu’un même
patient peut avoir présenté plusieurs évènements.
Interprétation
Le risque relatif exprime l’effet d’un traitement sur le risque de survenue d’un
événement.
Le traitement apporte un bénéfice clinique si le risque relatif est inférieur à 1.
. si RR < 1 Bénéfice du traitement
. si RR > 1 Excès de risque par rapport au placebo (traitement délétère)
. si RR = 1 Absence d’effet du traitement
Réduction du risque du risque relatifOn exprime souvent les résultats en termes de « réduction relative du risque » de
survenue d’un événement ou RRR (c’est-à-dire d’amplitude de la réduction du risque
d’un événement). La réduction relative du risque correspond à la formule suivante :
RRR = 1 – RR
La réduction relative du risque s’exprime en pourcentage.
18
Exemple de calcul :
Si on applique cette formule à notre exemple, la réduction relative du risque de
survenue d’un décès d’origine coronarienne ou d’un IDM non mortel sous
pravastatine par rapport au placebo est égal à :
RRR = (1 – 0.69) x 100 = 31%
Interprétation
Chez les patients non coronariens hypercholestérolémiques, le traitement par
pravastatine permet une diminution relative du risque de survenue d’un décès
d’origine coronarienne ou d’un IDM non mortel de 31%.
Réduction absolue du risqueLe Risque Absolu (RA) est égal au taux de survenue d’un événement pendant la
durée de l’étude dans le groupe sous traitement actif (TET) ou dans le groupe
placebo (TEP).
Nombre d’événements
RA =
Nombre de patients traités
ou sous placebo
Le risque absolu s’exprime en pourcentage.
On exprime les résultats d’une étude en termes de « réduction absolue du risque »
de survenue d’un événement ou RAR.
La réduction absolue du risque correspond à la différence entre le risque absolu sous
traitement et le risque absolu sous placebo, soit :
RAR = RA traitement – RA placebo
Exemple de calcul
Exemple du risque absolu de la survenue d’un décès d’origine coronarienne pendant
la durée de l’étude LIPID :
Effectif Nombre Risque
du groupe de décès d’origine Absolu
coronarienne (RA)
Pravastatine n=4512 287 TET=6.4%
Placebo n=4502 373 TEP=8.3%
19
Dans notre exemple, la réduction du risque absolu de survenue d’un décès d’origine
coronarienne sous pravastatine par rapport au placebo est donc égal à :
RAR = 6.4% - 8.3% = 1.9%
Interprétation
Chez les patients coronariens hypercholestérolémiques ou non, le traitement par
pravastatine pendant 6.1 ans permet une diminution absolue du risque de survenue
de décès d’origine coronarienne de 1.9%.
Nombre d’évènements évités pour 1000 patients traités (cf. Question 21)A partir du RAR on peut aisément calculer le nombre d’événements évités pour 1000
patients traités. Il est égal à :
RAR en % x 10
Dans notre exemple, le nombre d’événements évités pour 1000 patients traités est
de 1.9x10 =19.
Le traitement par pravastatine pendant 6.1 ans permet d’éviter la survenue de 19
décès d’origine coronarienne pour 1000 patients coronariens
hypercholestérolémiques ou non.
Nombre de patients à traiter pour éviter un évènement (cf. Question 21)La réduction absolue du risque est souvent exprimée en termes de nombre de sujets
à traiter pour éviter un évènement ou « Number Needed to Treat » (NNT).
Le nombre de patients à traiter est l’inverse du RAR, il se calcule selon la formule
suivante :
NNT = 1/RAR
En pratique, si le RAR est de x événements évités pour 100 patients traités, pour
éviter un événement il faut traiter 100/x patients.
Soit dans notre exemple : NNT = 100/1.9 = 52.6
Interprétation
Chez les patients coronariens hypercholestérolémiques ou non, le traitement par
pravastatine pendant 6.1 ans permet d’éviter la survenue d’un décès d’origine
coronarienne pour 53 patients traités. Il faut noter que le nombre de patients à traiter
exprime un bénéfice absolu. Cette mesure reflète les effets apportés par un
traitement au niveau de la population.
20
11.2- Précision de l’estimation des effets du traitement (cf. Question 16)L’intervalle de confiance (IC) à 95 % entre les deux traitements devrait toujours
être précisé (moyennes ou pourcentages). L’IC à 95 % est un intervalle de valeur qui
a 95 % de chance de contenir la véritable valeur du paramètre estimé. L’intervalle de
confiance est donc l’ensemble des valeurs raisonnablement compatibles avec le
résultat observé. Il est le reflet de l’incertitude rattachée à une estimation du fait des
fluctuations d’échantillonnages. La borne inférieure de l’intervalle de confiance
représente le plus petit effet du traitement que l’on ne peut pas raisonnablement
exclure.
11.3- Lisibilité des tableaux et figures et cohérence avec le texte- Caractéristiques initiales des patients (cf. Question 6)
Le premier paragraphe des résultats a trait aux caractéristiques initiales des patients
inclus dans chaque groupe figurant habituellement dans le premier des résultats.
Compte tenu de la randomisation de l’attribution des traitements, on ne s’attend pas
à observer de différences statistiquement significatives entre les groupes pour ces
caractéristiques, qui sont parfois des variables pronostiques d’importance :
pourcentage d’hommes et de femmes, âge, stade de gravité de la maladie,
ancienneté de la maladie… Une absence de différence statistiquement significative à
ce stade ne prouve en aucune manière, après coup, que l’essai a été randomisé. A
contrario la mise en évidence, du seul fait du hasard, d’une différence
statistiquement significative pour une caractéristique initiale est compatible avec une
randomisation rigoureuse. Ce qui compte, si une telle situation se produit, c’est de
considérer la taille de cette différence et d’apprécier son éventuel retentissement sur
la comparaison finale des groupes. En pratique, la présentation des caractéristiques
initiales des patients réellement inclus permet au lecteur de contrôler s’ils
correspondent bien au type des patients que le protocole avait prévu d’inclure et de
se faire une idée précise et concrète de la population des malades qui pourront
bénéficier des résultats de l’essai.
- Suivi des patients (cf. Question 7)
Un élément essentiel du compte-rendu de l’essai est le « flux des patients » (« flow
chart »), qui fournit sous forme graphique les effectifs respectifs des patients
21
présélectionnés, randomisés, évalués, en précisant le nombre d’écarts au protocole,
leur moment de survenue et parfois la conduite pratique adoptée les concernant.
- Comparaison de variables
Les données de toutes les variables étudiées doivent être fournies, même si leur
modification est considérée comme statistiquement non significative. En effet, le
lecteur doit pouvoir apprécier si une modification statistiquement non significative a
ou non un intérêt au regard de la réalité clinique, et peut avoir éventuellement
influencé l’évolution d’une autre variable. En cas de comparaison de variables, les
valeurs observées dans les différents groupes avec leur intervalle de confiance, les
effectifs sur lesquels ces valeurs ont été observées et le degré de signification
statistique (p) des tests doivent être indiquées.
- Représentation graphique du risque relatif (cf. Question 16.3)
Certains résultats peuvent être représentés sous la forme d’un graphique « en
ligne » (forest-plot). La mesure de l’effet (sur la mortalité, ou décès
cardiovasculaire, ..) de la variable étudiée (ou de l’étude en cas de métaanalyse)
peut être celle du risque relatif (ou de l’odds ratio). La lecture est la suivante : - l’axe
horizontal indique la valeur du RR, - une ligne verticale en trait plein indique
l’absence d’association entre le traitement étudié et le traitement de référence ou
placebo (RR = 1), - le RR de chacun des variables est représenté par un carré ou un
point, - les barres horizontales rapportent les intervalles de confiance à 95% du RR
de chacun des variables. Par principe, plus les intervalles de confiance sont larges,
moins le RR est précis ; lorsque l’intervalle de confiance franchit la ligne verticale
correspondant à un RR égal à 1, l’effet du traitement étudié pour la variable
correspondante n’est pas significatif ; lorsque le RR avec son l’intervalle de confiance
dépasse entièrement la ligne verticale, on distingue deux cas possibles : l’effet du
traitement étudié pour la variable correspondante est significativement supérieur au
traitement de référence ou placebo avec un RR <1 ou inversement, l’effet du
traitement de référence ou placebo pour la variable correspondante est
significativement supérieur au traitement étudié avec un RR >1.
- Courbes de survie
La définition des délais de survie repose sur le temps écoulé entre la date d’inclusion
dans l’essai et la survenue d’un événement préalablement défini, tel que rechute ou
décès. Les taux de survie sans rechute, et surtout de survie sans événement, sont
un critère de jugement particulièrement important. Si l’on souhaite comparer les taux
22
de survenue d’évènements (infarctus du myocarde, décès, fracture…) et leurs
moments de survenue, la méthode d’analyse appropriée est celle des courbes type
« survie » (méthode de Kaplan-Meier habituellement utilisée), qui permet non
seulement de prendre en compte la totalité du temps de participation à l’étude de
chacun des patients (et d’utiliser ainsi toute l’information disponible), mais aussi de
ne réaliser qu’un seul test statistique. Il n’est pas rare que des courbes de survie
soient présentées et établies. Il faut se méfier, dans les courbes de survie, de l’axe
des ordonnées. En effet, l’axe des ordonnées doit être compris entre 0 et 100% et
l’ensemble de la population doit partir, au moment de l’inclusion avec 100% de
survie. Il n’est pas rare que pour amplifier l’effet du traitement, l’axe des ordonnées
ne soit, par exemple, compris qu’entre 90 et 100%, donnant artificiellement un gain
du traitement beaucoup plus important que ce qu’il est en réalité. En cas de
comparaison de (deux) courbes de survie, le test de Log-Rank est le plus souvent
employé avec la valeur du degré de signification du test habituellement inscrit sur la
figure.
12 - VÉRIFIER LA PRESENTATION DES INDICES DE DISPERSION (VALEURS EXTREMES, QUARTILES, ECART TYPES) DES DONNEES NUMÉRIQUES, ET CELLE DE L’IMPRÉCISION DES ESTIMATIONS (INTERVALLE DE CONFIANCE, VARIANCE, ERREUR STANDARD DE LA MOYENNE)
12.1- Ecart-type et erreur standard de la moyenneL’estimation du point central autour duquel gravitent les valeurs observées (n) est
donnée par la moyenne m et la dispersion des valeurs autour de ce point central par
l’écart type ‘s’. L’expression moyenne ± écart-type définit un domaine où sont
comprises environ 68% des valeurs observées si leur distribution est gaussienne (ou
« normale »). Il s’agit de connaître l’amplitude de l’erreur sur une mesure individuelle.
C’est elle qui résume au mieux la variabilité des données autour d’une valeur
centrale : elle doit apparaître dans la rédaction de l’article. L’erreur standard de la
moyenne qui est égal à s/√n ne doit pas être utilisée pour la présentation des
résultats, car elle exprime une quantité qui ne dépend pas seulement de la variabilité
des mesures recueillies : elle se définit comme l’écart-type des moyennes qu’on
observerait si l’on recommençait l’expérience un grand nombre de fois. Elle doit donc
23
être bien différenciée de l’écart-type ‘s’ des valeurs qui doit être donné pour résumé
les données. L’erreur standard de la moyenne sert en pratique à construire un autre
indice qui est l’intervalle de confiance de la moyenne.
12.2 – Intervalle de confiance (cf. Question 16)L’intervalle de confiance (« confidence interval ») traduit la précision de l’estimation
de la taille de l’effet réalisée par l’essai. Le but de l’estimation est de déterminer la
vraie valeur d’un paramètre, par exemple, la vraie réduction relative de mortalité.
Cependant, la valeur estimée dans un échantillon peut être assez loin de la vraie
valeur du fait des fluctuations aléatoires d’échantillonnage, c’est-à-dire du fait du
hasard. L’intervalle de confiance permet de prendre en compte cette incertitude
aléatoire dans la présentation des estimations. L'intervalle de confiance (IC) à 95%
est un intervalle de valeurs qui a 95% de chance de contenir la véritable valeur du
paramètre estimé. Avec un peu moins de rigueur, il est possible d’admettre que l'IC
représente la fourchette de valeurs à l'intérieur de laquelle nous sommes certains à
95% de trouver la vraie valeur recherchée.
13 - DISCUTER LA NATURE ET LA PRECISION DES CRITÈRES DE JUGEMENT DES RESULTATS
13.1- Choix du critère de jugementLe principal critère de jugement devrait être la variable la plus pertinente sur le plan
clinique pour évaluer l’efficacité du traitement. En principe, un seul critère principal
de jugement sera déterminé. Insistons sur la justification du choix du critère et des
méthodes retenues pour sa mesure (test biologique, méthodes cliniques) qui devront
être parfaitement décrites dans le protocole. Il n’est pas toujours facile de juger de
l’objectivité ou de la subjectivité des résultats. La subjectivité se rencontre lorsque la
réponse à un critère fait entrer des variables liées à une appréciation non quantifiable
(par exemple, des critères faisant appel à des échelles de la qualité de vie devant
être nécessairement validés dans la littérature).
Il arrive fréquemment que le critère de jugement soit un regroupement de plusieurs
critères (« composite endpoints »). Si un patient a, dans le suivi, un des critères
composites, il sera considéré comme positif pour le critère primaire de l’étude. Il faut
bien vérifier que les critères composites sont cohérents et que chacun possède un
24
poids à peu près équivalent : une étude qui aurait comme critère d’évaluation décès
+ infarctus du myocarde paraît répondre clairement à la question du pronostic
cardiovasculaire d’un patient ayant un problème coronaire. Par contre, un critère
composite associant décès, infarctus du myocarde et réapparition de douleurs
thoraciques, est un critère beaucoup moins fiable car la réapparition des douleurs
thoraciques ne correspond pas toujours à la réapparition de douleurs thoraciques
d’origine angineuse et met rarement en jeu la vie du patient. Ce point est important
car la significativité statistique du critère primaire fait trop souvent assimiler aux
rédacteurs puis aux lecteurs que l’ensemble du critère dans sa globalité est
significatif et que donc le traitement a par exemple, dans le dernier cas cité, à la fois
réduit les décès et les infarctus au même titre que les récidives d’angor. Toutefois,
dans un certain nombre d’études précédemment publiées, on se rend parfois compte
que le seul critère qui a pu faire balancer la significativité de l’étude est par exemple
la réapparition des douleurs thoraciques sans qu’il n’y ait aucune diminution du
risque de décès et d’infarctus du myocarde. C’est là que l’analyse en sous groupes,
à condition qu’elle ait été prévue à priori, a de l’intérêt car elle permet de bien clarifier
quels sont, parmi les éléments du critère composite, ceux qui ont permis d’obtenir la
significativité de l’étude.
Il n’est pas rare qu’un critère principal du jugement soit associé à des critères
secondaires. Ils concernent les autres mesures d’efficacité ou de tolérance du
traitement testé. Ceux-ci doivent également être définis (ainsi que leur mode de
mesure) dans le protocole. ll faut alors vérifier que les auteurs ne discutent pas
uniquement les critères secondaires si le critère primaire n’a pas de significativité car
il faut se rappeler que le dessin et la puissance statistique d’une étude sont conçus
pour le critère principal et que les critères secondaires sont justement secondaires
car à priori il n’y a souvent pas de puissance suffisante pour pourvoir répondre à la
question posée pour ce qui les concerne ou que des paramètres confondants
peuvent exister. Il faut donc se méfier dans l’interprétation d’une significativité dans
les critères secondaires des études. Ces critères secondaires ne servent
théoriquement qu’à guider l’interprétation du critère primaire.
Lorsque le bénéfice clinique est difficile voire impossible à mesurer, le critère
principal sera un critère de substitution : une mesure biologique, par exemple, servira
de point de comparaison pour l’efficacité du traitement (Exemple : la cholestérolémie
pour le risque d’accident coronaire). Deux limitations sont liées à l’utilisation d’un
25
critère de substitution : (1) le risque que le marqueur choisi ne soit pas un prédicteur
efficace du bénéfice clinique, (2) l’impossibilité d’évaluer correctement la balance
« bénéfice-risque » du traitement. Pour qu’un critère intermédiaire soit considéré
comme un critère de substitution, il lui faut répondre aux trois conditions suivantes :
(1) son évolution est corrélée à celle du critère clinique pertinent ; il a une valeur
prédictive (Exemples : l’HTA qui majore les risques de morbidité et de mortalité
cardiovasculaires ou la diminution de la densitométrie mesurée par absorptiométrie
qui est associée à un risque accru de fractures), (2) il y a une correspondance entre
l’évolution, sous traitement, du critère intermédiaire et du critère clinique ; un effet
favorable sur le critère de substitution est prédictif, en termes de morbidité et
mortalité, d’un effet favorable sur le critère clinique, (3) on devrait pouvoir estimer,
« quantifier » le bénéfice clinique attendu, à partir de l’importance de la variation
observée sur le critère intermédiaire.
13.2- Précision du critère de jugementPrécisément prévu, le moment de recueil du critère de jugement devra être approprié
à la cinétique de l’effet clinique, mais aussi à la plus grande loyauté possible pour la
comparaison de l’essai. Il ne serait par exemple pas raisonnable de mesurer
l’efficacité d’un antalgique à libération immédiate 24 heures après son administration,
ni honnête de mesurer, à la 6ème heure, les efficacités respectives d’un antalgique
administré par voie intraveineuse et d’un antalgique à libération prolongée,
administré par voie orale.
Le choix d’un critère quantitatif ou qualitatif d’évaluation n’est pas anodin. Les
critères quantitatifs fournissent une plus grande quantité d’information que les
qualitatifs. Si un critère qualitatif a été retenu, du type « succès/échec » ou
« répondeur/ non répondeur », il faut alors s’assurer que la définition du succès ou la
fixation du seuil de réponse a été faite préalablement à la réalisation de l’étude et
conformément au consensus scientifique.
13.3- Durée du suivi – validation des résultats sur le long termeIl faut se méfier également de la durée du suivi. En effet, il n’est pas rare qu’une
extrapolation soit faite à propos d’un suivi de 6 mois sur le suivi à long terme : par
exemple, si un traitement montre une diminution des événements au bout de 6 mois,
il n’est pas certain qu’il faille continuer ce traitement au-delà de 6 mois.
26
Malheureusement, il arrive dans les conclusions des articles, que la notion de
bénéfice au long terme est avancée alors que l’étude n’a pas porté sur le long terme
(cf. Question 21). Le principe est simple : il est facile d’ajouter un traitement (surtout
s’il a peu d’effets indésirables) mais il est beaucoup plus difficile de le stopper dans
la pratique quotidienne…, une donnée bien connue de l’industrie. Dans l’exemple de
l’étude RALES (NEJM 1999), l’essai a été stoppé prématurément en raison d’un
bénéfice devenu significatif au bout de 2 ans. Personne ne se pose la question de
stopper la spironolactone après 2 ans de traitement. Pourtant, aucune donnée
n’existe après ce délai et on ne peut jamais exclure l’apparition d’une toxicité ou
d’une accoutumance au long terme…
14- RELEVER LES BIAIS QUI ONT ÉTÉ DISCUTES. RECHERCHER D’AUTRES BIAIS EVENTUELS NON PRIS EN COMPTE DANS LA DISCUSION ET RELEVER LEURS CONSÉQUENCES DANS L’ANALYSE DES RESULTATS
L’analyse critique d’un article doit pouvoir éliminer la possibilité de l’existence
d’un biais. Les situations propices à l’apparition des différents biais sont à
rechercher, soit au niveau d’un défaut méthodologique, soit au niveau d’un défaut de
réalisation. Rappelons qu’il y a un biais quand la différence observée entre les deux
groupes à la fin de l’essai est due à un autre facteur que le traitement étudié.
Biais de confusionLe biais de confusion est le biais entraîné par l’absence de prise en considération
des facteurs de confusion. Pour l’éviter, l’essai doit être comparatif et doit comporter
un groupe contrôle contemporain utilisé comme référence. Afin de vérifier l’absence
d’un éventuel biais de confusion il convient de se poser les questions suivantes : -
existe-t-il un groupe contrôle ?, - l’effet du traitement est-il déterminé par rapport à ce
groupe contrôle ?
Biais de sélection (cf. Questions 5 et 6)Le biais de sélection survient lorsque les deux groupes de l’essai ne sont pas
comparables. Une différence entre les deux groupes peut alors apparaître en dehors
de tout effet traitement. La randomisation a pour but d’éviter le biais de sélection en
27
créant, en moyenne, deux groupes comparables. Afin de vérifier l’absence d’un
éventuel biais de sélection, il convient de se poser la question suivante : - la méthode
de randomisation garantie-t-elle l’imprévisibilité du traitement alloué à un patient ? En
effet, il est particulièrement important qu’un investigateur ne puisse pas connaître ou
prédire le groupe auquel sera alloué le prochain patient. À ce titre, une « pseudo
randomisation » basée sur la date de naissance du patient ou le jour de la
consultation est inacceptable. L’utilisation d’enveloppe scellée n’est pas optimale,
surtout pour les essais en ouvert. Seules les procédures centralisées, téléphone, fax,
informatique donnent suffisamment de garantie. Afin de juger si les groupes issus de
la randomisation sont comparables, il convient de vérifier qu’il n’existe pas de
déséquilibre entre les groupes au niveau des principaux facteurs pronostiques (ou
d’autres variables conditionnant le critère de jugement). Dans les situations suivantes
où - le groupe contrôle n’est pas constitué de patients contemporains, mais de
témoins historiques ou de témoins géographiques (en fait, il n’y a pas eu de
randomisation), où - le processus de randomisation était prévisible (il était possible
pour les investigateurs de sélectionner les patients dans les groupes de l’essai), le
risque de biais de sélection est fort et remet en cause la validité interne du résultat
obtenu.
Biais de suiviUn biais de suivi survient lorsque les deux groupes ne sont pas suivis de la même
manière au cours de l’essai. La comparabilité initiale est alors détruite et une
différence peut apparaître en dehors de tout effet traitement. Le double aveugle est
un élément central pour empêcher l’apparition de ce biais. À côté de l’évaluation de
la qualité du double aveugle, d’autres points spécifiques du biais de suivi sont à
prendre en considération. Afin de vérifier l’absence d’un éventuel biais de suivi, il
convient de se poser les questions suivantes en plus de l’analyse du double
aveugle : - est-ce que les arrêts de traitements, les déviations aux protocoles et les
traitements concomitants ont été recueillis et sont convenablement documentés ? , -
le recours aux traitements concomitants a-t-il été aussi fréquent dans tous les
groupes ? (une différence dans les traitements concomitants peut faire disparaître
l’effet du traitement étudié, ou, à l’inverse, faire apparaître une fausse différence), -
les taux de déviation au protocole sont-ils similaires dans les deux groupes ?, - les
taux d’arrêt du traitement de l’étude sont-ils similaires dans les deux groupes ? (en
28
sachant que les différences observées peuvent être dues à une différence de
tolérance des produits et non pas à une situation potentiellement biaisée).
Biais d’évaluationLe biais d’évaluation survient quand la mesure du critère de jugement n’est pas
réalisée de la même manière dans les deux groupes. Le double insu limite le risque
de biais d’évaluation. Afin de vérifier l’absence d’un éventuel biais d’évaluation, il
convient de se poser les questions suivantes : - l ’évaluation du critère de jugement
est-elle faite de la même façon quel que soit le traitement reçu ?, - le traitement est-il
susceptible d’influencer sur la mesure du critère de jugement ?, - dans un essai en
ouvert, la mesure du critère de jugement est-elle subjective ?. La connaissance du
traitement reçu par le patient peut influencer la mesure du critère de jugement. Avec
ce type de critère, si le double aveugle est impossible (par exemple psychothérapie),
l’évaluation des patients doit se faire, en insu du traitement reçu, par un évaluateur
indépendant des médecins ayant en charge les patients (triple aveugle).
Biais des essais en ouvert (ou liés à l’absence ou à un défaut de double insu)Dans certaines situations, la réalisation d’un double insu n’est pas possible pour des
raisons éthiques ou pratiques. Dans ce cas, les essais ne peuvent être réalisés qu’en
simple insu ou en ouvert. La méthodologie employée n’empêchant pas la survenue
d’un biais, il convient d’analyser soigneusement les marqueurs permettant de vérifier
que le suivi et l’évaluation des critères de jugement se sont effectués de manière
identique dans les deux groupes. Seules quelques situations très particulières
empêchent la réalisation d’un double insu (cf. tableau ci-dessous). En dehors de ces
situations, la non-réalisation de l’essai en double insu est insatisfaisante. Afin de
vérifier l’absence d’un éventuel biais dans un essai en ouvert, il convient de se poser
les questions suivantes : - le critère de jugement est-il un critère « dur », dont
l’évaluation n’est pas subjective? (le décès est le critère le plus sûr dans un essai en
ouvert car il ne demande aucune interprétation ; par contre, l’utilisation d’événements
cliniques est moins robuste ; dans certains cas, le diagnostic de survenue de
l’événement clinique peut être subjectif et influencé par la connaissance du
traitement du patient), - en cas d’utilisation d’événements cliniques comme critère de
jugement, l’adjudication s’est-elle effectuée de manière centralisée, indépendante et
en insu de la connaissance du traitement ?, - l’essai est-il réalisé en ouvert alors que
29
sa réalisation en double insu était éthiquement et pratiquement possible ? La
justification de l’absence d’aveugle pour des raisons pratiques, principalement de
coûts, ne doit pas être acceptée trop facilement. L’expérience montre que, même
avec des critères de jugement « durs » (mortalités), il existe une surestimation de
l’effet dans les essais en ouvert par rapport aux essais en double aveugle. Les
situations où il est impossible de réaliser un double insu sont rares. Par exemple, la
nécessité d’une adaptation posologique en fonction d’un paramètre biologique n’est
pas un obstacle insurmontable à la réalisation d’un double aveugle. Une procédure
d’ajustement centralisé peut être mise en place.
Liste des situations où l’absence de double insu est « acceptable »
Un des traitements comparés est une intervention chirurgicale ou invasive (radiologie interventionnelle comme une angioplastie).
Un des traitements comparés nécessite un appareillage lourd dont il est impossible de faire un simulacre comme la radiothérapie.
Un des traitements comparés s’accompagne d’effet indésirable ou d’une toxicité évocatrice qui laisse deviner la nature du traitement dans presque tous les cas : chute de cheveux dans des chimiothérapies anticancéreuses.
Les traitements comparés sont des stratégies de prise en charge : traitement à domicile versus traitement hospitalier.
Un des traitements comparés concerne une prise en charge améliorée : stroke unit, kinésithérapie, aide à domicile, etc.
Le traitement factice risque d’avoir un effet : faux massage, placebo de chewing-gum pour l’arrêt du tabac, etc.
Un des traitements comparés délivre son action de façon évidente et non dissimulable. Il est donc impossible d’en faire un simulacre sans effet : (chirurgie,) dans une certaine mesure kinésithérapie, cure thermale, physiothérapie (chaleur), etc.
D’une manière générique, toutes les situations où la réalisation d’un traitement « placebo » ayant la même apparence que le traitement étudié s’avère trop compliqué à réaliser ou illusoire, par exemple, quand l’action du traitement est directement visible (comme la chirurgie, le recours à une aide humaine, etc.).
Biais d’attritionLe biais d’attrition survient quand des patients randomisés sont écartés de l’analyse.
Tous les patients randomisés doivent être inclus dans l’analyse. Les patients inclus
mais non analysés correspondent soit à des perdus de vue, soit à des données
manquantes, ce qui rend dans les deux cas le critère de jugement principal
30
manquant. Afin de vérifier l’absence d’un éventuel biais d’attrition, il convient de se
poser les questions suivantes : - le nombre de patients analysés est-il égal au
nombre de patients randomisés ? , - quelle est la robustesse du résultat vis-à-vis de
l’hypothèse du biais maximum ? , - est-ce qu’une méthode de remplacement des
données manquantes a été utilisée ? Dans ce cas, le nombre de patients analysés
correspond au nombre de patients randomisés même si de nombreuses valeurs
étaient manquantes. Ces méthodes nécessitent des hypothèses sur la nature des
données manquantes. Même si elles sont pour la plupart conservatrices, leur
utilisation ne doit pas faire oublier le problème initial et le risque de biais.
Biais liés à l’absence d’analyse en intention de traiter (cf. Question 8)Différentes situations peuvent conduire à une destruction de la comparabilité initiale
des groupes, comme, par exemple, une analyse en « per-protocole » où les patients
inclus à tort, traités par erreur avec un mauvais traitement, ayant arrêté le traitement
de l’étude ou ayant reçu des traitements concomitants sont exclus de l’analyse. Ces
exclusions secondaires sont susceptibles de biaiser le résultat, principalement en
détruisant la comparabilité initiale des groupes et du fait que les exclusions sont
potentiellement liés à l’effet du traitement. Pour éviter ce biais, l’analyse doit être
réalisée en intention de traiter. Afin de vérifier l’absence d’un éventuel biais, il
convient de se poser les questions suivantes : - l’analyse a-t-elle était faite en
intention de traiter ? , - c’est-à-dire tous les patients inclus dans l’essai ont-ils été
analysés dans le groupe dans lequel ils ont été randomisés, quel que soit le
traitement qu’ils ont reçu ? Les deux situations suivantes sont-elles exclues ? : des
patients randomisés mais non traités ne sont pas retenus pour l’analyse, des patients
alloués à un groupe mais traités par erreur avec le traitement d’un autre groupe ne
sont pas analysés.
Biais des essais de non-inférioritéLes biais spécifiques affectent l’essai de non-infériorité, en particulier, tout ce qui
concourt à faire disparaître l’effet des traitements étudiés. La situation est inversée
par rapport à l’essai de supériorité où ces situations n’entraînent pas de biais mais
simplement une perte de puissance. Afin de vérifier l’absence d’éventuels biais dans
un essai de non-infériorité, il convient de se poser les questions suivantes : - le
traitement de référence a-t-il développé sa pleine efficacité ?
31
(les conditions d’administration du traitement de référence : dose utilisée, schéma
d’administration, observance des patients, doivent garantir l’obtention de l’efficacité
optimale du traitement de référence. Si ce n’est pas le cas, un nouveau traitement,
en réalité, inférieur au traitement de référence, apparaîtrait comme non-inférieur), -
les patients inclus sont-ils similaires aux patients chez lesquels le traitement de
référence a été validé ?, - les patients inclus présentent-ils un risque suffisamment
élevé pour permettre à l’effet du traitement de se manifester ? (la fréquence du
critère de jugement doit être proche de celle qui est attendue et qui a été utilisée
dans le calcul du nombre de sujets), -.l’analyse en per-protocole donne-t-elle les
mêmes résultats que l’analyse en intention de traiter ? (dans l’essai de non-
infériorité, l’analyse per-protocole est la plus sensible et la moins biaisée. Cependant,
elle ne reflète pas la vraie vie. L’analyse en intention de traiter est plus représentative
de la pratique courante, mais elle est conservatrice et a tendance à faire disparaître
les différences. Il convient donc de considérer simultanément ces deux analyses
pour avoir à la fois une vue non biaisée et représentative de la réalité). Dans les
situations suivantes, le risque de biais dans l’essai de non-infériorité est fort et remet
en cause la validité interne du résultat obtenu : - la mesure du critère de jugement
est peu sensible et/ou peu spécifique (la mauvaise performance diagnostique de
cette mesure tend à égaliser les résultats des deux groupes, et peut gommer une
différence en défaveur du traitement étudié), - de nombreux patients sont exclus de
l’analyse per-protocole, - il existe un fort taux d’écarts au protocole, - le taux de
données manquantes était élevé et des techniques de remplacements ont été
utilisées (ces techniques sont conservatrices et elles sont susceptibles de faire
disparaître une réelle différence entre les traitements).
15- VERIFIER LA LOGIQUE DE LA DISCUSSION ET SA STRUCTURE. RECONNAÎTRE CE QUI RELEVE DES DONNEES DE LA LITTÉRATURE ET CE QUI EST L’OPINION PERSONNELLE DE L’AUTEUR
Dans sa « Discussion », l’auteur est supposé discuter les conditions de
réalisation de son étude et les limites de l’interprétation des résultats. Les résultats
concernant le critère principal doivent servir de base à la discussion pour recadrer ce
résultat dans la littérature et en expliquer les mécanismes. Il est habituel que la
32
première phrase de la discussion réponde à l’objectif principal décrit dans
l’introduction. Il ne faut donc pas admettre de discussion basée uniquement sur des
résultats concernant les objectifs secondaires de l’étude. La discussion pourrait être
comparée à une sorte d’autocritique destinée à mettre l’accent sur les données les
plus fiables et les plus démonstratives de l’étude et n’accorder aux résultats de
l’essai que la portée qu’il mérite. Cette portée est parfois considérable, comme
modifier la prise en charge thérapeutique dans les 6 heures qui suivent un infarctus
du myocarde, ou bouleverser les habitudes en matière de prévention secondaire
chez les coronariens. Le plus souvent, pourtant, elle est limitée, lorsqu’il s’agit par
exemple de proposer un nouveau traitement d’appoint ou de troisième intention… De
manière générale, si la différence observée entre les deux groupes a été trouvée
statistiquement significative, il importe d’en discuter la signification clinique (cf.
Questions 16 et 17) ; si la différence observée entre les deux groupes n’a pas été
trouvée statistiquement significative, l’équivalence des produits ne peut être pour
autant revendiquée, un manque de puissance de l’étude ayant pu en être la cause.
Dans la discussion, il doit en outre être faire mention :
- de la cohérence interne des informations fournies : l’étude est-elle à l’origine de
résultats discordants ou même contradictoires entre eux ? Que penser, par exemple,
d’un anti-hypertenseur qui diminuerait par rapport à son comparateur le nombre de
patients décédés mais n’agirait pas sur les accidents vasculaires cérébraux ?
- de la cohérence externe des résultats de l’étude avec les données de la littérature :
La cohérence externe permet de s’assurer que le résultat pris en considération n’est
pas unique en son genre mais qu’il s’intègre dans un cadre logique : le résultat est-il
confirmé par d’autres et est-il cohérent avec les connaissances fondamentales,
épidémiologiques, etc…? En général, un résultat n’est pas interprété de manière
isolée, mais mis en perspective par rapport aux autres similaires ou déjà publiés
dans le domaine. Par ailleurs, la discussion devra aborder le problème de
l’applicabilité des résultats de l’essai aux patients autres que ceux de l’essai, aux
patients d’autres pays…
Dans la discussion figure un paragraphe intitulé « limitation des résultats » qui est
généralement situé à la fin avant la conclusion et qui permet généralement aux
auteurs de bien cadrer les limites de leur étude. Les auteurs doivent en particulier
relever les biais de l’étude et expliquer à chaque fois les procédures mises en œuvre
pour les limiter au maximum
33
16- DISCUTER LA SIGNIFICATION STATISTIQUE DES RESULTATS 16.1- Différence statistiquement significativeUne différence observée entre deux groupes peut être réelle ou bien due au hasard.
Le test statistique (par exemple le Chi 2) permet d’évaluer la réalité statistique de la
différence. Les conclusions de tout essai sont entachées de deux risques : le risque
alpha et le risque bêta. Le risque alpha représente la probabilité de conclure à tort à
une différence alors que les traitements ont en réalité une efficacité identique, ou de
conclure à tort à un effet positif du traitement alors que le traitement est inefficace
(différence en réalité due au hasard). Classiquement, une différence observée est
considérée comme statistiquement significative quand le risque alpha est inférieur à
5 %. C’est le « fameux » « p ». Cette valeur seuil est arbitraire mais représente une
garantie minimale. Lorsqu’il n’y a pas de significativité, il n’est pas possible de
conclure à l’identité dans les deux groupes puisque statistiquement on ne peut
conclure, sauf méthodologie adaptée, à l’égalité mais seulement à l’absence de
différence. Il est aussi nécessaire d’écarter une situation d’inflation du risque alpha
résultant d’une répétition des tests statistiques rencontrées en cas : - d’absence de
critère de jugement principal avant l’obtention des résultats, - d’analyses en sous
groupes, - de recherche de l’effet répété au cours du temps, - d’analyses
intermédiaires non protégées. Dans ces cas de comparaisons multiples, il importe
de conserver le risque alpha fixé à priori, en le corrigeant par le nombre de
comparaisons à tester, ce qui définit une valeur de p (permettant de rejeter ou non
l’hypothèse testée au risque alpha initialement fixé).
16.2- Taille et précision de l’effetL’estimation de la taille de l’effet (« size of effect ») doit être suffisamment précise
pour pouvoir éliminer la possibilité que l’effet puisse être petit et donc sans intérêt en
pratique. Cette infirmation est apportée par l’intervalle de confiance du résultat.
16.3- Intervalle de confianceL'intervalle de confiance est l'ensemble des valeurs raisonnablement compatibles
avec le résultat observé (estimation ponctuelle). Il donne une expression formelle de
34
l’incertitude rattachée à une estimation ponctuelle du fait des fluctuations
d’échantillonnages.
Par exemple une réduction de mortalité de -20% avec un IC 95% de [–35% ;-5%]
signifie que bien qu’une baisse de –20% ait été observée ponctuellement dans
l’essai, il n’est pas possible d’exclure que l’efficacité du traitement soit en réalité plus
petite (au pire elle peut être de –5%) ou plus grande (au mieux de –35%). La borne
péjorative de l’intervalle de confiance (dans cet exemple, -5%) représente le plus
petit effet du traitement que l’on ne peut pas raisonnablement exclure.
Exemple de 5 situations différentes (ces données sont représentées graphiquement
sur la figure).
Essai RRR IC 95% p
A -23% -30% -16% 0,000
B -6% -10% -1% 0,024
C -23% -41% -1% 0,043
D 0% -4% 4% 1,000
E -19% -48% 27% 0,362
RRR : réduction relative de risque. Par convention, une RRR négative signe une réduction de risque. A l’opposé, une valeur positive témoigne d’une augmentation.
Représentation graphique des RRR et IC95% des différents essais
35
16.4- Interprétation des intervalles de confiance dans le cas d’un résultat significatif (Cf. tableau et figure ci-dessus)Dans l’essai A, le traitement entraîne une réduction relative du risque (RRR) de -23%
(IC95% [-30%,-16%]) ; une valeur de RRR négative signe une réduction du risque, à
l’inverse une valeur positive une augmentation. L’interprétation de ce résultat est qu’il
existe un effet statistiquement significatif, de taille importante et connue avec
précision. Ce traitement est intéressant en pratique car quel que soit la valeur réelle
de l’effet, celle-ci reste intéressante. Dans le pire des cas, cet effet est encore de -
16% ce qui correspond à une réduction relative du risque satisfaisante.
Le traitement dans l’essai B entraîne une réduction relative du risque de -6% (IC95%
[-10% ; -1%]). L’interprétation de ce résultat est qu’il existe un effet statistiquement
significatif, que l’effet du traitement est connu avec précision (l’intervalle de confiance
est étroit) mais qu’il n’est pas formellement prouvé que le traitement soit intéressant
en pratique. En effet, même dans la meilleure des situations, c’est à dire celle où
l’effet réel serait proche de la borne inférieure (-10%), la taille de l’effet reste faible et
peu intéressante en pratique.
Le traitement dans l’essai C entraîne une réduction relative du risque de -23%
(IC95% [-41% ;-1%]). L’interprétation de ce résultat est qu’il existe un effet
statistiquement significatif, la taille de l’effet n’est pas connue avec précision mais il
se pourrait que cet effet soit de taille intéressante. En effet l’estimation ponctuelle (-
23%) témoigne d’un effet substantiel de même que la borne inférieure de l’intervalle
(-41%). Cependant l’incertitude sur ce résultat est grande et il est aussi possible que
l’effet réel soit quasiment nul (proche de la borne supérieure, -1%). En pratique, il est
difficile de recommander l’utilisation de ce traitement car il existe une possibilité que
le traitement soit peu efficace. Un essai supplémentaire qui permettra d’améliorer la
précision de l’estimation de l’effet en méta-analyse pourrait être souhaitable.
16.5- Interprétation des intervalles de confiance dans le cas d’un résultat non significatif (Cf. tableau et figure ci-dessus)Dans l’essai D, le traitement n’entraîne pas de modification relative du risque
(RRR=0%, IC95% de [-4% ;+4%]). Ce résultat n’est pas significatif (p =1.00). Aux
mieux, il pourrait exister une réduction très faible de 4% qui ne présente pas
beaucoup d’intérêt en pratique. Bien qu’en toute rigueur, il ne soit pas possible de
conclure à l’absence d’efficacité, l’interprétation de l’intervalle de confiance autorise à
36
conclure que très probablement ce traitement serait d’aucune utilité en pratique. Cet
exemple montre la supériorité de l’approche par les intervalles de confiance sur celle
utilisant uniquement des tests statistiques. En utilisant l’approche test statistique il
est impossible de conclure. Par contre, avec l’approche basée sur les intervalles de
confiance et étant donné la précision du résultat, il est licite de conclure à l’absence
d’intérêt de ce traitement : même si celui-ci a une efficacité non nulle, la taille de
l’effet serait trop petite pour être intéressante en pratique.
Le traitement dans l’essai E entraîne une réduction relative non significative de -19%
(IC à 95% de [-48%,+27%]). Il apparaît clairement que ce résultat non significatif
n’autorise pas à conclure à l’absence d’effet. En effet, ce résultat est compatible avec
une réduction relative de -48%, effet de taille conséquente. De plus l’intervalle est en
très grande partie du coté favorable ce qui renforce la possibilité de l’existence de
l’effet. En conclusion, il est possible que le traitement soit efficace et que cette
efficacité soit suffisamment importante pour être intéressante en pratique. Ce résultat
encourage à réaliser un nouvel essai de plus grande puissance.
16.6- Analyse en sous groupesQuelle légitimité (ou signification statistique) donner à l’analyse en sous groupes ? Il
convient de distinguer deux cas de figure :
- lorsque l’essai thérapeutique a montré une différence significative pour le critère
principal et pour l’ensemble du groupe ; dans ce cas, il peut être intéressant
d’examiner si l’effet thérapeutique ainsi démontré est dans les différents sous
groupes (par exemple, dans les différentes tranches d’âges de la population
étudiée) ; il est souhaitable de ne faire d’analyse que dans des sous groupes pour
lesquels la question est logique ;
- en revanche, lorsque l’essai est négatif sur le critère principal, il n’est pas logique
d’analyser les sous groupes ; l’hypothèse n’ayant pas été vérifiée, il est illogique
de formuler à postériori d’autres hypothèses.
Il faut garder à l’esprit que les sous groupes n’ont pas, d’habitude, la puissance
suffisante dans l’étude pour pouvoir être analysés de façon fiable. Les tendances ne
veulent absolument rien dire : (i) si dans l’analyse d’un sous groupe, le bénéfice d’un
traitement n’est pas significatif, ceci ne veut pas dire que le traitement est inefficace
dans ce sous groupe mais peut être que la puissance n’est pas suffisante. Si l’étude
avait été réalisée spécifiquement pour ce sous groupe avec une puissance
37
suffisante, la différence serait peut être significative ; (ii) d’un autre côté, le fait de
discuter une tendance non significative dans un sous groupe, en extrapolant que si
un nombre plus grand de patients avait été inclus, la différence serait certainement
significative, ne peut être acceptable car cette tendance peut très bien ne pas se
vérifier sur une population plus importante avec une puissance suffisante. Exemple :
l’étude ELITE (Lancet 1997) avait pour but d’étudier la tolérance du LOSARTAN
comparée au CAPTOPRIL chez les patients en insuffisance cardiaque. Une
tendance non significative (p = 0.075) en faveur du LOSARTAN par rapport au
groupe CAPTOPRIL a été longuement discutée dans la publication. L’étude ELITE II,
3 ans après, ne retrouvera pas de différence significative entre CAPTOPRIL et
LOSARTAN sur la mortalité (Lancet 2000). D’une manière générale, l’analyse des
sous groupes ne permet que de donner des tendances potentielles pour la création
ou la réflexion de nouvelles études. Les sous groupes d’analyse doivent avoir été
définis, si possible, à priori, pour permettre une bonne définition et une plus grande
homogénéité au sous groupe considéré. Lorsque les sous groupes sont définis à
posteriori, un certain nombre de patients peuvent ne pas avoir été clairement
identifiés comme appartenant ou n’appartenant pas au sous-groupe et peuvent
fausser l’analyse. Exemple : dans l’étude EPISTENT (Circulation 1999) qui analysait
l’intérêt d’un traitement par inhibiteur des récepteurs GPIIB/IIIA lors de l’angioplastie
coronaire, le sous groupe des diabétiques, analysé à posteriori, a été défini sur des
critères discutables. De plus, l’analyse de ce sous groupe montre qu’il existe des
différences importantes au niveau des caractéristiques des patients qui n’ont pas été
prise en compte lors de l’analyse. Il n’y a que lorsqu’un bénéfice apparaît significatif
dans un sous groupe que l’on peut réellement penser qu’il existe un bénéfice du
traitement dans le sous-groupe considéré, à condition que tous les facteurs
confondants (connus) aient été envisagés.
17- DISCUTER LA SIGNIFICATION CLINIQUE DES RESULTATS
La valeur observée du « p » n’est pas le reflet de l’efficacité du traitement ou
de la solidité du résultat. Des grands essais pouvant inclure des dizaines milliers de
patients peuvent mettre en évidence des différences significatives mais non
nécessairement cliniquement pertinents. En fait, le résultat du test est surtout
38
dépendant de la taille de l’essai et de l’écart de risque entre les deux groupes. En
conclusion, le « p » peut dépendre essentiellement des « moyens » mis dans la
réalisation de l’essai. Ce point est illustré dans le tableau ci-dessous : le résultat des
essais 1 et 2 est identique (baisse relative du risque de 28 %), par contre le « p » est
différent selon la taille de l’échantillon et l’écart de risque observé. Pour une même
efficacité relative, il est possible d’obtenir ou non un « p » statistiquement significatif.
Pour connaître la pertinence de l’essai, il est préférable de comparer les
pourcentages non pas en baisse relative du risque, mais en baisse absolue, et de
s’interroger sur l’impact clinique des résultats.
Valeur du « p » en fonction de la taille de l’échantillon et de l’écart de risque entre les
deux groupes
Décès Baisse relative
Baisse absolue
Nombre de patients à
traiter pour éviter un
décès
« p » 200
sujets
« p »1 000 sujets
« p »2 000 sujets
« p »4 000 sujets
Essai n°1
Traité 5 %- 28 % 2 50 0.55 0.18 0.059 < 0.01
Non traité 7 %
Essai n°2
Traité 20 %- 28 % 8 12.5 0.18 0.003 < 0.001 < 0.0001
Non traité 28 %
La notion de diminution ou d’augmentation du risque relatif et du risque absolu est
une notion importante. Exemple : dans une étude concernant l’infarctus, si la
mortalité est passée de 10 % à 5 % après le traitement par X, il existe donc une
diminution du risque absolu de décès de 5 % (10 % - 5 %). En terme de risque relatif,
ceci correspond à une diminution de 50 % de la mortalité (50 % de patients en moins
sont morts). Le calcul du risque relatif amplifie le gain obtenu et est souvent le chiffre
mis en avant. Ce risque relatif est dépendant de la fréquence des événements dans
la population : plus cette fréquence est basse, plus un petit changement va avoir une
incidence importante sur le risque relatif. Exemple : passer de 4 % à 3 % de mortalité
correspond à une diminution de 25 % du risque relatif et de 1 % de risque absolu (ce
39
qui est peu). Il faut donc se méfier, lorsque la diminution ou l’augmentation du risque
relatif est importante, que la diminution ou l’augmentation du risque absolu reste
également intéressante. Par exemple, une diminution de 0.5% de risque absolu,
même si elle correspond à une diminution de 30 % de risque relatif, doit nous faire
poser la question du coût engagé pour une telle diminution d’événements : une
diminution de 0.5 % du risque absolu signifie qu’il faudra traiter 200 patients pour
obtenir un événement en moins. Si le traitement coûte cher ou est compliqué et que
l’événement analysé est par exemple une diminution d’un symptôme, le coût engagé
est prohibitif.
Il faut bien comprendre que la réduction relative du risque n’exprime pas un bénéfice
individuel du traitement. Dans cet autre exemple, comparons l’étude WOSCOPS et
une étude X, réalisée sur une population dont le risque cardiovasculaire est
inférieur. Considérons que dans ces deux études, la réduction relative du risque est
identique sur le critère principal (décès d’origine coronarienne ou IDM non mortels) :
dans l’étude WOSCOPS, le taux de survenue de ce critère est de 7.9% dans le
groupe placebo et de 5.5% dans le groupe pravastatine, et dans l’étude X, le taux de
survenue est de 0.79% dans le groupe placebo et de 0.55% dans le groupe sous
traitement, soit une réduction relative du risque de 31%, identique dans les deux
études. En revanche, le bénéfice absolu (ou la réduction absolue du risque) du
traitement observé dans l’étude WOSCOPS est 10 fois supérieur à celui observé
dans l’étude X : la réduction absolue du risque de survenue du critère principal est
respectivement de 2.4% (étude WOSCOPS) et 0.24% (étude X).
18- VERIFIER QUE LES RESULTATS OFFRENT UNE REPONSE À LA QUESTION ANNONCEE
Donner une réponse à la question annoncée à travers les résultats définit la
validité interne de l’étude. La validité interne de l’étude nécessite que le résultat soit
issu d’une démarche hypothético-déductive pour être valide sur un plan
méthodologique. Cela signifie que le résultat avancé doit correspondre directement
formulé à priori, et dont le test était l’objet spécifique de l’essai. Il convient d’éliminer
la possibilité que l’hypothèse ait pu être formulée après la prise de connaissance des
résultats de l’essai (formulation post-hoc). Ce changement post-hoc de l’hypothèse
testée, du critère de jugement, de la population cible supprime sa valeur déductive à
40
un résultat et le transforme en un résultat inductif. Cela signifie encore qu’un résultat
non issu d’une démarche hypothético-déductive est de nature inductif et exploratoire.
19- VERIFIER QUE LES CONCLUSIONS SONT JUSTIFIEES PAR LES RESULTATS
Les conclusions doivent s’inscrire dans la logique des seuls résultats fiables et
se cantonner au thème qui était l’objet du travail. La conclusion de l’étude doit ainsi
comporter la reprise du résultat principal et les ouvertures qui sont attendues en
sachant qu’il faut se méfier beaucoup des extrapolations générales. Prenons
l’exemple d’une étude sur l’infarctus dont le résultat aboutit à une diminution de 1 %
d’événements, même si elle correspond à une diminution du risque relatif de 30 %,
une conclusion disant qu’il existe une grande diminution du risque d’événement n’est
pas acceptable. Dans une étude dont le critère principal est composite, la
généralisation du résultat à l’ensemble des éléments du critère composite doit être
prudemment analysée. Dans l’exemple où un traitement X fait diminuer
significativement le risque de décès, d’infarctus et de récidives de douleurs
thoraciques, il faut bien vérifier que la conclusion a potentiellement tenu compte des
analyses en sous groupes (Exemple : pas de diminution des décès et des infarctus
mais uniquement des récidives de douleurs thoraciques).
Une bonne conclusion d’essai clinique est factuelle : elle n’est ni du registre de
l’opinion, ni à plus forte raison de celui de la spéculation ; elle est prudente, nuancée,
sans extrapolation abusive. Reprenant tous les aspects qu’il était prévu d’aborder
dans l’essai, elle fait la part de ce qui a été « démontré » et de ce qui ne l’a pas été.
Elle ne fait pas le tri des informations, pour ne retenir que les favorables. Tenant le
plus grand compte des résultats d’efficacité, elle ne néglige pas pour autant, dans le
domaine du médicament, les données disponibles sur la sécurité d’emploi. Elle
rappelle la concordance ou la discordance des résultats de l’essai avec les données
validées.
20- INDIQUER LE NIVEAU DE PREUVE DE L’ETUDE (GRILLE DE L’ANAES)
20.1- Niveau de preuve d’une étude
41
Le niveau de preuve d’une étude caractérise la capacité de l’étude à répondre
à la question posée (cf. tableau ci-dessous).
Cette capacité se juge, d’une part, par la correspondance de l’étude au cadre du
travail (sujet, population, paramètres de jugement pris en compte), et d’autre part les
caractéristiques suivantes :
- l’adéquation du protocole d’étude à la question posée (voir page 16) ;
- l’existence ou non de biais importants dans la réalisation, et en particulier
l’adaptation de l’analyse statistique aux objectifs de l’étude ;
- la puissance de l’étude et en particulier la taille de l’échantillon.
Le niveau de preuve est directement tributaire du sujet abordé et des questions
posées. Un fort niveau de preuve pour une étude thérapeutique n’est pas toujours
obtenu d’un essai contrôlé randomisé. Citons par exemple l’utilisation des protocoles
compassionnels pour la recherche d’indication de certaines thérapeutiques
chirurgicales (Exemple : stent dans l’anévrysme rompu de l’aorte). Selon le domaine
exploré (diagnostic, pronostic, dépistage, traitement, etc.) un fort niveau de preuve
peut être donné par des études dont le type de protocole sera différent.
Une classification générale du niveau de preuve d’une étude peut être proposée à
partir des classifications de la littérature et des composantes vues ci-dessus :
un fort niveau de preuve correspond à une étude dont :
le protocole est adapté pour répondre au mieux à la question posée.
la réalisation est effectuée sans biais majeur,
l’analyse statistique est adaptée aux objectifs,
la puissance est suffisante ;
un niveau intermédiaire est donné à une étude de protocole similaire, mais
présent une puissance nettement insuffisante (effectif insuffisant ou puissance
a posteriori insuffisante) et/ou des anomalies mineures ;
un faible niveau de preuve peut être attribué aux autres types d’études.
20.2- L’évidence scientifiqueL’évidence scientifique est appréciée lors de la synthèse des résultats de
l’ensemble des études sélectionnées. La gradation de l’évidence scientifique
s’appuie sur : - l’existence de données de la littérature pour répondre aux questions
posées, - le niveau de preuve des études disponibles, - la cohérence de leurs
résultats.
42
Pour une question donnée, il est possible de classer les différentes études en
fonction de leur niveau de preuve. Pour chaque niveau, l’attention est portée aux
résultats des études quant aux paramètres de jugement définis préalablement pour
répondre aux questions posées. Une analyse descriptive donne les résultats et les
explications nécessaires pour comprendre les éventuelles divergences. Si les
résultats sont tous cohérents entre eux, des conclusions peuvent facilement être
formulées. En cas de divergence des résultats, il appartient aux « experts » de
pondérer les études en fonction de leur niveau de preuve, de leur nombre, et pour
des études de même niveau de preuve en fonction de leur puissance.
20.3- Accord professionnelL’expression d’un accord professionnel doit traduire un consensus professionnel. Un
accord professionnel nécessite d’être validé par un groupe de lecture externe au
groupe de travail à l’origine de l’accord professionnel. Les groupes d’experts à
l’origine d’un accord professionnel doivent être représentatifs des différents
professionnels de santé concernés et des différentes modalités d’exercice.
20.4- Grade des recommandationsEn fonction des données fournies par la littérature et de l’avis des professionnels les
notions suivantes doivent être rappelées :
- une classification des recommandations doit s’adresser aux
professionnels destinataires de celle-ci ;
- la classification a pour but d’expliciter les bases des recommandations
(volonté de transparence) ;
- la gradation proposée est la même que les recommandations soient
d’ordre thérapeutique, diagnostique ; elle peut se baser sur plusieurs
gradations pour le niveau de preuve des études.
Les recommandations proposées sont classées en grade A, B ou C selon les
modalités suivantes (cf. tableau ci-dessous) :
- une recommandation de grade A est fondée sur une preuve scientifique
établie par des études de fort niveau de preuve, par exemple essais
comparatifs randomisés de forte puissance et sans biais majeur, méta-
analyse d’essais contrôlés randomisés, analyse de décision basée sur
des études bien menées ;
43
- une recommandation de grade B est fondée sur une présomption
scientifique fournie par des études de niveau intermédiaire de preuve :
par exemple, essais comparatifs randomisés de faible puissance,
études comparatives non randomisées bien menées, études de
cohorte ;
- une recommandation de grade C est fondée sur des études de moindre
niveau de preuve par exemple, études cas-témoin, séries de cas.
En l’absence de précision, les recommandations proposées ne correspondent qu’à
un accord professionnel. L’existence d’une évidence scientifique forte entraîne
systématiquement une recommandation de grade A quel que soit le degré d’accord
professionnel. L’appréciation de la force des recommandations repose donc sur le
niveau d’évidence scientifique et l’interprétation des experts.
NIVEAU DE PREUVE ET GRADE DES RECOMMANDATIONS (selon l’ANAES)
NIVEAU DE PREUVE SCIENTIFIQUEFOURNI PAR LA LITTERATURE
GRADE DES RECOMMANDATIONS
Niveau 1
- Essais comparatifs randomisés de forte puissance - Méta-analyse d’essais comparatifs randomisés- Analyse de décision basée sur des études bien menées.
A
Preuve scientifique établie
Niveau 2
- Essais comparatifs randomisés de faible puissance- Etude comparatives non randomisées bien menées- Etude de cohorte
B
Présomption scientifique
Niveau 3
- Etude cas-témoin
Niveau 4
- Etudes comparatives comportant des biais
C
Faible niveau de preuve scientifique
44
importants- Etudes rétrospectives- Séries de cas- Etudes épidémiologiques descriptives (transversale, longitudinale)
20.5- Grille de lecture Les critères méthodologiques recherchés pour identifier le niveau de preuve des
études pourraient être rassemblés dans cette grille de lecture, publiée par l’ANAES
(cf. tableau ci-dessous). Signalons qu’il existe plusieurs autres grilles de lecture dont
la grille CONSORT destinée aux essais contrôlés randomisés, avec 2 groupes
parallèles, qui est la plus reconnue des éditeurs des grands journaux (site Web
http :www.consort-statement.org/)
GRILLE DE LECTURE D’UN ARTICLE THERAPEUTIQUE
Titre et auteur de l’article : Rev/Année/Vol/Année :
Thème de l’article :
OUI NON ?
1. Les objectifs sont clairement définis q q q
2. Méthodologie de l’étude
* l’étude est comparative
- l’étude est prospective
- l’étude est randomisée
* le calcul du nombre de patients a été fait a priori
* la population de l’étude correspond à la population
habituellement traitée
* toutes les variables cliniquement pertinentes sont
prises en compte
* l’analyse statistique est adaptée
* l’analyse est faite en intention de traiter
qqqq
q
qqq
qqqq
q
qqq
qqqq
q
qqq
45
3. Les résultats sont cohérents avec l’objectif de l’étude et
tiennent compte d’éventuels effets secondaires q q q
4. Application clinique
* la signification clinique est donnée
* les modalités de traitement sont applicables en routine
21- DISCUTER LA OU LES DECISIONS MEDICALES AUXQUELLES PEUBENT CONDUIRE LES RESULTATS ET LA CONCLUSION DE L’ARTICLE
La pertinence clinique (« clinical relevance ») permet de s’assurer que le
résultat de l’essai correspond à un effet suffisamment important et concernant un
critère cliniquement pertinent. L’estimation de la taille de l’effet doit être suffisamment
précise pour pouvoir raisonnablement éliminer le fait que l’effet serait petit, et donc
sans intérêt en pratique. Cette évaluation repose sur l’emploi des indices d’efficacités
(risque relatif, nombre de sujets nécessaires de traiter pour éviter un événement,
NNT) et des intervalles de confiance (cf. Questions 16 et 17). L’effet a été déterminé
par rapport à un comparateur adapté, placebo ou traitement de référence validé. Les
patients de l’essai doivent être représentatifs des patients vus en pratique médicale
courante afin d’assurer l’extrapolabilité (« extrapolability ») du résultat à la pratique :
même définition de la maladie, pas de sélection excessive sur le sexe, l’âge, les
comorbidités, etc. Le but est d’obtenir un échantillon relativement représentatif de la
population ciblée. En particulier, ils ne doivent pas avoir été sur-sélectionnés. Pour
être représentative de la pratique médicale de tous les jours, l'inclusion des patients
doit être basée sur des critères larges, peu sélectifs tels qu'utilisés en pratique pour
définir la maladie cible. L'essai est alors centré sur la pratique, avec comme but de
documenter l’utilisation du traitement telle qu'elle sera faite avec ce traitement. C'est
un essai pragmatique dont le but est de savoir si l'utilisation du traitement permettra
en pratique d'atteindre les objectifs thérapeutiques (Question 8).
22- IDENTIFIER LA STRUCTURE IMRAD (INTRODUCTION, MATÉRIEL ET METHODE, RESULTATS, DISCUSSION) ET S’ASSURER QUE LES DIVERS CHAPITRES DE LA STRUCTURE REPONDENT À LEURS OBJECTIFS RESPECTIFS
La base de l’article est la structure dit IMRAD : I : Introduction, M : Matériel et
Méthodes, R : Résultats, A : and, D : Discussion.
46
Introduction - Elle comprend en général 3 parties : (1) aspect général du sujet, (2)
aspect particulier du problème, (3) but du travail. Cette troisième partie est une
phrase clé ; elle pose une question qui doit appeler une réponse. Cette phrase peut
servir à bâtir le résumé.
Matériel et Méthodes - Cette section doit répondre aux questions suivantes : - quel
a été le matériel d’étude ? (sous le terme matériel peuvent être compris des
malades ; il faut s’assurer ici que le matériel est bien cohérent avec le but de l’étude),
- ce que l’on a cherché à évaluer, - les critères de jugement. Les méthodes d’étude
du matériel ou des malades doivent être adaptées à la question posée. Elles doivent
être cohérentes et pertinentes. Les méthodes statistiques utilisées devront être
appropriées prenant ainsi en compte - le type de variables étudiées, - les conditions
dans lesquelles les tests seront employés (risques alpha et bêta, et la différence
attendue pour calculer le nombres de sujets nécessaire), - en cas de comparaisons
multiples, la conservation du risque alpha fixé (cf Question 16).
Résultats - Ce chapitre doit tenir tous les résultats et rien que les résultats. Le texte
est complété de tableaux, qui contiennent des chiffres et de figures, qui sont de type
variés. Le lecteur doit être capable d’analyser la présentation, la précision, la lisibilité
des tableaux et des figures. Ceci doit être en cohérence avec le but du travail et les
méthodes utilisées. De même, le lecteur doit être capable de juger de l’objectivité ou
de la subjectivité des résultats. Ceci n’et pas toujours facile. La subjectivité se
rencontre lorsque la réponse à un critère fait entrer des variables liées à une
appréciation non quantifiable.
Discussion – Sa construction doit lui permettre de répondre à plusieurs objectifs :
(1) le premier objectif est de répondre à la question posée. La première phrase de la
discussion répond à la dernière phrase de l’introduction. C’est une phrase clé. Elle
peut servir à bâti le résumé; (2) le deuxième objectif est de juger la qualité et la
validité des résultats. L’auteur de l’article va relever des biais. D’autres biais peuvent
ne pas avoir été pris en compte, qu’il faut savoir détecter. La validité des résultats
doit être établie en fonction de leur signification statistique et clinique. Ils doivent
permettre de répondre à la question posée et de proposer une conclusion justifiée
par ces résultats ; (3) le troisième objectif est de comparer les résultats obtenus avec
ceux de la littérature.
23- F AIRE UNE ANALYSE CRITIQUE DE LA PRESENTATION DES REFERENCES
47
Les références bibliographiques correspondent aux travaux de la littérature qui
justifient l’étude et qui sont discutés à la lumière des résultats. Ces références
peuvent comporter des travaux des auteurs, ce qui indique qu’ils ont à priori une
connaissance et une expérience du sujet. Les références sont présentées selon un
mode propre au journal qui publie les travaux, mais de plus en plus une
uniformisation est utilisée ; Il arrive que l’appel des références soit erroné : erreurs de
transcription du libellé de la référence, erreurs dans la citation du contenu de la
référence. L’analyse critique de la présentation des résultats pourrait être aussi
effectuée à travers l’accessibilité de l’article : se méfier de références de thèses, à
des congrès, ou encore à des articles pour lequel il est noté « article soumis » ou
« article en cours de publication ou sous presse». Juger de la pertinence d’une
référence pourrait sinon se faire à travers le titre de l’article référencé ne pouvant pas
correspondre au thème étudié.
24- FAIRE UNE ANALYSE CRITIQUE DU TITRE
Le rôle du titre est d’annoncer le contenu de l’article. L’analyse critique du titre
doit porter sur le caractère informatif et la présence de mots clés. On ne peut en
juger qu’après avoir bien analysé l’article.
Comment rédiger un titre ? La rédaction du titre est difficile car elle doit allier une
concision extrême à un maximum de précision. Cette tâche est cependant simplifiée
par une souplesse dans l’application des règles de syntaxe. Le titre est en effet
construit comme une succession de mots clés dont l’ensemble n’est pas tenu de
constituer une phrase. Les mots du titre doivent souligner le contenu significatif de
l’article. Celui-ci inclut notamment le type de maladie, le type d’objectif, les
phénomènes étudiés et la population décrite en termes de lieu, de période et
d’individus. Le travail de synthèse fait lors de la rédaction du résumé doit donc être
poussé au point que chaque mot du titre apporte un maximum d’informations.
Deux règles facilitent l’atteinte de l’objectif du titre. Premièrement, les mots peuvent
être ordonnés de manière à mettre les plus informatifs en position forte. Les positions
fortes sont le début et, à moindre niveau, la fin du titre. La situation des mots les plus
informatifs en début des titres est cependant plus facile à faire en anglais qu’en
français. Deuxièmement, la rédaction du titre doit éviter l’utilisation d’éléments non
48
définis qui peuvent obscurcir le sens. Il faut notamment éviter l’utilisation
d’abréviations et de jargon. Certaines revues autorisent l’utilisation d’abréviations et
de termes supposés familiers pour l’ensemble de leurs lecteurs. Par exemple,
l’abréviation HIV (human immunodeficiency virus) est autorisée dans les titres du
Journal of Acquired Immune Deficiency Syndromes and Human Retrovirology, mais
pas dans ceux du New England Journal of Medicine. La mise en position forte des
mots les plus informatifs est facilitée par l’utilisation de sous-titres. Ces sous-titres
peuvent apparaître après un ou deux points placés après le titre principal, un tiret
cadratin ou avec une police de caractère différente, habituellement plus petite que
celle du titre principal. Cette dernière présentation implique que le sous-titre sera
moins perceptible que le titre principal. Un titre avec sous-titre, dans son ensemble,
sera en moyenne plus long qu’un titre unique. Certaines revues n’autorisent d’ailleurs
pas l’utilisation de sous-titres. En pratique, un titre doit être construit
progressivement. Un titre identifiant l’article peut être proposé aux phases initiales de
la rédaction mais, comme pour le résumé, le titre définitif ne doit être écrit qu’une fois
le corps terminé. Cette rédaction progressive peut se faire de la manière suivante :
1) écrire rapidement un titre « spontané », c'est-à-dire sans trop se soucier de
sa longueur, en y incluant les éléments significatifs du contenu définis ci-dessus.
2) analyser ce titre pour classer les mots, des plus informatifs aux moins
informatifs. Cette analyse peut se faire en soulignant différemment les mots
indispensables à la compréhension du champ de l’étude (notamment le type
d’individu et les phénomènes étudiés), les mots moins informatifs mais utiles (le type
d’étude et les caractéristiques précises de la population) et les mots vides
d’information (conjonction, articles…).
3) ordonner les mots informatifs pour les placer en début ou fin de titre et
essayer de supprimer les mots vides d’information.
49
II ANALYSE D’UN ARTICLE D’EVALUATION DIAGNOSTIQUE
II.1- SPECIFICITE D’UN ARTICLE D’EVALUATION DIAGNOSTIQUE
L’évaluation diagnostique désigne l’ensemble des travaux de recherche sur
les prédicteurs d’une maladie, qu’il s’agisse d’un examen « complémentaire »
(imagerie, biologie) ou d’un signe clinique. Afin d’examiner les critères
méthodologiques recherchés et l’analyse des résultats d’un article de procédure
diagnostique, on pourrait classer la population étudiée en deux groupes à l’aide de la
méthode de référence, les malades et les non malades et désigner le « test » comme
le prédicteur étudié. On supposera qu’un test positif ou élevé oriente vers la maladie.
II.2- METHODOLOGIE DE L’ETUDE
- Le test étudié est-il comparé à un test de référence fiable et validé, déterminé a
priori ?
L’évaluation de la validité d’un test se fait par comparaison avec un test diagnostique
de référence reconnu par tous. Il peut s’agir d’un examen anatomo-pathologique,
mais il peut aussi consister en un diagnostic clinique, un test biologique, un examen
radiologique… L’absence de test de référence nécessite de définir le diagnostic
recherché avec un faisceau d’arguments dont la validité doit avoir été évaluée.
- La méthode de sélection des patients est-elle décrite ?
Les caractéristiques des patients recrutés pour l’étude, les critères d’inclusion et
d’exclusion sont déterminants pour pouvoir juger la validité externe de l’étude, c'est-
à-dire la capacité d’utilisation des résultats en pratique quotidienne auprès d’une
population peu sélectionnée.
- La fréquence de la maladie dans l’échantillon étudié correspond-elle aux données
épidémiologiques connues ?
50
Cette donnée permet également de juger la validité externe de l’étude.
- Le terme « normal » est-il défini ?
La maladie doit être clairement définie par le test de référence et par opposition la
normalité. L’attribution d’un diagnostic est en fait effectuée à partir d’un seuil à
déterminer (c’est le cas pour la valeur de marqueurs) au-delà duquel la maladie est
présente avec une probabilité connue et acceptée.
- La méthodologie du test diagnostique est-elle décrite pour pouvoir être reproduite ?
Doivent être décrites la préparation du patient, la réalisation du patient, l’analyse et
l’interprétation des résultats.
- La reproductibilité (fiabilité) du test est-elle analysée?
Le même test appliqué plusieurs fois à la même personne donne-t-il des résultats
similaires ?
- La variabilité inter ou intra-observateur est-elle calculée ?
Les résultats d’un test revu par 2 ou plusieurs personnes différentes ou par la même
personne à plusieurs reprises présentent-ils des variations d’interprétation
(coefficient kappa, coefficient intra-classe).
- Biais dans les études d’évaluations diagnostiques ?
Si le test est réalisé en connaissance des antécédents et de l’histoire clinique du
sujet, un biais pourra survenir dans l’interprétation des résultats du test [plus
facilement positif en cas d’antécédents (« biais du voyant »)]. Il est également
important de vérifier que le résultat du test n’a pas modifié la conduite diagnostique
au cours de l’évaluation. Dans le cas contraire, un biais peut survenir si le processus
qui aboutit à définir les malades et les non malades n’est pas strictement identique
chez les sujets dont le test est positif et chez ceux dont le test est négatif (workup
bias – « biais d’exécution »). Un autre biais concerne la population étudiée : les
résultats obtenus dépendent des caractéristiques de la population étudiée et ne sont
pas forcément transposables à une autre population (spectrum bias). Ce biais est lié
à un déplacement des distributions du prédicteur étudiée chez les malades et les non
malades (globalement, la moyenne des tensions artérielles dans une autre
51
population augmente chez les malades et chez les non malades) : il entraîne une
modification des performances du test (y compris des sensibilités et spécificités).
II.3- ANALYSE DES RESULTATS
Dans la pratique, de nombreux tests diagnostiques aboutissent à un résultat
exprimé sous forme discrète de type « présence vs absence », « normal vs
anormal », « positif vs négatif ». La manière la plus simple de représenter les
résultats consiste à dresser le tableau à quatre cases (cf. Tableau 1 ci dessous).
Dans cet échantillon, la fréquence de la maladie (encore appelée prévalence, notée
P) est donnée par P = (a + c) / (a + b + c + d).
Tableau 1- Evaluation d’un test diagnostique
Malades(a + c)
Non malades(b + d)
Test positif (a + b)
Vrais positifs (a) Faux positifs (b)
Test négatif(c + d)
Faux négatifs (c) Vrais négatifs (d)
Les critères les plus utilisés pour l’évaluation d’un test en « tout ou rien » sont listés
dans le tableau 2 ci-dessous.
* La sensibilité est la fréquence avec laquelle le test est positif chez les sujets malades.* La spécificité est la fréquence avec laquelle le test est négatif chez les non-malades.* L’efficacité diagnostique correspond au pourcentage de bien classés par le test. Ces valeurs s’expriment avec un intervalle de confiance.
* Les valeurs prédictives expriment comment les résultats d’un examen
diagnostique vont prédire la présence ou l’absence d’une maladie ; VPP et VPN
dépendent de la sensibilité, de la spécificité et de la prévalence de la maladie.
* L’étude des courbes ROC (Receiver Operating Characteristic curves) permet
d’argumenter le choix du seuil diagnostique d’un test en recherchant le meilleur
rapport entre sensitbilité et spécificité de ce test. La sensibilité et la spécificité varient
52
souvent en sens inverse ; un bon test est à la fois sensible et spécifique : sur la
courbe ROC, l’aire sous la courbedoit être supérieur ou égale à 0,70.
* Le rapport de vraisemblance (likehood ratio = LR)
Le LR permet de quantifier la vraisemblance d’un diagnostic fourni par un test positif,
ce qui conditionne l’utilité du test. Il correspond au rapport de la probabilité qu’un test
positif corresponde réellement à une maladie par rapport à la probabilité qu’un test
positif ne corresponde pas à la présence de la maladie.
- LR d’un test positif = (vrais positifs / malades) / (faux positifs / non-malades)
= sensibilité / (1 – spécificité)
Avant de pratiquer le test diagnostique étudié, un patient a une probabilité p0 d’avoir
la maladie. Après le test, cette probabilité sera différente p1. Le LR d’un test positif
permet de calculer cette probabilité p1 à partir de la connaissance de la probabilité
avant le test. La probabilité pré-test (p0) ou prévalence correspond ainsi à la
proportion de patients malades au sein de la population générale ([a+c] / [a+b+c+d]).
C’est la probabilité de la maladie avant le test diagnostique. La probabilité post-test
p1, c’est la probabilité pré-test combinée avec le LR du test positif (il ne s’agit pas
d’une multiplication directe). On peut l’obtenir facilement en utilisant le normogramme
de Fagan. Si le LR est égal à 1, la probabilité du diagnostic est la même avant et
après le test. Le test paraît donc peu utile. Plus les valeurs du LR s’éloignent de 1 et
plus le test présentera de l’intérêt. Les valeurs de LR pour un test positif qui sont
supérieures à 1 montrent une augmentation de la confiance dans le diagnostic
(augmente la probabilité prétest de la maladie), alors que les valeurs inférieures à 1
reflètent une infirmation du diagnostic (diminue la probabilité prétest de la maladie).
Le LR présente trois avantages importants :
1) il ne change pas avec la prévalence de la maladie. Il est un bon reflet de la
valeur du test quel que soit le groupe de population auquel celui-ci est appliqué ;
2) il est utilisable pour plusieurs niveaux de résultats d’un test. Pour chaque
niveau, il procure une information différente qui permet d’interpréter au mieux les
résultats du test ;
3) il permet de calculer de manière individuelle l’intérêt de réaliser le test à
partir de la probabilité initiale de maladie du patient.
- Les résultats sont analysés en aveugle quand c’est possible.
53
Par exemple, y a-t-il comparaison en aveugle du test étudié et du test de référence
ou lecture en aveugle d’un examen d’imagerie par une radiologue n’ayant pas réalisé
l’examen et/ou ne connaissant pas le diagnostic.
II.4- APPLICATION CLINIQUE DU TEST
Le test doit pouvoir apporter un information utilise pour la décision diagnostique et
thérapeutique du médecin. Par ailleurs, il doit pouvoir résulter du diagnostic ainsi réalisé et
de ses conséquences une amélioration de l’état de santé des individus (utilité pour le
patient). Ces utilités sont recherchées par des études complémentaires, postérieures aux
études étudiant fiabilité et validité, comparatives des deux stratégies diagnostiques incluant
ou non le test.
Tableau 2- Critères les plus utilisés pour l’évaluation d’un test diagnostique[ P = prévalence = (a + c) / (a + b + c + d)]
Critères Signification Formule
Sensibilité Se Proportion de tests positifs chez les malades
a / (a + c)*
Spécificité Sp Proportion de tests négatifs chez les non malades
d / (b + d)
Valeur prédictive positive
VPP Probabilité que le sujet soit malade si le test est positif
a / (a + b)ou (Se P) / (Se P+(1-P) (1-Sp))
Valeur prédictive négative
VPN Probabilité que le sujet ne soit pas malade si le test est négatif
d / (c + d)ou(Sp (1-P)) / (Sp (1-P) + (1-Se) P)
Précision ou efficacité diagnostique
Prec Proportion de tests dont le résultat est correct
(a + d)/(a + b + c + d) ouSe P + Sp (1-P)
Rapport de vraisemblance positif
RVP Rapport de la proportion de tests positifs chez les malades sur la proportion de tests positifs chez les non malades
a (b + d) / d (a + c)ouSe / (1 – Sp)
54
Rapport de vraisemblance négatif
RVN Rapport de la proportion de tests négatifs chez les non malades sur la proportion de tests négatifs chez les malades
b (a + c) / b (b + d)ouSp / (1 – Se)
Ces valeurs s’expriment avec un intervalle de confiance.
GRILLE DE LECTURE D’UN ARTICLE DIAGNOSTIQUE
Titre et auteur de l’article : Rev/Année/Vol/Pages :
Thème de l’article :
OUI NON ?
1. Les objectifs sont clairement définis q q q
2. Méthodologie
* le test étudié est comparé à un test de référence
fiable et valide, déterminé a priori
* la méthode de sélection des patients est décrite
* la fréquence de la maladie dans l’échantillon
étudié correspond aux données épidémiologiques
connues
* le terme « normal » est défini
q
q
q
q
q
q
3. Analyse des résultats
* les résultats sont analysés en aveugle quand
c’est possible
* les caractéristiques diagnostiques du test sont
calculées ou calculables (sensibilité, spécificité)
q
q
q
q
q
q
4. L’utilité clinique du test est recherchée q q q
Commentaires :
55
III ANALYSE D’UN ARTICLE DE PRONOSTIC- ANALYSE DE COHORTE
Pour fournir des éléments de réponse à une question pronostique, les articles
à analyser sont habituellement soit des études contrôlées randomisées (cf. analyse
d’un article thérapeutique) soit une étude de cohorte. Dans ce dernier cas, l’attention
lors de la lecture d’un article sur les facteurs pronostiques d’une affection doit être
portée sur les aspects suivants.
III.1- DEFINITION DE LA COHORTE
Une étude de cohorte consiste à suivre, pendant un temps donné (étude
longitudinale prospective), 2 groupes de patients, un groupe de patients exposés
(par exemple à un médicament) et un groupe témoin non exposé, et de recherche
systématiquement l’événement-cible (par exemple un effet indésirable). On peut
comparer l’incidence (R1) de l’événement-cible dans le groupe exposé à l’incidence
(R0) du groupe témoin. On calcule ainsi le risque relatif. Plus d’incidence R1 est
élevée par rapport à R0, plus le risque relatif est >1.
Le nombre nécessaire de patients pour constituer une cohorte est généralement
très important. La taille de l’échantillon dépend de la fréquence attendue de l’effet
indésirable dans le groupe témoin (« bruit de fond ») et de l’augmentation du risque
dans le groupe exposé au traitement.
ETUDE DE COHORTE
On constitue
2 groupes :
Evénement -
cible
Pas
d’événement
Incidence de
l’événement
cible
Risque Relatif(RR)
Exposé (facteur
causal présumé)
a b R1 = a/a+bR1 / R0 =
a (c+d) / c (a+b)
Non exposé c d R0 = c/c+d
56
Le risque relatif est toujours encadré par un intervalle de confiance à 95%.
EXEMPLE : étude de cohorte comparant l’incidence du mésothéliome parmi les
sujets exposés à l’amiante et parmi les sujets non exposés. Etude de l’incidence des
hémorragies digestives chez des patients prenant des anti-inflammatoires non
stéroïdiens par rapport à un groupe témoin.
III.2- METHODOLOGIE
- Les modalités de constitution de la cohorte sont-elles précisées ?
On distingue les études de cohorte prospectives et les études de cohorte historiques,
rétrospectives. L’exposition de référence est précisée.
L’un des biais classiques d’une étude de cohorte consiste à définir cette cohorte
rétrospectivement à partir du suivi d’une autre cohorte utilisée pour une autre étude.
- Tous les patients ont-ils été identifiés au même stade de la maladie ?
* il faut s’assurer que la définition des stades de la maladie est unanime. Par
exemple, lors de la conférence de consensus sur le suivi des patients ayant un
mélanome de stade I opéré, les experts ont remis en cause la définition du stade I du
mélanome. Comment, dès lors, intégrer les mêmes patients dans une cohorte
multicentrique ou comparer des études différentes s’il n’y a pas d’accord sur la
définition ou le début du suivi ?
* pour juger de l’évolution de la maladie, il est essentiel que tous les patients
soient le plus similaires possibles, au départ de la cohorte pour le stade de la
maladie ;
* le début du suivi doit être le même pour tous les patients de la cohorte.
- Les critères d’inclusion et d’exclusion sont-ils spécifiés et adéquats ?
La définition de la population étudiée est une connaissance nécessaire à
l’appréciation du pronostic : moment de l’inclusion dans le cours de la maladie,
critères diagnostiques, critères de sévérité, caractéristiques démographiques.
Souvent, il s’agit de sous-groupes sélectionnés du fait du recrutement propre des
57
expérimentateurs. Par exemple, l’évolution des infections urinaires sera fort
différente si l’étude est faite dans un service d’urologie ou en ambulatoire.
- Les biais possibles sont-ils pris en compte ?
L’analyse des biais est un temps essentiel qui, comme pour les études sur la
causalité, permet de s’assurer des effets propres de tel ou tel facteur pronostique :
biais de recrutement (effet centre), biais de sélection, biais temporel.
- Le suivi est-il complet et correctement réalisé ?
La durée du suivi est précisée : elle est suffisamment longue compte tenu de
l’évolution naturelle de la maladie. Tous les patients sont pris en compte. Beaucoup
d’études annoncent une série importante de patients (souvent constituée a
posteriori) avec des résultats sur une fraction minime d’entre eux. L’interrogation
constante concerne les données manquantes : « qu’est-il advenu de ces
patients ? ». Un taux au-delà de 10 % à 15 % de perdus de vue devient préjudiciable
à l’interprétation des résultats d’une étude ; ce taux est à interpréter en fonction de la
question.
- Les critères de jugement objectifs de l’évolution sont-ils pertinents, fiables et valides
et tous utilisés ?
Les critères de jugement doivent pouvoir répondre à l’objectif de l’étude. Ils doivent
être pertinents. Seul un clinicien du domaine est en mesure de l’apprécier,
cependant les paramètres constants seront la survie, la mortalité, la récidive, etc.
III.3- RESULTATS
- L’interprétation de ces critères est-elle objective ?
Elle tient compte de la comparabilité des groupes et de la durée du suivi de chaque
individu. Pour la survie, l’analyse se fait préférentiellement selon les méthodes
actuarielles (modèle de Cox, méthode de Kaplan-Meier). La mortalité doit être
appréciée de façon brute et après ajustements sur des facteurs généraux tels que
l’âge, le sexe, et d’autres déterminants propres à la pathologie étudiée.
58
- Les résultats sont-ils ajustés sur les autres facteurs pronostiques ?
Une relation peut être mis en évidence entre le pronostic et le facteur étudié. Il est
important d’analyser cette relation avec la prise en compte des autres facteurs
(maladies associées, âge de début de la maladie, etc.), en particulier lors d’une
analyse multivariée qui permet de relativiser l’importance des facteurs les uns par
rapport aux autres.
GRILLE DE LECTURE D’UN ARTICLE DE PRONOSTIC(ANALYSE DE COHORTE)
Titre et auteur de l’article :Rev/Année/Vol/Pages :
Thème de l’article :
OUI NON ?
1. Les objectifs de l’étude sont clairement définis q q q
2. Méthodologie
* les modalités de constitution de la cohorte sont
précisées
* tous les patients de la cohorte ont été identifiés
au même stade de la maladie
* les critères d’inclusion et d’exclusion sont
spécifiés et adéquats
* les biais possibles sont exposés et les méthodes
pour les prendre en compte sont décrites
* le suivi est complet et correctement réalisé
* les critères de jugement sont pertinents, fiables et
tous utilisés
3. Les résultats
* l’interprétation de ces critères est objective
* les résultats sont ajustés pour les autres facteurs
pronostiques
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
59
IV ANALYSE D’UN ARTICLE CAS-TEMOINS
Les enquêtes d’observation, rassemblent principalement les enquêtes de
cohortes et les enquêtes cas-témoins, qui comportent des groupes de comparaison
non randomisés. Les études cas-témoins ont pour principe de comparer la fréquence
d’exposition chez des sujets ayant présenté l’événement à la fréquence
correspondante chez des sujets n’ayant pas réalisé l’événement, pris comme
témoins. Seules, ces dernières seront indiquées si la survenue de l’évènement est
très rare et/ou retardée. Ces études devraient être utilisées comme alternative à
l’essai randomisé, lorsque l’attribution par tirage au sort n’est pas réalisable (pour
des raisons éthiques notamment). Elles sont donc réservées à la recherche de
facteurs de risque, étiologiques, d’une maladie. Elles sont particulièrement
intéressantes pour les maladies rares.
IV.1- DEFINITION DES TEMOINS
Une étude cas-témoins consiste à former un groupe de patients présentant
l’évènement- cible (cas), à former un groupe témoin indemne et à rechercher
systématiquement dans ces 2 groupes l’exposition au facteur causal (médicament,
toxique…) incriminé.
Structure d’une étude cas-témoins
ETUDE CAS – TEMOIN
On constitue :
2 groupes :
Cas :
Evènement-cible
Témoin :
pas d’événement
Proportion Odds ratio
(OR)
Exposé (facteur
causal présumé)
a b a / b
OR = ad / bc
non exposé c d c / d
60
On ne peut pas calculer d’incidence de l’effet indésirable puisque l’on ne part pas de
la population exposée, l’investigateur fixant au départ le nombre de cas et le nombre
des témoins. Mais on peut approcher le risque relatif par l’odds ratio (OR) (cf.
tableau – Structure d’une étude cas-témoins)
Mais il s’agit d’une étude habituellement rétrospective avec 2 grandes difficultés liées
à la présence de facteurs de confusion :
1. la constitution du groupe témoin. Elle se fait par appariement avec le groupe
« cas » en prenant en comte des données démographiques et médicales, mais il se
peut que les 2 groupes diffèrent par des facteurs connus ou inconnus ;
2. la nécessité d’une grande qualité de recueil de l’information. Les données sont
recueillis à partir des dossiers médicaux ou en interrogeant les patients.
Une étude cas-témoin ne permet pas de conclure formellement que l’exposition
significative à un facteur X est le facteur causal de la maladie étudiée.
IV.2- METHODOLOGIE
- Les populations prises en compte sont-elles bien définies ?
Les caractéristiques (âge, sexe…) de la population doivent être connues, en
particulier si les facteurs de risque et l’événement-cible étudiés peuvent être liés à
ces caractéristiques. L’analyse statistique devra alors pendre en compte ces
caractéristiques comme facteurs de confusion possible expliquant l’association
facteur de risque – événement – cible.
- Les groupes sont-ils homogènes ?
Dans une étude cas-témoin, les variables d’appariement doivent être décrites. (cf.
METHODES STATISTIQUES)
- Les facteurs de risque sont-ils bien définis ? L’exposition et les événements-cibles
ont-ils été mesurés de la même manière dans les 2 groupes faisant l’objet de la
comparaison ?
Au cours des études cas-témoin, il peut exister un biais de surveillance quant à la
recherche de l’exposition au facteur causal incriminé. Ce biais survient quand les
investigateurs avertis du risque potentiel pourraient avoir tendance à rechercher plus
61
attentivement la présence de l’événement-cible dans les groupes exposés, ce qui
peut aboutir à une surestimation du risque.
- Quelle est la précision de l’estimation du risque ?
Le risque relatif est toujours encadré par un intervalle de confiance. Si l’intervalle de
confiance n’englobe pas la valeur (par exemple un RR ou OR = 4,5 avec un IC95 =
2,8 – 6,4), l’incidence de l’événement-cible dans le groupe exposé est considérée
comme significativement supérieure à celle du groupe témoin, et on conclut que le
facteur présumé est un facteur de risque pour l’événement-cible considéré. La limite
inférieure de l’estimation du RR ou OR de survenue de l’événement-cible constitue
une estimation minimale de la force de l’association. Dans une étude où l’on ne peut
établir de relation statistiquement significative entre un facteur et un événement-
cible, la limite supérieure de l’IC indique néanmoins l’importance possible d’un
événement-cible.
62
V MODALITES DE REDACTION DU RESUME
V.1- INTRODUCTION
Le rôle du titre est d’annoncer le contenu de l’article alors que celui du résumé
est d’informer de manière abrégée sur le contenu de l’article. Le titre et le résumé
sont, par ailleurs, la partie de l’article la plus lue. En effet, ils sont distribués sur les
bases bibliographiques informatisées, accessibles au niveau du monde entier. Ils
doivent donner envie à la personne qui lit le résumé, de lire l’ensemble de l’article.
V.2- REGLES DE REDACTION DU RESUMÉ STRUCTURE
La plupart des revues proposent des résumés informatifs (c'est-à-dire
comprendre l’essentiel de l’article) et structurés dans lesquels une série de mots clés
indiquent au lecteur où trouver les informations importantes résumant l’étude. La
construction des résumés structurés repose ainsi sur des règles de rédaction
similaires à celles du corps de l’article ou du rapport. La principale similitude est
l’utilisation de la structure IMRD (I pour introduction, M pour méthode, R pour résultat
et D pour conclusion - discussion). Cette structuration permet au lecteur de répondre
respectivement aux 4 questions suivantes :
* quelle est la question posée ?
* comment a-t-elle été étudiée ?
* quels résultats ont été trouvés ?
* quelle interprétation et quel sens ont donné les auteurs à ces résultats ?
- Contenu du résumé
Le résumé ne doit pas dépasser 250 mots. Chaque élément de cette structure,
cependant, ne sera exposé que de manière abrégée. Ainsi, l’introduction est limitée à
l’énoncé de l’objectif principal, parfois précédé d’une phrase de description du
contexte. Le chapitre Introduction comporte 1 phrase, parfois 2. L’énoncé des
méthodes est limité à la description succincte du schéma d’étude (étude randomisée,
prospective /rétrospective, multicentrique /monocentrique, en double aveugle
/ouverte,…), du type de la population étudiée (nombre de patients, principaux
63
critères d’inclusion, critère de jugement principal), et des mesures nécessaires à la
réponse à la question principale. Cette partie Méthodes est éventuellement
complétée par une description des méthodes statistiques. Le chapitre Méthodes
comporte 3 phrases, parfois 4. L’énoncé des résultats est aussi limité aux principaux
résultats. Il comporte 3 à 4 phrases. La discussion n’est pas obligatoire et est
habituellement incluse dans la dernière phrase de la conclusion.
- Autres règles de rédaction
Les autres règles de rédaction du résumé, s’appuient sur la précision, la rigueur, la
clarté, la fluidité et la concision. La nécessité de limiter la taille du résumé (chaque
mot des 250 mots maximum compte) implique néanmoins que concision et précision
deviennent particulièrement importantes. La concision maximale est atteinte en
limitant chaque section de la structure IMRD aux éléments importants et en en
fournissant aucun détail. Le résumé se limite à énoncer des faits concernant les
messages importants que le lecteur doit retenir. Le lecteur intéressé trouvera les
détails dans le reste de l’article ou du rapport. L’absence de détails, cependant, ne
doit pas être synonyme de manque de précision. Notamment, l’énoncé du type de
population doit comporter des critères d’inclusion mais se limiter aux principaux
critères. Les résultats doivent aussi être précisément énoncés et quantifiés.
Quelques règles supplémentaires peuvent faciliter la rédaction d’un résumé concis,
précis et clair. Premièrement, le résumé ne doit être rédigé qu’une fois la lecture de
l’article est finie. Il doit y avoir une parfaite concordance entre le contenu du résumé
et celui de l’article : tout ce qui est énoncé dans le résumé doit être retrouvé dans le
corps de l’article et doit être exprimé de la même manière (mêmes définitions,
mêmes données…). Doivent être évités les éléments susceptibles de nuire à sa
clarté. Ainsi, l’utilisation d’abréviations doit être limitée ; si une abréviation permet de
simplifier l’énoncé d’expressions longues plusieurs fois répétées dans le résumé (par
exemple, IDM pour infarctus du myocarde), elle doit être définie selon les règles
énoncées. Cependant, un certain nombre d’abréviations est autorisé et ne nécessite
pas qu’elles soient énoncées, comme par exemple VIH ou IEC (voir ANNEXE 2). Le
résumé ne doit inclure ni référence, ni tableau ou figure. L’absence de référence
correspond à l’obligation de limiter le contenu du résumé aux éléments directement
liés à l’étude. Cela implique aussi l’utilisation exclusive du passé (imparfait ou passé
composé) pour les verbes du résumé.
64
- Quelques astuces….
Certaines astuces peuvent permettre déjà de déceler dans le texte de l’article où se
trouvent les idées directrices. Dans le chapitre « Introduction » de l’article, le dernier
paragraphe ou la dernière phrase comportent souvent le but de l’étude et/ou le
résultat principal de l’étude. Dans le chapitre « Discussion » de l’article, le premier
paragraphe comporte généralement les résultats principaux de l’étude. De plus, la
dernière phrase ou le dernier paragraphe de la discussion comporte le résumé de la
discussion et le résumé final de l’article. Il faut donc repérer durant la lecture de
l’article les mots et phrases clés à intégrer au résumé.
- Les erreurs les plus communément commises
Première erreur : les résultats affichés dans le résumé sont différents de ceux du
texte. Ceci est une grave erreur. Les résultats présentés doivent être exactement
identiques à ceux qui existent dans le texte.
Deuxième erreur : le résumé est considéré comme une partie annexe ou accessoire
d’un article. Une fois encore, il doit vraiment concentrer les idées fortes de l’article.
65
VI METHODES STATISTIQUES
VI.1- INTRODUCTION
Dans les objectifs pédagogiques de l’épreuve de lecture critique d’un article médical
scientifique, plusieurs objectifs se rapportent à la méthodologie statistique :
analyser la technique de randomisation,
vérifier que les analyses statistiques sont cohérentes avec le projet de travail
et discuter leur interprétation,
vérifier la présentation des indices de dispersion des données numériques et
celles de l’imprécision des estimations,
discuter la signification statistique des résultats.
Le présent chapitre se propose de répondre à ces objectifs, en abordant :
1- le plan habituel de la section statistique du paragraphe « méthodes » d’un article original,
2- les questions principales à se poser pour critiquer les méthodes statistiques utilisées et l’interprétation qui en est faite.
VI.2- PLAN HABITUEL DE LA SECTION « METHODOLOGIE STATISTIQUE » D’UN ARTICLE SCIENTIFIQUE
1- Introduction :
La partie de méthodologie statistique d’un article original, est habituellement
individualisée au sein de la section « méthodes »
Cette partie est située à la fin d’une section « méthodes » la plus complète,
comportant en particulier des précisions sur la variable dépendante (critère de
jugement principal), et les autres paramètres mesurés. Elle ne se conçoit
également qu’après des détails sur le recueil des données et éventuellement
sur leur circuit (contrôle, saisie).
66
Le paragraphe « nombre de sujets nécessaires » peut être intégré dans cette
partie, mais peut être également séparé.
L’analyse statistique doit être planifiée a priori, ce qui est évidemment difficile
à juger au stade de la rédaction du papier. Cependant, l’apparition d’analyses
en sous-groupes (ex analyse des résultats d’un traitement par groupes d’âge
ou par sexe) dans les résultats doit rendre le lecteur prudent.
2- Le plan général habituel de la section « méthodologie statistique »:
Le plan est habituellement toujours articulé de la même façon : il va permettre
ainsi d’avoir plusieurs renseignements sur la façon dont l’analyse statistique a
été menée : les modalités de l’analyse statistique descriptive, les modalités de
traitement des non réponses ou des valeurs manquantes, les tests statistiques
utilisés pour comparer les résultats portant sur le critère principal et les
critères secondaires (ex : test du Chi-2, test ANOVA …), les éventuelles prises
en compte de co-variables par des techniques statistiques spécifiques
(analyse de régression logistique par exemple), le seuil de significativité
retenu ou le type unilatéral ou bilatéral des tests utilisés…
2-1 Modalités d’analyses descriptives de l’échantillon :
les auteurs doivent préciser comment sont exprimés les résultats descriptifs
des variables qualitatives (sous forme de pourcentages habituellement), ou
des variables quantitatives (habituellement sous forme de moyennes ±
écart type).
Pour les variables quantitatives, d’autres paramètres peuvent être également
donnés comme les médianes ou les extrêmes (souvent important pour se
rendre compte de l’homogénéité de la population). L’écart type est encore
appelé déviation standard (standard deviation en anglais).
Parfois, d’autres mesures de dispersion sont utilisées comme l’erreur
standard (ou standard error en anglais), qui est en fait l’écart type de la
moyenne et qui est calculé par l’écart type divisé par la racine carrée de
l’effectif. Il est alors facile de comprendre que cette erreur standard est
toujours plus faible que l’écart type, ce qui parfois peut donner aux lecteurs
une impression fausse de précision importante des résultats de l’étude, alors
qu’il s’agit simplement d’une astuce de présentation. Ceci peut être vrai pour
67
les chiffres donnés dans l’article, mais également pour les représentations
graphiques. Il est donc de bonnes pratiques que les auteurs aient précisé
s’ils ont exprimé leurs résultats sous la forme de moyenne ± écart type ou
sous la forme de moyenne ± erreur standard.
2-2 Modalités de traitement des non réponses, ou des valeurs manquantes en
général :
Dans certaines études, les valeurs manquantes peuvent être nombreuses
pour différentes raisons : perdus de vue, absence de réponse, erreur de
saisie. Les auteurs doivent donner une idée de l’ampleur de ces valeurs
manquantes et de ce qui a été fait pour les traiter ou non dans les analyses.
2-3 Analyse du critère principal de jugement :
Le test statistique utilisé pour comparer les résultats obtenus entre les
différents groupes analysés sur le critère principal doit être précisé et justifié.
Un seul type de test doit avoir été réalisé à ce niveau. Ce test doit être adapté
à la question posée (voir plus loin). Dans cette partie de méthodologie
statistique, seul le test est précisé, mais il est bien évident que dans la partie
« résultats » de l’article, tout test statistique
doit s’accompagner des valeurs qui ont été comparées (ex : 125 ± 14 mm Hg
versus 137 ± 18 mm Hg ; p=0, 09). Un « p » sans les valeurs qui ont été
comparées n’a aucune signification et ne peut être réellement interprété.
2-4 Analyse des critères secondaires :
Les autres critères de jugement doivent être également comparés et les tests
statistiques adaptés doivent être précisés.
2-5 Prise en compte d’éventuelles co-variables :
L’influence de co-variables sur le critère principal de jugement peut être
recherchée, soit co-variable par co-variable (analyse dite univariée), soit de
façon multivariée. Le type d’analyse multivariée, la plupart du temps par des
méthodes d’analyse dite de régression logistique, doit être alors précisé, ainsi
que la procédure réalisée : sélection des variables incluses dans le modèle
initial puis sélection progressive des variables pour aboutir au modèle final. Ce
68
type d’analyse est utilisé en particulier dans les études épidémiologiques et
dans les études pronostiques.
2-6 Autres analyses :
Les auteurs peuvent présenter à la fin de cette partie de méthodologie
statistique, d’autres types d’analyses réalisées comme des analyses de
concordance entre plusieurs observateurs par exemple…
2-7 Seuil de significativité choisi :
Les auteurs doivent préciser le seuil de significativité qui a été choisi pour
l’ensemble des analyses statistiques (habituellement seuil à 0,05 c’est-à-dire
que les auteurs se laissent 5% de risque d’erreur de conclure à une différence
statistiquement significative alors qu’elle n’existe pas réellement) : Ce seuil
peut toutefois être amené à 0,10 pour certains résultats d’analyse multivariée
(méthodes de régression logistique, modèle de Cox) et parfois l’inclusion des
variables dans le modèle initial d’une analyse multivariée peut être faite
jusqu’à un seuil de 0,25.
2-8 Tests unilatéraux (One Tailed Test) ou bilatéraux (Two Tailed Test) :
Les tests bilatéraux s’intéressent aux différences entre les deux groupes d’un
côté ou de l’autre, c’est-à-dire si un des deux groupes, peu importe lequel, est
supérieur à l’autre, alors que les tests unilatéraux s’intéressent à un seul côté
de la différence, c’est-à-dire un groupe spécifique supérieur à l’autre groupe :
Par exemple, les auteurs qui testent un nouveau médicament veulent
absolument montrer que celui-ci est supérieur au traitement de référence
utilisé habituellement. Ainsi, les auteurs, s’ils ont utilisé des tests unilatéraux
doivent expliquer pourquoi et donner clairement l’hypothèse statistique testée,
à savoir quel groupe était considéré supérieur à l’autre. Des tests unilatéraux
n’ont aucune puissance statistique de montrer l’inverse.
2-9 Analyses intermédiaires :
Ce paragraphe doit également préciser si une seule analyse statistique du
critère principal de jugement a été réalisée pour l’ensemble de l’étude (à la fin
de l’étude) ou si des analyses intermédiaires ( pendant le déroulement de
69
l’étude) ont été prévues dès le début du protocole (ex. des essais
thérapeutiques). Auquel cas, un ajustement du seuil de significativité doit avoir
été prévu et notamment dès le calcul du nombre de sujets nécessaires, afin
de ne pas dépasser un risque d’erreur global de l’analyse statistique sur
l’ensemble de l’étude de 5%.
2-10 conditions d’application des tests statistiques utilisés :
Les conditions d’application des tests doivent avoir été vérifiées et donc cela
doit être précisé : exemple : la normalité ou non de distribution des variables
qui amène à choisir des tests dits paramétriques ou non paramétriques. Ainsi
lorsque les analyses sont complexes, les auteurs doivent détailler dans leur
article les méthodes qu’ils ont mises en oeuvre pour vérifier les hypothèses
sous jacentes aux tests réalisés.
VI.3- ELEMENTS PRINCIPAUX DE LA LECTURE CRITIQUE STATISTIQQUE
1 Randomisation :
La seule manière de rendre comparable deux groupes est de randomiser,
c’est-à-dire de tirer au sort quels sujets seront dans un groupe et quels sujets
seront dans l’autre groupe. Toute autre méthode risque de mener à des biais
lors de comparaisons de résultats.
Les techniques de randomisation sont multiples. Il existe des randomisations
simples, des randomisations stratifiées sur certaines variables (ex : sexe,
âge), des randomisations stratifiées par centre dans les essais
multicentriques.
La randomisation fait appel à des tables de nombres au hasard.La
randomisation classique est équilibrée par blocs de taille variable, c’est-à-dire
s’assure que les différents groupes auront un effectif identique à des moments
précis au fur et à mesure des inclusions.
Même en cas de randomisation satisfaisante, les auteurs doivent donner un
tableau montrant les caractéristiques de base des groupes étudiés. Ce
tableau (généralement le 1er tableau de l’article) doit montrer que les groupes
sont similaires en terme d’âge, de sexe par exemple, ou des variables
pronostiques importantes. Il n’y a pas lieu de réaliser des tests statistiques à
70
ce niveau, si la randomisation a été correctement réalisée. Toutefois, si
d’importantes différences sont retrouvées à ce stade, même dues au hasard,
cela peut poser un problème d’interprétation dans les résultats. Il faut donc
alors voir si les auteurs ont pris en compte ces différences et ont par exemple
réalisé des ajustements dans les analyses statistiques ultérieures.
2 Nombre de sujets nécessaires :
Le calcul du nombre de sujets nécessaires est un critère majeur de la
qualité scientifique d’un article. En effet, si ce calcul n’a pas été fait ou est
erroné, cela signifie que les résultats obtenus dans l’étude n’ont aucune
valeur. Inversement, intégrer un nombre de sujets supérieur a ce qui était
nécessaire pour voir une différence de résultat entre deux traitements par
exemple est à la fois inutilement coûteux, long et non éthique.
Le calcul de la taille de l’échantillon prend en compte plusieurs éléments. Ce
calcul doit se faire a priori, au moment de la planification de l’étude et doit être
adapté à la question posée. Habituellement, il est placé dans la section
« méthodes », avant la description de l’analyse statistique. Par exemple, dans
le cadre d’un essai thérapeutique, l’effet considéré comme cliniquement
significatif est indiqué en premier (exemple : la différence attendu entre deux
antihypertenseurs est une baisse de 5 mm Hg de la pression artérielle
systolique en faveur du nouveau traitement), suivi des niveaux de risque
statistique que les auteurs se sont fixés (généralement 5% pour le risque α de
1ère espèce et 10 à 20% pour le risque β dit de 2ème espèce). Le caractère
unilatéral ou bilatéral du test influe également sur ce nombre de sujets. Enfin,
des données concernant la variabilité des phénomènes mesurés peuvent être
indiqués avec les résultats du calcul du nombre de sujets nécessaires. (Nota :
Le calcul du nombre de sujets nécessaires dans le cadre d’une étude
épidémiologique a été précisé dans les cours correspondants).
Parfois, le calcul de la taille des échantillons n’a pas pu être fait a priori car il
n’existait aucune référence dans la littérature permettant de définir la
différence attendue ou la variabilité des phénomènes mesurés (cas d’une
première étude sur le sujet). Ce point doit donc apparaître clairement dans la
section « méthodes » et la partie « discussion » de l’article doit évoquer cette
limite et ses conséquences éventuelles.
71
3 Les tests statistiques étaient-ils appropriés ? (cf. tableau ci-dessous)
S’il s’agit de comparer des pourcentages dans deux groupes de sujets (deux
variables qualitatives), le test approprié est un chi2.
S’il s’agit de comparer une variable quantitative, c’est-à-dire deux moyennes
entre deux groupes (le groupe étant une variable qualitative), le test approprié
est un test « t » de student (test paramétrique) ou un test de Mann-Whitney
(test non paramétrique).
Dans le cas de comparaison de plusieurs moyennes (plus de deux), les tests
correspondants sont une analyse de variance (test paramétrique) ou un test
de Kruskal-Wallis (test non paramétrique).
S’il s’agit de regarder si une variable quantitative va dans le même sens
qu’une autre variable quantitative, il s’agit de corrélation. Exemple : l’analyse
de la variation du taux de cholestérol et du poids. Les tests appropriés sont
alors le calcul du coefficient de corrélation linéaire « r » (test paramétrique) ou
le test des rangs de Spearman (test non paramétrique).
D’autres situations peuvent être rencontrées, comme par exemple la situation
des tests appariés : il s’agit de tests réalisés chez les mêmes sujets, comme
par exemple comparer deux moyennes à deux moments différents dans un
même groupe de sujets, avant et après un traitement par exemple. Ces tests
sont habituellement plus puissants car la variation inter-individuelle est
évidemment plus faible dans un même groupe de sujets et il est alors plus
facile de montrer une différence. Il existe des tests appariés pour chacune des
situations que nous venons de voir.
Comment choisir entre test paramétrique et test non paramétrique ? Les tests
paramétriques font l’hypothèse que les données ont une forme particulière de
distribution, le plus souvent une distribution normale. Les tests non
paramétriques ne font pas ce type d’hypothèse sur la distribution des
72
données. En général, les tests paramétriques sont plus puissants que les tests
non paramétriques et doivent donc être utilisés si possible. La plupart des
données biologiques que l’on utilise en médecine sont distribuées de façon
normale autour d’une moyenne dans la population. La plupart des variables
peuvent donc être traitées par des tests paramétriques. Toutefois, de
nouveaux paramètres à l’étude dont on ne connaît pas la distribution dans la
population ne peuvent être traités par des tests paramétriques que si l’effectif
des groupes est suffisamment important (au minimum au-delà de 30 dans
chaque groupe). Ce seuil de 30 a été choisi car c’est à partir de ce seuil que
l’on peut faire l’approximation que la distribution suit une loi normale, et que
dès lors les résultats des tests paramétriques ne seront pas biaisés. Certaines
variables dont on sait à l’évidence qu’elles ne suivent pas une loi normale,
comme par exemple la durée de séjour dans un service hospitalier, ne doivent
pas être traitées par des tests paramétriques, même si le nombre de sujets est
important.
Si des auteurs ont utilisé des tests statistiques non usuels, voire obscurs, il
faut que l’article justifie pourquoi cela a été réalisé et qu’ils apparaissent dans
les références. Le nombre de tests statistiques possibles semble parfois infini.
Toutefois les comparaisons statistiques habituelles peuvent être réalisées en
utilisant au maximum une douzaine de tests.
Enfin, les données doivent avoir été analysées en suivant le protocole originel.
Notamment, chercher dans les données des résultats intéressants a
posteriori, par exemple par des analyses en sous groupes peut entraîner des
conclusions faussement positives. Ces analyses ne peuvent pas entraîner des
conclusions majeures, mais doivent simplement être génératrices
d’hypothèses nouvelles, qui devront être testées par d’autres études. Par
exemple, en multipliant les tests statistiques par sous groupes de patients, on
peut toujours arriver à mettre en évidence que le traitement est efficace chez
les femmes de plus de 32 ans. Mais est-ce que cela a un intérêt en terme
médical ?
73
Tests courants pour comparer deux mesures, sur deux groupes A et B
Groupes indépendants(nA et nB sujets)
Groupes appariés(n paires de sujets)
Comparer deux proportions (variable qualitative)
Grands effectifs (effectifs > 5) Test du ² (chi2) de Pearson
Grands effectifs (nombre de paires discordantes > 20) ² de MacNemar
Petits effectifs (un effectif calculé < 5)Test de Fisher exact
Petits effectifs (paires discordantes < 20) ² de MacNemar pour petits effectifs
Comparer deux moyennes (variable quantitative)
Grands effectifs (nA et nB > 30)Test t de Student*
Grands effectifs (nA et nB > 30)Test t apparié*
Petits effectifs (nA et nB < 30)Test t de Student* (distributions normales, variances égales)
Petits effectifs (nA et nB < 30)Test t apparié* (distribution normale des différences)
Grands effectifs ou petits effectifsTest des rangs, test U, W, ou test de Mann-Whitney ou de Wilcoxon
Grands effectifs ou petits effectifsTest des rangs signé de Wilcoxon (Wilcoxon’s signed rank sum test)
Comparer deux survies Test du Log-Rank (risques proportionnels)Test de Wilcoxon
Test du Log-Rank stratifié
* tests paramétriques, les autres tests sont des tests non paramétriques
4 Est-ce que les valeurs de « p » ont été calculées et surtout interprétées de
façon appropriées ?
La valeur de « p » correspond à la probabilité que le résultat constaté soit lié
au hasard. Dans la pratique scientifique standard, lorsque le « p » est inférieur
à 5%, on considère qu’il existe une signification statistique et que le résultat
74
n’est pas lié au hasard. Cela veut donc dire par définition qu’une association
significative peut être retrouvée dans un cas sur vingt par hasard.
A l’inverse, une valeur de « p » qui n’est pas inférieure à 0,05 peut avoir deux
explications : soit il n’existe effectivement pas de réelle différence entre les
groupes, soit il y avait trop peu de sujets pour la mettre en évidence (manque
de puissance). C’est pourquoi le calcul du nombre de sujets nécessaires est
extrêmement important.
Enfin, une valeur de « p » ne suffit souvent pas. Il faut donner les valeurs
comparées et pas seulement la valeur de « p ». De plus, il est de bonne
pratique de donner également les intervalles de confiance des paramètres
estimés. Cet intervalle de confiance correspond à la variation du paramètre
dans une population plus large dont serait issu l’échantillon de l’étude. Ces
intervalles de confiance peuvent être calculés pour l’ensemble des paramètres
intéressants dans une étude, que ce soit un pourcentage, une moyenne ou
d’autres paramètres tels que sensibilité, spécificité, etc… L’intervalle de
confiance permet de se rendre compte si les résultats de l’étude sont
suffisamment précis, qu’ils soient positifs ou négatifs. Si la variation du
paramètre est trop importante, même si l’étude a un résultat statistiquement
significatif, il est prudent de se méfier. L’interprétation de l’intervalle de
confiance doit être réalisé grâce au bon sens clinique. L’utilisation des
intervalles de confiance dans les articles médicaux est encore
malheureusement peu commune.
VI.4- ANNEXE
POUR CEUX QUI VEULENT TRICHER ! ! ! : lancer toutes vos données dans un ordinateur, et rapporter comme
significatives toutes relations où « p » est inférieur à 0,05,
si les différences existent initialement entre deux groupes de patients sur des
variables de base type sexe, âge, poids…et qu’elles favorisent le groupe où a
été donné le nouveau traitement, se souvenir de ne pas ajuster sur ces
différences,
75
ne pas s’intéresser à la distribution des données. Si vous le faites, vous
risquez d’être obligé d’utiliser des tests non paramétriques, ce qui n’est pas
très drôle,
ignorez tous les perdus de vue et les non répondeurs, comme cela l’analyse
concerne uniquement les sujets ayant eu l’ensemble du traitement,
si des valeurs extrêmes de certaines variables vous ennuient dans vos
calculs, enlevez-les, mais si les extrêmes vous aident dans vos conclusions,
laissez-les,
si vos intervalles de confiance sont trop larges, voire inclus la possibilité de
l’absence de différence entre les groupes, ne les écrivez pas dans l’article.
Mieux encore, mentionnez les très brièvement dans le texte, mais ne les
dessinez pas sur un graphe et surtout ignorez les lorsque vous donnerez vos
conclusions,
si une différence entre deux groupes devient significative quatre mois et demi
après le début d’un essai alors qu’il devait durer six mois, arrêter l’essai
thérapeutique et commencer à donner les résultats. Par contre, si à six mois
les résultats sont proches de la significativité, continuer l’essai pour un mois
supplémentaire…,
si vos résultats semblent non intéressants, demandez à l’ordinateur de revenir
voir si certains sous groupes se comportent différemment (analyse en sous
groupe). Vous trouverez peut être que votre traitement est intéressant chez
toutes les femmes âgées de 52 à 61 ans et mesurant 1,57 m à 1,65 m…,
si l’analyse de vos données de la façon dont vous l’aviez planifiée ne vous
donne pas les résultats escomptés, recommencer avec d’autres tests …
76
VII ANNEXES
ANNEXE 1 : RECOMMANDATIONS DU CNCI DE L’EPREUVE DE LCA
CONSEIL SCIENTIFIQUE DU CENTRE NATIONAL DES CONCOURS D’INTERNAT
Section Médecine – Novembre 2005----------------------------
ÉPREUVE DE LECTURE CRITIQUE D’UN ARTICLE MEDICAL(Epreuves Classantes Nationales à partir de 2008)
L’objectif de l’épreuve est d’amener l’étudiant à lire de façon critique et à analyser le contenu d’un article en vue de son autoformation actuelle et future. Le mot critique ne doit pas être entendu dans le sens où l’on demanderait aux étudiants de chercher systématiquement tous les défauts d’un article. Cette épreuve part du principe que toute information médicale doit être analysée avec du recul, en cherchant les défauts éventuels, les limites mais aussi les implications, l’utilité pour la pratique. L’article choisi doit être considéré comme de bonne qualité (le but de l’enseignement de la lecture critique est de donner à la fois le sens critique et le goût de la lecture).
I - PRINCIPES DE L’EPREUVE
L’épreuve porte sur des articles:
médicaux scientifiques originaux, c’est-à-dire rapportant une étude d’observation ou expérimentale.
traitant d’un sujet mentionné dans le programme du 2ème cycle (bulletin officiel du Ministère de l’éducation nationale n° 31 du 30 août 2001 à l’adresse www.education.gouv.fr/bo/2001/31/sup.htm).
issus d’une revue médicale avec comité de lecture
en français (articles primitivement en français ou traduits d’une autre langue).
utilisés en entier (ce qui est souhaitable) ou partiellement s’ils sont trop longs.
Le résumé, les noms des auteurs ainsi que la référence de la revue seront supprimés.
77
II - DEROULEMENT DE L’ÉPREUVE
Rédactionnelle, elle dure 3 heures et compte pour 20 % de la note totale Les réponses se font avec des phrases construites ; le style télégraphique n’est pas accepté. Les abréviations ne sont pas admises sauf celles qui figurent sur le site du CNCI.
L’étudiant est libre d’organiser et de répartir son temps comme il le souhaite entre lecture et rédaction.
L’épreuve comporte deux parties : un résumé (30 % de la note) et des questions (70 % de la note).
1 - Le résumé doit être structuré en fonction du contenu de l’article. Il comporte généralement : objectifs de l’étude, matériel et méthodes, résultats et conclusion. Il ne doit pas dépasser 250 mots.
2 - Les questions sont au nombre de 6 à 10 et portent sur les objectifs pédagogiques indiqués ci-dessous. Leur liste est évolutive et susceptible d’être modifiée au cours du temps. La longueur des réponses peut varier selon le type de question et n’est pas limitée par un cadre : en moyenne, la question doit amener l’étudiant à répondre sous forme de phrases en 10 à 20 lignes.
III - CONSEILS POUR L’ELABORATION DE L’EPREUVE
OBJECTIFS PEDAGOGIQUES
IDENTIFIER1 - L’objet de l’article parmi les suivants : évaluation d’une procédure
diagnostique, d’un traitement, d’un programme de dépistage, estimation d’un pronostic, enquête épidémiologique…
2 - La « question » étudiée.
CRITIQUER LA MÉTHODE
Population étudiée :
3 - Identifier les caractéristiques de la population étudiée4 - Analyser les modalités de sélection des sujets, critères d’inclusion et
critères d’exclusion. 5 - Analyser la technique de randomisation, le cas échéant. 6 - Discuter la comparabilité des groupes soumis à la comparaison.7 - Discuter le choix des effectifs étudiés et leur cohérence dans la
totalité de l’article.
78
Méthode
8 - S’assurer que la méthode employée est cohérente avec le projet du travail et qu’elle est effectivement susceptible d’apporter « une » réponse à la question posée dans l’introduction.
9 - Vérifier que les analyses statistiques (en fonction de notions élémentaires) sont cohérentes avec le projet du travail.
10 - Vérifier le respect des règles d’éthique.
CRITIQUER LA PRÉSENTATION DES RÉSULTATS
11 - Analyser la présentation, la précision et la lisibilité des tableaux et des figures, leur cohérence avec le texte et leur utilité.
12 - Vérifier la présentation des indices de dispersion (valeurs extrêmes, quantiles, écarts types) des données numériques, et celle de l’incertitude de l’estimation (intervalle de confiance, variance, erreur standard de la moyenne…).
CRITIQUER L’ANALYSE DES RÉSULTATS ET DE LA DISCUSSION
13 - Discuter la nature et la précision des critères de jugement des résultats.
14 - Relever les biais qui ont été discutés. Rechercher d’autres biais éventuels non pris en compte dans la discussion et relever leurs conséquences dans l’analyse des résultats.
15 - Vérifier la logique de la discussion et sa structure. Reconnaître ce qui relève des données de la littérature et ce qui est opinion personnelle de l’auteur.
16 - Discuter la signification statistique des résultats.17 - Discuter la signification clinique des résultats.18 - Vérifier que les résultats offrent une réponse à la question
annoncée. 19 - Vérifier que les conclusions sont justifiées par les résultats.20 - Indiquer le niveau de preuve de l’étude (grille de l’ANAES).
EVALUER LES APPLICATIONS CLINIQUES
21 - Discuter la ou les décisions médicales auxquelles peuvent conduire les résultats et la conclusion de l’article.
CRITIQUER LA FORME DE L’ARTICLE
22 - Identifier la structure IMRAD (Introduction, Matériel et méthode, Résultats, Discussion) et s’assurer que les divers chapitres de la structure répondent à leurs objectifs respectifs.
23 - Faire une analyse critique de la présentation des références. 24 - Faire une analyse critique du titre.
79
REDACTION DES QUESTIONS
Aucun calcul nouveau ne doit être demandé.
Un commentaire de tableaux, figures ou calculs statistiques peut être demandé,
La forme de l’article peut être discutée ; une nouvelle rédaction du titre ou d’un paragraphe peut être demandée.
Il ne peut être posé de questions de mémorisation sur le sujet étudié ni de questions s’écartant de l’article.
Le résumé doit être fidèle à l’article ; il ne correspond pas à l’article tel que l’étudiant l’imagine mais tel qu’il a été conçu avec ses défauts éventuels.
Il faut éviter les sous questions.
Les questions ne sont pas posées dans un langage de spécialistes. Elles doivent être comprises simplement par tout étudiant de deuxième cycle n’ayant pas reçu de formation particulière.
Si une définition pose problème, c’est-à-dire si elle peut faire l’objet de discussions, la définition retenue pour cette épreuve doit être précisée dans l’intitulé.
IV - MODALITES DE CORRECTION
Le résumé ne doit pas dépasser 250 mots. L’étudiant indique le nombre de mots. Une pénalité sera décidée par le jury en cas de dépassement, proportionnelle au degré de dépassement.
Une grille de réponses est fournie par le conseil scientifique du CNCI pour les questions portant sur l’article (sur 100 points non divisibles) et pour le résumé (sur 50 points non divisibles). Elle peut être modifiée par le jury.
Des points négatifs peuvent être décidés par le jury.
La correction est une double correction comme pour les dossiers.
¨¨¨¨¨¨
80
ANNEXE 2 :
CNCI-Conseil Scientifique de Médecine: Liste des abréviations autorisées.
Toute autre abréviation peut être utilisée dans un cas clinique si et seulement si l'abréviation est décrite en début de texte.
Liste revue le 16/12/2004 par le Conseil Scientifique Médecine du CNCI
A
ACE : antigène carcino-embryonnaire ACTH : adrenocorticotropic hormone (corticotrophine, hormone corticotrope
hypophysaire) ADH : antidiuretic hormone (hormone antidiurétique, vasopressine) ADN : acide désoxyribonucléique AINS : anti inflammatoire non stéroidien ALAT : alanine amino transferase (TGP) ALD : affection de longue durée AMM : autorisation de mise sur le marché AMPc : AMP cyclique ANCA : antineutrophyloc cytoplasmic antibody (anticorps anti cytoplasme des
polynucléaires) APGAR : american pediatric groos assessment record APUD : amine precursor uptake and decarboxylation (groupe de cellules captant et
décarboxylant des précurseurs d'amines) ARN : acide ribonucléique ARNm : ARN messager ASA : classification du risque opératoire de l'american society of anesthesiologist ASAT : aspartate amino transférase (TGO) ASLO : antistreptolysine O ATP : adénosine triphosphate AVC : accident vasculaire cérébral aVf, aVL, aVr : dérivations électrographiques unipolaires AVK : anti-vitamine K
B BCG : bacille de Calmette et Guérin BK : bacille de Koch BPCO : broncho pneumopathie chronique obstructive
C CCMH : concentration corpusculaire moyenne en hémoglobine CEC : circulation extra corporelle CGMH : concentration globulaire moyenne en hémoglobine CIVD : coagulation intra-vasculaire disséminée CK : créatine kinase CMV : cytomégalovirus CO : monoxyde de carbone CO2 : dioxyde de carbone
81
CPK : créatine phosphokinase CPK-BB : créatine phosphokinase iso enzyme BB CPK-MB : créatine phosphokinase iso enzyme MB CPK-MM : créatine phosphokinase iso enzyme MM CRH : corticotropin releasing hormone (hormone de libération de l'hormone
corticotrope) CRP : C reactive protein (protéine C réactive)
D DCI : dénomination commune internationale DHEA : déhydroépiandrostérone DOPA : dihydroxyphénylalanine
E EBNA : Epstein-Barr nuclear antigen EBV : Epstein-Barr virus ECBU : examen cytobactériologique des urines ECG : électrocardiogramme ECHO virus : enteric cytopathogenic human orphan virus EEG : électroencéphalogramme EFR : épreuve fonctionnelle respiratoire ELISA : enzyme-linked immunosorbent assay EMG : électromyographie
F FiO2 : fraction inspirée d'oxygène FSH : follicle stimulating hormone (hormone folliculostimulante)
G gamma-GT : gamma-glutamyl transférase GB : globule blanc GH : growth hormone (hormone somatotrope) GH-RH : GH-releasing hormone (hormone activatrice de l'hormone de croissance) GR : globule rouge GVH : graft versus host (réaction du greffon contre l'hôte)
H Hb : hémoglobine HbA1C : hémoglobine glyquée HbO2 : oxyhémoglobine HBPM : héparine de bas poids moléculaire HCG : human chorionic gonadotrophin (gonadotrophine chorionique) HDL : high density lipoproteins (lipoprotéines de haute densité) HELLP : hemolysis + elevated liver enzymes + low platelets HLA : human leucocyte antigen (antigène d'histocompatibilité) HPV : human papillomavirus HTLV : human T cell leukemia/lymphoma virus (virus humain T lymphotropique)
82
I IDR : intradermoréaction IEC : inhibiteur de l'enzyme de conversion Ig : immunoglobulines IGF : insulin-like growth factor (somatomédine) IMAO : inhibiteur de la mono amine oxydase INR : international normalized ratio IRM : imagerie par résonance magnétique ITT : incapacité temporaire totale IV : intraveineuse
L LCR : liquide céphalorachidien LDH : lactate déshydrogénsae LDL : low density lipoprotein (lipoprotéine de faible densité) LH : luteinizing hormone (hormone lutéinisante) LHRH : luteinizing hormone releasing hormone (gonadolibérine)
M
MALT : mucous associated lymphoid tissue (tissu lymphoïde associé aux muqueuses) MNI : mononucléose infectieuse MST : maladie sexuellement transmissible
N NFS : numération formule sanguine NK : natural killer (lymphocyte)
O OAP : œdème aigu du poumon OMS : organisation mondiale de la santé ORL : oto-rhino-laryngologie
P PAN : périartérite noueuse PaO2 : pression artérielle partielle en oxygène PaCO2 : pression artérielle partielle en dioxyde de carbone PCR : polymerase chain-reaction PDF : produits de dégradation de la fibrine PDGF : platelet-derived growth factor (facteur de croissance des plaquettes) PMI : protection maternelle et infantile PNB : polynucléaires basophiles PNE : polynucléaires éosinophiles PNN : polynucléaires neutrophiles PSA : prostatic specific antigen
83
Q QI : quotient intellectuel QRS : complexe QRS QSP : quantité suffisante pour QT : segment QT
R RAST : radio allergo sorbent test (dosage radio immunologique des IgE spécifiques
d’un allergène) Rh : rhésus RMN : résonance magnétique nucléaire
S SIDA : syndrome d'immunodéficience acquise SRAS : syndrome respiratoire aigu sévère
T T3 : triiodothyronine T4 : thyroxine, tétraiodothyronine TCA : temps de céphaline activée TCK : temps de céphaline kaolin TCMH : teneur corpusculaire moyenne en hémoglobine TDM : tomodensitométrie TEP : tomographie par émission de positon TGMH : teneur globulaire moyenne en hémoglobine TGO : transaminase glutamo oxaloacétique TGP : transaminase glutamo pyruvique TNM : classification tumor nodes metastasis (tumeur primitive, adénopathies
régionales, métastases) TP : taux de prothrombine TPHA : treponema pallidum haemagglutination assay TRH : thyrotropin releasing hormone (protiréline) TSH : thyroïd stimulating hormone (thyréostimuline)
U UI : unité internationale UIV : urographie intraveineuse
V VDRL : veneral disease research laboratory (réaction d'agglutination syphilitique) VEMS : volume expiratoire maximum par seconde VGM : volume globulaire moyen VIH : virus de l'immunodéficience humaine (HIV, virus du SIDA) VLDL : very low density lipoproteins (lipoprotéines de très faible densité) VS : vitesse de sédimentation
84
VIII REFERENCES
Ouvrages et articles :
Bergmann JF et membres de l’APNET. Lire et critiquer un article médical. Principes de lecture critique et exercices pratiques corrigés.. ED : Expansion Scientifique Française 2003
85
ANAES. Guide d'analyse de la littérature et gradation des recommandations. Service des recommandations professionnelles, janvier 2000, 48 pages.
Beaucage C, Bounier-Vigery "épidémiologie appliquée" Une initiation à la lecture critique de la littérature en science de la santé. Gaétan Morin Editeur Montréal 1996, 550 pages.
Greenhalght. Savoir lire un article médical pour décider. La méthode fondée sur les niveaux de preuves au quotidien. RAND, Editeur, Meudon 2000.
Huguier M, Maisonneuve H, Benhamou CC, De Calan L, Grenier B, Franco B, Galmiche JP , Lorette G. La rédaction médicale. De la thèse à l'article original. La communication orale, DOIN éditeur Paris 1994, 204 pages.
Carrat F. Epidémiologie et statistique : notions indispensables. Cœur et médecine interne, Cohen A, Belramouf N. Edition ESTEM 2002, chap 23 ; 660-74.
Lorette G, Grenier B. Comment lire un article médical scientifique Doin Editeur, Paris 2002
Bouvenot G, Vray M. Essais cliniques : théorie, pratique et critique. Edition : Médecine Sciences- Flammarion 1999
Malinovski JM, Pain L, Juvin P, Langeron O, Riou B, Martin C. Aide à la lecture d'une étude scientifique. Comité des référentiels cliniques de la Société française d'anesthésie et de réanimation. Annales françaises d'anesthésie et de réanimation, Mar 2000, 19(3):209-16
BouvenotG, Villani P, Ambrosi P. Lecture critique de la publication. Press Med 2002 ;31 :1061-8.
Salmi, LR. Lecture critique et rédaction médicale scientifique : comment lire, rédiger et publier une étude clinique ou épidémiologique. Paris : Elsevier, 2002, 287p.
Salmi LR, Collet JP Lecture critique des articles médicaux
I/ Introduction. Revue du Praticien 1991 ; 41 : 2598-2605.
II/ Juger de l'intérêt d!un test diagnostique Revue du Praticien 1991 41 2734-43
III/ Comprendre l'histoire naturelle et le pronostic d!une maladie. Revue du Praticien 1992 ; 42: 76-9.
IV/ Déterminer la causalité. Revue du Praticien 1992 ; 42: 213-8.
V/ Juger de l'intérêt d!une nouvelle thérapeutique. Revue du Praticien 1992; 42: 335-9.
VI/ Champ &application et limites. Revue du Praticien 1992 42: 447-9
Adresses INTERNET :
86
- Lecture critique des articles médicaux – Université de Montréal
http://www.bib.umontreal.ca/SA/caps30.htm
- Guide d’analyse de la littérature et gradation des recommandations publié par
l’ANAES :http://www.anaes.fr/anaes/Publications.nsf/nPDFFile/RA_LILF-4NAHYY/
$File/analiterat.pdf?OpenElement
- Cucherat M : http://www.spc.univ-lyon1.fr/lecture-critique/
87