EPIDEMIOLOGIE ET STATISTIQUE · Web view16.2- Taille et précision de l’effet L’estimation de...

LECTURE CRITIQUE D’ARTICLEDCEM I,II,III, et IV

Dr M. PeltierPr O. GanryPr M. Slama

Faculté de Médecine d’Amiens2005-2006

1

Le but louable de l’enseignement à la lecture critique d’article (LCA) est de

permettre à l’étudiant d’acquérir une formation à la lecture scientifique afin

d’augmenter ses connaissances et améliorer son esprit critique. Il doit être capable

de juger ce que lui apporte la lecture d’un article scientifique sur le plan de la

connaissance et de la pratique. Ce polycopié destiné aux étudiants du DCEM vise à

donner un outil en vue de préparer l’épreuve de la LCA dans le cadre de l’examen

classant national à partir de 2008, selon les modalités définies par le centre national

du concours de l’internat (CNCI) (Annexe 1). Cette épreuve de 3 heures, comptant

pour 20% des points, devrait concerner un article original, de portée générale, écrit

en langue française ; elle devrait comporter 6 à 10 questions sur la méthodologie du

travail, d’une part, et la rédaction d’un résumé de 250 mots, d’autre part. Ce

polycopié est structuré en 4 parties : (1) la première partie couvre la totalité des 24

objectifs pédagogiques définies par le CNCI pour l’enseignement de la LCA

adaptées ciblé pour la lecture d’article d’essai thérapeutique, (2) la seconde partie

issue du guide d’analyse des articles médicaux publiée par l’ANAES détaille les

objectifs et méthodologies appropriés à l’analyse d’articles évaluant une procédure

diagnostique, un pronostic selon une étude de cohorte, et une enquête cas-témoins,

(3) la troisième partie est consacrée aux modalités de rédaction du résumé, et (4) la

quatrième partie est dédiée aux méthodes statistiques les plus couramment utilisées.

L’application pratique de la LCA par des exemples d’articles traités et corrigés selon

les règles définis par le CNCI est effectuée lors des enseignements dirigés en DCEM

III. Par ailleurs, l’APNET (Association Pédagogique Nationale pour l’Enseignement

de la Thérapeutique) et ses membres ont édité un ouvrage dédié à des exercices

pratiques corrigés de la LCA*, données utiles et complémentaires à la partie

théorique développée dans ce polycopié.

* Lire et critiquer un article médical. Principes

de lecture critique et exercices pratiques

corrigés. ED : Expansion Scientifique Française

2

PLAN

I- ANALYSE D’UN ARTICLE THERAPEUTIQUE (Dr Peltier)

II- ANALYSE D’UN ARTICLE DIAGNOSTIQUE (Dr Peltier)

III- ANALYSE D’UN ARTICLE DE PRONOSTIC (Recommandations ANAES)

IV- ANALYSE D’UN ARTICLE CAS-TEMOINS (Dr Peltier)

V- MODALITES DE REDACTION DU RESUME (Dr Peltier)

VI- METHODES STATISTIQUES (Pr Ganry)

VII- ANNEXES (Dr Peltier)

VIII- REFERENCES (Dr Peltier)

3

I ANALYSE D’UN ARTICLE THERAPEUTIQUE

1- IDENTIFIER L’OBJET D’UN ARTICLE MEDICAL SCIENTIFIQUE, PARMI LES SUIVANTS : EVALUATION D’UNE PROCÉDURE DIAGNOSTIQUE, D’UN TRAITEMENT, D’UN PROGRAMME DE DEPISTAGE, ESTIMATION D’UN PRONOSTIC, ENQUETE EPIDEMIOLOGIQUE

Cet objectif introduit l’ensemble des différents types d’études rencontrées en

recherche médicales (et qui seront traités individuellement ci-dessous). Selon

l’objectif de l’étude, le protocole et la méthodologie employés par les investigateurs

seront différents. Prenons, l’exemple d’un article thérapeutique, ce dernier suivra un

protocole d’étude contrôlé randomisé alors que le protocole d’étude à visée

diagnostique suivra un protocole d’étude transversal comparatif avec étalon-or (cf

tableau ci-dessous).

Type de protocole préférentiellement proposé pour une question donnée

QUESTIONS PROTOCOLE

EPIDEMIOLOGIE Incidence Suivi de population (suivi de cohorte ou registre)

EPIDEMIOLOGIE Prévalence Transversal (sur échantillon représentatif)

THERAPEUTIQUE Efficacité Etude contrôlée randomisée

THERAPEUTIQUE Sécurité Etude contrôlée randomisée ou suivi de cohorte

DIAGNOSTIC Reproductibilité Variabilité Transversal comparatif avec répétition de mesure

DIAGNOSTIC Sensibilité Spécificité Transversal comparatif avec étalon-or

DIAGNOSTIC Efficacité Utilité Etude contrôlée randomisée

DIAGNOSTIC Stratégie Etude contrôlée randomisée ou arbre décisionnel

PRONOSTIC Maladie Etude contrôlée randomisée ou suivi de cohorte

EPIDEMIOLOGIE Facteurs de risque/ d’exposition Etude cas-témoins

Remarque : l’histoire naturelle d’une maladie pourra être appréciée de la même manière que les facteurs pronostiques. Le dépistage est apprécié comme les tests diagnostiques.

2- IDENTIFIER LA « QUESTION » ETUDIEE

4

Après avoir exposé le rationnel de l’étude (background) en faisant référence

aux données publiées de la littérature, l’introduction doit se terminer par la question

posée c’est-à-dire par l’objectif principal de l’étude (aims ou objectives). L’objectif doit

être réaliste, clairement formulé et pertinent. Il est habituel que l’objectif soit unique. Il

doit ainsi répondre à un problème réel de thérapeutique, pour lequel il n’y a pas

encore de solution satisfaisante jugée à partir des connaissances disponibles au

moment de la planification de l’essai, et de l’expérience du lecteur. Pour être

parfaitement défini, l’objectif doit préciser le traitement testé, le traitement contrôle

(placebo ou traitement actif), s’il s’agit d’un recherche de supériorité ou d’équivalence

ou visant à démontrer un effet dose-réponse, le critère de jugement principal et le

moment de sa mesure, les patients concernés : maladie et éventuellement

caractéristiques particulières. Exemple : « Démontrer que l’éplérénone entraîne une

réduction supplémentaire de la mortalité par rapport au traitement conventionnel

dans l’infarctus aigu du myocarde compliqué d’insuffisance cardiaque », est un

objectif clairement formulé. « Evaluer la spironolactone dans l’insuffisance

cardiaque » est en revanche, un objectif peu précis.

3- IDENTIFIER LES CARACTÉRISTIQUES DE LA POPULATION ÉTUDIÉE

La méthodologie des essais cliniques impose un suivi strict, plus fréquent, une

sélection plus importante des patients en termes de motivation, d’étiologie, et de

gravité de la maladie ou des symptômes, etc. Identifier les caractéristiques de la

population pourrait ainsi conduire à étudier des patients dont le cas est moins grave,

ayant une bonne tolérance médicamenteuse et un bon suivi médical. Ces biais

pourraient concourir à sélectionner des patients à meilleur pronostic. Dans le cas

exemplaire des essais thérapeutiques consacrés à l’insuffisance cardiaque, on

constate souvent de plus grandes prévalence d’hommes (80%) et de sujets

relativement jeunes (60-65 ans), aux critères d’exclusion restrictifs fonction de leur

morbidité et de leur étiologie, alors que la « vraie » population de l’insuffisance

cardiaque est constituée de sujets plus âgés (70-75 ans), en majorité féminine, aux

indices de co-morbidité habituellement élevés, et dont les étiologies sont diverses.

Par ailleurs, dans la plupart des études, le médicament testé vient s’ajouter à un

traitement de référence. Or celui-ci peut changer et rendre ainsi les études

5

caduques : le traitement bêtabloquant est par exemple, devenu un traitement de

référence dans l’insuffisance cardiaque, alors que dans l’étude RALES

(spironolactone vs placebo), seulement 11% des patients insuffisants cardiaques

prenaient des bêtabloquants. Peut-on extrapoler le bénéfice de la spironolactone aux

patients prenant des bêtabloquants. Il est donc important d’identifier les

caractéristiques et ainsi la représentativité de la population étudiée.

4- ANALYSER LES MODALITÉS DE SELECTION DES SUJETS, CRITÈRES D’INCLUSION ET CRITÈRES D’EXCLUSION

Les patients éligibles doivent être parfaitement définis - par des critères

diagnostiques de la maladie précis et communément admis (les formes cliniques et

les stades évolutifs acceptés ou exclus étant parfaitement délimités), - par des

critères d’inclusion et d’exclusion explicites et suffisamment détaillés (aptitude à la

coopération et au suivi, limites d’âge, sexe, sujets hospitalisés ou en ambulatoires,

stabilité de la maladie, pathologies ou tares associées, traitements concomitants, ..)

Il n’est pas rare qu’un grand nombre de patients puisse entrer dans une étude et

qu’au final le nombre de patients réellement inclus soit relativement faible : par

exemple, 39 924 patients dans l’étude SOLVD treatment présentant une fraction

d’éjection inférieure à 35% ont été sélectionnées, et au final seulement 6,4% des

patients ont été réellement inclus. Dans un tel cas, la généralisation de l’efficacité du

traitement ne peut pas être faite à partir du moment où moins d’un dixième des

patients sont inclus. Il est donc très important de connaître le nombre de patients qui

ont été exclus de l’étude et les raisons de l’exclusion. Il faut se méfier de la sélection

initiale des patients après émission des critères d’inclusion qui peut induire un biais

important. L’étude est proposée à tel patient et pas à tel autre pour des raisons

propres au médecin en charge de l’inclusion. Une telle attitude peut totalement

biaisée les résultats. C’est l’intérêt des études qui incluent des patients consécutifs.

Cependant, il arrive qu’une sélection initiale avant randomisation des patients soit

instituée dans le protocole. Ainsi, dans certaines études un certain nombre de

patients sont soumis au traitement pendant une période donnée de test et sont inclus

dans un second temps s’ils ont bien toléré le traitement. Ce type d’étude permet

d’éliminer les patients ne supportant pas le traitement pour ne garder inclus que les

patients qui ont parfaitement supporté le traitement. Il faut encore une fois

6

comprendre que si des critères d’inclusion et d’exclusion très stricts renforcent

l’homogénéité des patients et donc la rigueur méthodologique, ils peuvent aussi

limiter l’applicabilité des résultats à la population tout-venante (cf. Question 21).

5- ANALYSER LA TECHNIQUE DE RANDOMISATION, LE CAS ÉCHÉANT

Le maître mot de l’approche expérimentale est la randomisation. Plusieurs

techniques sont disponibles et on retiendra que la méthode la plus utilisée est celle

des « blocs de permutations » qui permet de générer des listes préétablies de

randomisation, et garantit l’équilibre entre les groupes tels qu’ils avaient été définis

dans le protocole. Un bloc est un groupe de quelques codes. La randomisation par

bloc tire au sort non pas le code du traitement attribué à un patient mais le bloc de

codes. La séquence de blocs successifs est ensuite traduite en séquences de codes.

Le bloc est dit équilibré s’il contient le même nombre (ou une proportion constante)

de codes de tous les traitements de l’étude. Son intérêt réside dans l’équilibration

des effectifs des groupes, même si tous les malades ne sont pas inclus. Le point le

plus important concerne la randomisation en cas d’essais multicentriques, elle doit

être centralisée et stratifiée par centre. Le principe de la stratification consiste à

établir une liste de randomisation pour chaque centre (de cette façon on évite le

risque qu’un centre ne procède à l’inclusion des patients appartenant à un même

groupe de traitement). La stratification peut également être justifiée sur des facteurs

pronostiques majeurs mesurés à l’entrée dans l’essai (sévérité de la maladie, âge,

sexe…). Il est en effet parfois très utile de stratifier la randomisation sur l’âge, la

gravité de la maladie ou son ancienneté. Cela autorise ultérieurement à prendre en

compte, en toute rigueur, les résultats observés dans chacune des strates.

L’utilisation de plus de deux ou trois facteurs de stratification est cependant rarement

nécessaire et justifiée.

7

6 - DISCUTER LA COMPARABILITÉ DES GROUPES SOUMIS À COMPARAISON

La constitution des groupes comparables pour toutes les caractéristiques

autres que le traitement reçu, en particulier les facteurs pronostiques, fait appel au

tirage au sort de l’attribution des traitements (randomisation, cf. ci-dessus) et aux

procédures aveugles. En effet, l’affectation aléatoire assure, indépendamment de

toute caractéristiques des malades, la comparabilité initiale des groupes. Aucune

méthode : témoins alternés, choix de témoins d’une autre époque ou d’un autre

hôpital, emploi de la 1ère lettre du patronyme ou de l’année de naissance, n’est

scientifiquement ni éthiquement défendables. Elle conduirait à constituer des

groupes dont les différences initiales ne permettraient pas une comparabilité des

groupes. Il arrive parfois, que le tirage au sort aboutisse à la constitution de deux

groupes significativement différents pour telle ou telle caractéristique, ce serait du fait

de fluctuations d’échantillonnage (possibles dans 5% des cas). Dans ce cas, un tel

phénomène (qui ne remet pas en cause l’intérêt ni la nécessité du tirage au sort) doit

être pris en compte dans l’analyse statistique comme variable potentiellement

confondante, sinon rendre plus difficile l’interprétation des résultats de l’essai. De

façon générale, plus le nombre de sujets nécessaire est grand, plus la répartition des

caractéristiques initiales sera équilibrée entre les deux groupes.

7 - VÉRIFIER LE CHOIX DES EFECTIFS ETUDIES. S’ASSURER QUE CES EFFECTIFS SONT IDENTIFIABLES DANS LA TOTALITÉ DE L’ARTICLE

Le caractère multicentrique des essais fait intervenir plusieurs investigateurs

et doivent être privilégiés en raison - d’un recrutement plus aisé d’un grand nombre

de sujets (par exemple dans le cas d’une maladie rare), et - d’une extrapolation de

résultats plus facile. Idéalement, l’essai multicentrique doit être international. En

revanche, il est beaucoup plus lourd à mettre en place et soulève des problèmes de

planification (randomisation stratifiée) ou d’analyse complexes (test d’interaction

« centre-traitement » ou non) qui dépassent le cadre de ce chapitre mais doivent

néanmoins être spécifiés dans l’article.

7.1- Le calcul du nombre de sujets nécessaire

8

Le calcul du nombre de sujets nécessaire constitue un point important à

relever dans lecture d’un article thérapeutique. Ce nombre de sujets nécessaire doit

toujours être calculée avant le début de l’étude et l’effectif ainsi calculé (effectif

théorique) doit figurer dans l’article. S’il n’a pas été effectué, on ne connaît pas la

puissance de l’essai et on n’a donc aucune idée de sa légitimité. S’il a été réalisé,

l’auteur doit avoir indiqué les 4 éléments de son calcul, (1) la différence escomptée

entre l’efficacité probable du nouveau produit et celle du comparateur, (2)

l’importance de la variabilité du critère principal du jugement, généralement fournie

par les données de la littérature, (3) le risque alpha, généralement fixé à 5%, qui

correspond au risque de déclarer « efficace » un traitement qui ne le serait pas

réellement et qui pourrait donc aboutir à mettre sur le marché un produit inutile, (4) la

puissance souhaitée pour l’essai. La puissance est l’aptitude à déceler une

différence existant réellement entre les effets des traitements que l’on compare. On

la choisit habituellement de l’ordre de 80 à 95%. Le manque de puissance (ou risque

bêta) peut conduire à ne pas mettre sur le marché un médicament réellement

efficace, parce que l’on n’a pas pu prouver qu’il est. Il serait trop facile au chercheur

de prétendre après coup que s’il n’a pas pu démontrer l’efficacité du produit testé,

c’est probablement par manque de puissance. Ainsi, lorsqu’un essai conclut à

l’absence de différence significative, deux explications sont envisageables : soit il n’y

a pas de différence réelle entre les deux traitements, soit l’effectif est trop petit pour

détecter une différence (manque de puissance, bêta trop grand). Le manque de

puissance est néfaste car il fait courir le risque d’abandonner un traitement alors qu’il

y a un réel intérêt thérapeutique.

7.2- Ecarts au protocole (cf. Question 11.3)D’une manière générale, les auteurs de l’article doivent fournir (ou permettre de

trouver aisément) les éléments qui serviront à vérifier que l’analyse réalisée a bien

été celle prévue par le protocole. L’analyse des deux groupes comporte leur

description, les taux , les moments de survenue et les motifs des écarts au protocole

pour chacun des deux groupes et fournit les éléments qui permettent de juger de la

qualité de l’essai, de sa faisabilité, et de l’acceptabilité des traitements. Les écarts au

protocole sont habituellement classés en 3 catégories :

- Les sujets inclus à tort : ce sont des sujets qui ne répondent pas aux critères aux

critères d’inclusion et de non-inclusion prévus par le protocole mais à qui un

9

traitement a été attribué au sort. Son effectif doit être clairement donné par

groupe de traitement ainsi que les motifs.

- Les sujets ayant interrompu temporairement ou définitivement leur traitement :

dans la plupart des essais, on peut observer des sujets qui n’ont jamais pris leur

traitement, qui l’ont arrêté en cours d’étude, qui ont augmenté ou diminué les

doses initialement prescrites, qui ont pris un traitement interdit dans le protocole,

ou pire encore, qui ont pris le traitement de l’autre groupe. Son effectif doit être

clairement donné par groupe de traitement ainsi que les motifs de ces écarts.

Leur exclusion de l’analyse peut aboutir à des résultats biaisés. En effet, les

raisons pour lesquelles l’observance n’a pas été bonne ont toutes les chances

d’être liées au traitement : intolérance, inefficacité, décision du patient qui trouve

le traitement trop « lourd » ou « difficile » à suivre…Tous ces sujets ayant

interrompu temporairement ou définitivement leur traitement doivent donc être

suivis normalement jusqu’à la fin de l’essai et être analysés dans le groupe de

traitement attribué par le tirage au sort (cf. ci-dessous - analyse en intention de

traiter).

- Les sujets perdus de vue : ce sont des sujets pour lesquels manque le critère de

jugement au moment de son évaluation. Un nombre important de sujets perdus

de vue dans un essai risque d’invalider les résultats de l’essai. Aussi est-il

extrêmement important de connaître le nombre de patients perdus de vue. Il n’est

pas admissible que plus de 10 % de la population suivie soit perdus de vue. Il est

bien évident que si une différence de mortalité de 1 % est retrouvée à la fin de

l’étude et s’il existe 10 % de perdus de vue, cette différence de 1 % de mortalité

ne peut pas être interprétée. Le gain obtenu doit donc être analysé en fonction du

nombre de perdus de vue.

8 - S’ASSURER QUE LA MÉTHODE EMPLOYÉE EST COHÉRENTE AVEC LE PROJET DU TRAVAIL, QUE LA MÉTHODOLOGIE EST EFFECTIVEMENT SUSCEPTIBLE D’APPORTER « UNE » REPONSE A LA QUESTION POSÉE DANS L’INTRODUCTION. POUR UNE ETUDE THÉRAPEUTIQUE, VERIFIER QU’ELLE A ÉTÉ REALISÉE « EN INTENTION DE TRAITER »

L’auteur est censé avoir choisi le plan expérimental le mieux adapté à la

réalisation de son objectif :

10

8.1- Différents types de questions, différents types d’essaisSchématiquement, quatre types d’essais thérapeutiques selon la « question

étudiée » peuvent être distingués :

- Essai d’efficacité ou de supériorité : le plus classique, où l’on cherche à

déterminer si un traitement est plus efficace qu’un placebo ou qu’un traitement

de référence (lorsque pour des raisons éthiques, un placebo n’est plus utilisable).

Dans une pratique fondée sur les preuves (médecine factuelle ou " evidence

based medicine "), un nouveau traitement n'est adopté que lorsqu'il existe une

preuve issue d'essais cliniques qu'il représente une avancée thérapeutique par

rapport au traitement de référence (ou par rapport à pas de traitement).

- Essai d’équivalence ou de non-infériorité (cf. question 14): dans certains cas, le

promoteur peut être intéressé à démontrer qu’un nouveau traitement est

équivalent à un traitement de référence. Les essais d'équivalence clinique ou de

non-infériorité deviennent de plus en plus fréquents dans l'évaluation clinique des

nouveaux traitements. Ce type d'essais fait appel à une méthodologie et à des

techniques statistiques encore mal connues. Ils nécessitent la formulation de la

différence maximale tolérée entre les traitements vis-à-vis du critère principal de

jugement. De ce fait, des nouveaux traitements peuvent être acceptés par la

communauté médicale sur la base d'essais d'équivalence discutables par

méconnaissance des pièges et des spécificités de ce type d'études. En

particulier, le processus décisionnel qui leur est attaché nécessite l'introduction

d'un seuil d'équivalence choisi arbitrairement. De la valeur de ce seuil dépend

grandement le résultat de l'essai. Les essais d'équivalence clinique ont pour

objectif de montrer que deux traitements sont équivalents en terme d'efficacité

clinique. Ils sont à distinguer des essais de bioéquivalence où l'équivalence ne

concerne que des paramètres pharmacocinétiques. Il s’agit de démontrer l'intérêt

du nouveau traitement apporté par un essai cherchant à mettre en évidence la

non-infériorité de celui-ci par rapport au traitement de référence (essai de non-

infériorité ou essai d'équivalence). Cependant, dans certaines situations, une

avancée thérapeutique peut ne pas être une efficacité supérieure mais

simplement une plus grande facilitée d'utilisation ou une meilleure tolérance. Ces

avantages pourront être suffisamment intéressant pour justifier l'adoption du

nouveau traitement même si son efficacité n'est pas supérieure à celle du

11

traitement de référence. La communauté médicale est prête à accepter de

perdre un peu d'efficacité étant donné les autres avantages. Signalons qu’un

essai d’équivalence peut être combiné avec un essai d’efficacité (inclusion d’un

bras placebo). On retiendra des essais d’équivalence deux particularités : (1) le

risque de première espèce est le plus souvent à 5 % unilatéral ; (2) c’est la seule

situation où l’analyse en intention-de-traiter n’est pas justifiée (cf.Question 8.4).

- Essai visant à démontrer un effet dose-réponse : ce type d’essai permet de

réaliser plusieurs objectifs : confirmation de l’efficacité, estimation de la courbe

dose-réponse, recherche de la première dose appropriée, identification de

stratégies individuelles optimales d’ajustement de doses, identification de la dose

maximale au-dessus de laquelle l’efficacité n’augmente plus.

- Essai pragmatique de comparaison de deux stratégies thérapeutiques : le but de

ces essais est de savoir si l’utilisation du traitement permet en pratique d’atteindre

les objectifs thérapeutiques ; la population visée est celle de la population

représentative des futurs patients qui seront traités, dont les critères de sélection

s’ils sont indispensables pour définir la population cible du traitement, sont

simples, correspondant aux critères utilisés en pratique pour décider un

traitement.

8.2- Schéma expérimental d’un essai thérapeutiqueOn distingue :

- Les groupes parallèles (parallel group study) : c’est le schéma le plus répandu.

Les patients sont répartis aléatoirement en deux ou plusieurs groupes (« bras »),

chaque bras ayant une modalité de traitement différente, par exemple (traitement

A) contre (traitement B).

- Les groupes croisés (cross-over) : dans ce type de schéma, les sujets sont

répartis aléatoirement en plusieurs « séquences » de traitements (par exemple,

traitement A, puis traitement B contre traitement B puis traitement A), chaque

traitement étant généralement séparé du traitement suivant par un intervalle libre

(d’absence de traitement). Ces schémas expérimentaux soulèvent des difficultés,

en particulier liées à l’influence individuelle du premier traitement reçu pendant la

période du deuxième traitement (carry-over effect). On retiendra qu’une indication

12

particulière des groupes croisés est celle des essais de bio-équivalence d’un

même traitement reçu à des doses différentes.

- Les plans factoriels (factorial design) : il s’agit de schémas expérimentaux

évaluant simultanément plusieurs traitements en les combinant. Par exemple, en

cas de deux traitements, quatre groupes sont constitués (A, B), (A, placebo de B),

(placebo de A, B), (placebo de A et de B). Ces schémas expérimentaux sont

particulièrement recommandés pour étudier l’efficacité de combinaisons de

traitements.

8.3- Etude prospective, contrôlée, multicentrique, randomisée, en double aveugleUn essai clinique prospectif, contrôlé, multicentrique, randomisé et conduit en double

aveugle constitue une garantie de méthodologie rigoureuse et optimale pour réponse

à la question posée. Cette méthodologie stricte évite les biais de sélection, de suivi

et d’évaluation, établit un lieu de causalité direct entre un traitement et son effet, et

fournit ainsi le plus haut niveau de preuve. Le lecteur doit systématiquement vérifier :

- si l’essai a été prospectif c'est-à-dire que l’hypothèse est posée initialement et le

design de l’étude est fait pour répondre à la question. Ceci n’a rien à voir avec les

études rétrospectives qui sont toujours moins crédibles car on ne peut jamais exclure

dans les études rétrospectives que des éléments de biais aient pu intervenir dans la

sélection des patients pour expliquer les résultats.

- si l’essai a été contrôlé, c'est-à-dire comparatif (cf. Question 7)

- si l’essai a été multicentrique c'est-à-dire faisant intervenir plusieurs investigateurs

ce qui doit être privilégié en raison - d’un recrutement plus aisé d’un grand nombre

de sujets (par exemple dans le cas d’une maladie rare), et - d’une extrapolation de

résultats plus facile. Idéalement, l’essai multicentrique doit être international. En

revanche, il est beaucoup plus lourd à mettre en place et soulève des problèmes de

planification (randomisation stratifiée) ou d’analyses complexes (test d’interaction

« centre-traitement » ou non) qui dépassent le cadre de ce chapitre.

- si l’essai a été randomisé, c'est-à-dire si l’attribution des traitements a été réalisée

de manière aléatoire (cf. Question 6).

- si l’essai a été conduit à l’aveugle. En matière d’aveugle, la méthode de référence

est le « double-aveugle » (double-blind). Elle signifie que ni le patient, ni le médecin

investigateur chargé d’évaluer l’effet du traitement ne peuvent être informés du

13

groupe dans lequel le patient a été inclus. Elle implique que les différents traitements

sont en tous points identiques (galénique, goût, rythme d’administration, etc.). Dans

certains essais (classiquement, un traitement chirurgical vs un traitement médical),

les procédures d’aveugle ne sont pas envisageables (open-label trial) ou ne peuvent

être envisagées que partiellement (single-blind) : il est alors important de s’assurer

que les décisions d’inclusion et d’allocation du patient dans un groupe de traitement

sont clairement dissociées, c’est à dire que le résultat de la randomisation n’est pas

connu a priori de l’investigateur lors de la réalisation de l’inclusion d’un patient. Par

ailleurs, toutes les procédures de levée d’aveugle doivent être décrites dans le

protocole.

8.4- Vérifier l’analyse en intention de traiter Il est maintenant admis que tout essai thérapeutique contrôlé, à l’exception des

études d’équivalence, doit être analysé en intention-de-traiter ( intention to treat) dans

le but de minimiser les biais potentiels. L’analyse en intention de traiter consiste à

comparer le caractère principal de jugement entre les groupes de traitements tels

qu’ils ont été constitués au moment de la randomisation. Elle implique qu’au cours de

l’analyse statistique, un patient changeant de groupe ou interrompant son traitement

en cours de protocole reste affecté au groupe dans lequel il était initialement inclus.

Cette méthode est conservatrice, c’est à dire n’aboutira pas à conclure à tort à

l’efficacité d’un traitement, et permet d’approcher le mieux possible ce que seront les

conditions d’utilisation ultérieures du traitement sur le terrain. Ce type d’étude en

intention de traiter est normalement le meilleur dessin d’étude pour la clinique

quotidienne puisqu’elle permet de répondre à la question, dans la population de

l’étude, de l’utilité global du traitement, même s’il y a des patients qui ne l’ont pas

supporté. Toutefois ce type d’essai peut aussi masquer le bénéfice d’un traitement

dans un sous groupe donné qui n’avait pas été individualisé initialement. Il faut donc

également bien analyser les sous groupes. Dans un nombre limité de circonstances,

il est possible d’exclure des sujets de l’analyse en intention de traiter sans introduire

de biais : en cas de violation d’éligibilité parfaitement objectivée, lorsque le patient

n’a reçu aucune dose du traitement et que l’exclusion est décidée « à l’aveugle »,

lorsqu’aucune information n’est disponible sur le patient. Dans tous ces cas, toute

exclusion d’un patient de l’analyse devra être parfaitement argumentée ; et en même

temps, les biais éventuels qui pourraient en découler devront être cités. Une difficulté

14

soulevée par l’analyse en intention de traiter vient de l’évaluation du critère principal

chez les sujets perdus de vue ou sorties en cours de projet. Une règle simple

consiste à utiliser la dernière mesure accessible pour le sujet lorsque le critère de

jugement est une variable de type « survie » (donnée censurée), et à considérer

comme échec au traitement le sujet perdu de vue dans les autres cas de figure.

Enfin, on oppose à l’analyse en intention de traiter, l’analyse « par protocole reçu »

(per protocol analysis) ; celle-ci compare les sujets ayant correctement pris le

traitement auquel ils avaient été assignés jusqu’au terme prévu. Cette méthode

comporte de nombreux risques de biais et ne doit être envisagée que si l’analyse en

intention de traiter donne un résultat significatif – pour confirmer les résultats

d’efficacité.

9 - VERIFIER QUE LES ANALYSES STATISTIQUES EMPLOYÉE EST COHÉRENTE AVEC LE PROJET DU TRAVAIL ; DISCUTER LEUR INTERPRÉTATION EN FONCTION DES NOTIONS ELEMENTAIRES EN FONCTION DES NOTIONS ELEMENTAIRES DE STATISTIQUES

9.1- Trois décisions statistiques fondamentales

Trois décisions statistiques fondamentales interviennent dans un essai

thérapeutique vérifiant la cohérence avec le projet de l’étude et la fiabilité des

résultats

- Le calcul du nombre de sujets nécessaires (cf. Question 4)

- L’analyse en intention de traiter (cf. Question 8)

- La planification des analyses statistiques

Il existe plusieurs façons d’envisager l’analyse statistique de l’essai.

Schématiquement, on peut distinguer les situations dans lesquelles l’analyse est

réalisée :

- une seule fois et en fin de durée d’essai,

- un nombre limité de fois (par exemple trois fois) dans l’essai thérapeutique

contrôlé. Cette situation correspond à la réalisation d’analyses intermédiaires

(groupes séquentiels),

- un très grand nombre de fois, à l’extrême lors de l’inclusion de chaque nouveau

patient (tests séquentiels).

15

Les méthodes statistiques d’analyse pour ces deux dernières situations sont

complexes et nécessitent l’intervention d’un biostatisticien pour leur planification.

Deux principes fondamentaux doivent être respectés :

- le maintien absolu des règles d’aveugle vis-à-vis des investigateurs qui implique

que les résultats de ces analyses ne soient pas connus autrement qu’en termes

de décision d’arrêt ou non du protocole,

- la prise en compte de la répétition des analyses, à la fois dans le calcul du

nombre de sujets à inclure et dans le choix de la valeur critique a priori pour

conclure à l’efficacité du traitement (habituellement 5 %, ici moindre pour chaque

test réalisé) (cf. question 16). Les tests séquentiels et les analyses intermédiaires

sont recommandés lors de la réalisation d’un essai thérapeutique contrôlé

nécessitant l’inclusion d’un très grand nombre de sujets et dont le critère principal

est de type mortalité ou morbidité sévère. Dans ce cadre, la pratique actuelle

privilégie plutôt les analyses intermédiaires aux tests séquentiels.

9.2- Interprétation des analyses statistiques en fonction des notions élémentaires de statistiques

Dans le chapitre « Analyses statistiques » figurant dans l’article, l’auteur doit

mentionner les tests statistiques utilisés. La pertinence de ces tests requiert une

connaissance minimale de méthodologie statistique. Cette méthodologie est détaillée

dans la dernire partie de ce polycopié (cf. METHODES STATISTIQUES). Il s’agit

d’un domaine spécialisé qui ne relève pas de la compétence du clinicien. On s’attend

toutefois à trouver dans ce paragraphe la nature des tests statistiques employés et

leur justification en fonction de la nature des données étudiées (comparaison de

deux pourcentages pour un test du X² pour les données qualitatives, comparaison de

deux moyennes par un test t, analyse de variance… pour les données quantitatives),

de l’importance des effectifs traités (tests paramétriques ou non paramétriques), de

la prise en compte du temps (comparaison de deux courbes de type survie par le test

du Log-Rank). On s’attachera de plus à dénombrer les comparaisons statistiques

prévues (c'est-à-dire le nombre de tests), afin d’avoir une idée de la vraie valeur du

risque alpha.

10 - VERIFIER LE RESPECT DES REGLES D’ÉTHIQUE

16

Toute étude de recherche clinique qui implique des patients pose le problème

de l’éthique. Il existe pour cela, dans chaque pays, une législation particulière et des

instances auxquelles l’investigateur doit se référer. En France, l’approbation du

comité de protection des personnes (CPP, ex CCPPRB) est préalablement

nécessaire à la mise en œuvre de l’essai. Le respect des règles éthiques à travers

cette approbation locale du comité d’éthique ainsi que la mention des signatures du

formulaire de consentement éclairé avant l’inclusion des patients dans l’étude

doivent être mentionnés dans l’article (habituellement dans le chapitre METHODES).

11 - ANALYSER LA PRESENTATION, LA PRECISION, ET LA LISIBILITÉ DES TABLEAUX ET DES FIGURES, LEUR COHERENCE AVEC LE TEXTE, ET LEUR UTILITE

11.1- Présentation des résultatsIl existe différents modes d’expression des résultats ; ils peuvent s’exprimer sous

forme soit de moyennes soit de pourcentages. Quand les résultats s‘expriment en

pourcentages d’apparition d’un évènement, plusieurs présentations sont possibles :

Risque relatifLe risque relatif (RR) est le rapport entre le taux de survenue d’un événement dans

le groupe sous traitement actif (TET) et le taux de survenue du même événement

dans le groupe placebo (TEP).

Taux événements sous traitement (TET) (%)

RR =

Taux événements sous placebo (TEP) (%)

Nb d’événements/nb de patients sous traitement (%)

=

Nb d’événement/nb de patients sous placebo (%)

Le risque relatif s’exprime en valeur absolue par rapport à 1.

Exemple de calcul :

17

Exemple du calcul du risque relatif de décès d’origine coronarienne ou d’infarctus du

myocarde non mortels dans l’étude WOSCOPS :

Effectif Nombre Taux

du groupe de décès d’origine d’évènement

coronarienne ou (%)

IDM non mortels

Pravastatine n=3302 174 TET =5.5%

Placebo n=3293 248 TEP =7.9%

Dans notre exemple, chez les patients non coronariens hypercholestérolémiques, le

risque relatif de survenue d’un décès d’origine coronarienne ou d’un IDM non mortel

sous pravastatine par rapport au placebo est donc égal à :

RR = 5.5/7.9 = 0.69

* La méthode de calcul présentée ici donne une valeur approchée des taux

d’évènements TET et TEP. Les valeurs exactes telles qu’elles sont dans les

publications sont calculées d’après la méthode de Kaplan-Meier. Cette méthode

permet l’estimation de la probabilité de survenue d’un évènement au cours d’une

étude en prenant en compte les patients « perdus de vue », et le fait qu’un même

patient peut avoir présenté plusieurs évènements.

Interprétation

Le risque relatif exprime l’effet d’un traitement sur le risque de survenue d’un

événement.

Le traitement apporte un bénéfice clinique si le risque relatif est inférieur à 1.

. si RR < 1 Bénéfice du traitement

. si RR > 1 Excès de risque par rapport au placebo (traitement délétère)

. si RR = 1 Absence d’effet du traitement

Réduction du risque du risque relatifOn exprime souvent les résultats en termes de « réduction relative du risque » de

survenue d’un événement ou RRR (c’est-à-dire d’amplitude de la réduction du risque

d’un événement). La réduction relative du risque correspond à la formule suivante :

RRR = 1 – RR

La réduction relative du risque s’exprime en pourcentage.

18

Exemple de calcul :

Si on applique cette formule à notre exemple, la réduction relative du risque de

survenue d’un décès d’origine coronarienne ou d’un IDM non mortel sous

pravastatine par rapport au placebo est égal à :

RRR = (1 – 0.69) x 100 = 31%

Interprétation

Chez les patients non coronariens hypercholestérolémiques, le traitement par

pravastatine permet une diminution relative du risque de survenue d’un décès

d’origine coronarienne ou d’un IDM non mortel de 31%.

Réduction absolue du risqueLe Risque Absolu (RA) est égal au taux de survenue d’un événement pendant la

durée de l’étude dans le groupe sous traitement actif (TET) ou dans le groupe

placebo (TEP).

Nombre d’événements

RA =

Nombre de patients traités

ou sous placebo

Le risque absolu s’exprime en pourcentage.

On exprime les résultats d’une étude en termes de « réduction absolue du risque »

de survenue d’un événement ou RAR.

La réduction absolue du risque correspond à la différence entre le risque absolu sous

traitement et le risque absolu sous placebo, soit :

RAR = RA traitement – RA placebo

Exemple de calcul

Exemple du risque absolu de la survenue d’un décès d’origine coronarienne pendant

la durée de l’étude LIPID :

Effectif Nombre Risque

du groupe de décès d’origine Absolu

coronarienne (RA)

Pravastatine n=4512 287 TET=6.4%

Placebo n=4502 373 TEP=8.3%

19

Dans notre exemple, la réduction du risque absolu de survenue d’un décès d’origine

coronarienne sous pravastatine par rapport au placebo est donc égal à :

RAR = 6.4% - 8.3% = 1.9%

Interprétation

Chez les patients coronariens hypercholestérolémiques ou non, le traitement par

pravastatine pendant 6.1 ans permet une diminution absolue du risque de survenue

de décès d’origine coronarienne de 1.9%.

Nombre d’évènements évités pour 1000 patients traités (cf. Question 21)A partir du RAR on peut aisément calculer le nombre d’événements évités pour 1000

patients traités. Il est égal à :

RAR en % x 10

Dans notre exemple, le nombre d’événements évités pour 1000 patients traités est

de 1.9x10 =19.

Le traitement par pravastatine pendant 6.1 ans permet d’éviter la survenue de 19

décès d’origine coronarienne pour 1000 patients coronariens

hypercholestérolémiques ou non.

Nombre de patients à traiter pour éviter un évènement (cf. Question 21)La réduction absolue du risque est souvent exprimée en termes de nombre de sujets

à traiter pour éviter un évènement ou « Number Needed to Treat » (NNT).

Le nombre de patients à traiter est l’inverse du RAR, il se calcule selon la formule

suivante :

NNT = 1/RAR

En pratique, si le RAR est de x événements évités pour 100 patients traités, pour

éviter un événement il faut traiter 100/x patients.

Soit dans notre exemple : NNT = 100/1.9 = 52.6

Interprétation

Chez les patients coronariens hypercholestérolémiques ou non, le traitement par

pravastatine pendant 6.1 ans permet d’éviter la survenue d’un décès d’origine

coronarienne pour 53 patients traités. Il faut noter que le nombre de patients à traiter

exprime un bénéfice absolu. Cette mesure reflète les effets apportés par un

traitement au niveau de la population.

20

11.2- Précision de l’estimation des effets du traitement (cf. Question 16)L’intervalle de confiance (IC) à 95 % entre les deux traitements devrait toujours

être précisé (moyennes ou pourcentages). L’IC à 95 % est un intervalle de valeur qui

a 95 % de chance de contenir la véritable valeur du paramètre estimé. L’intervalle de

confiance est donc l’ensemble des valeurs raisonnablement compatibles avec le

résultat observé. Il est le reflet de l’incertitude rattachée à une estimation du fait des

fluctuations d’échantillonnages. La borne inférieure de l’intervalle de confiance

représente le plus petit effet du traitement que l’on ne peut pas raisonnablement

exclure.

11.3- Lisibilité des tableaux et figures et cohérence avec le texte- Caractéristiques initiales des patients (cf. Question 6)

Le premier paragraphe des résultats a trait aux caractéristiques initiales des patients

inclus dans chaque groupe figurant habituellement dans le premier des résultats.

Compte tenu de la randomisation de l’attribution des traitements, on ne s’attend pas

à observer de différences statistiquement significatives entre les groupes pour ces

caractéristiques, qui sont parfois des variables pronostiques d’importance :

pourcentage d’hommes et de femmes, âge, stade de gravité de la maladie,

ancienneté de la maladie… Une absence de différence statistiquement significative à

ce stade ne prouve en aucune manière, après coup, que l’essai a été randomisé. A

contrario la mise en évidence, du seul fait du hasard, d’une différence

statistiquement significative pour une caractéristique initiale est compatible avec une

randomisation rigoureuse. Ce qui compte, si une telle situation se produit, c’est de

considérer la taille de cette différence et d’apprécier son éventuel retentissement sur

la comparaison finale des groupes. En pratique, la présentation des caractéristiques

initiales des patients réellement inclus permet au lecteur de contrôler s’ils

correspondent bien au type des patients que le protocole avait prévu d’inclure et de

se faire une idée précise et concrète de la population des malades qui pourront

bénéficier des résultats de l’essai.

- Suivi des patients (cf. Question 7)

Un élément essentiel du compte-rendu de l’essai est le « flux des patients » (« flow

chart »), qui fournit sous forme graphique les effectifs respectifs des patients

21

présélectionnés, randomisés, évalués, en précisant le nombre d’écarts au protocole,

leur moment de survenue et parfois la conduite pratique adoptée les concernant.

- Comparaison de variables

Les données de toutes les variables étudiées doivent être fournies, même si leur

modification est considérée comme statistiquement non significative. En effet, le

lecteur doit pouvoir apprécier si une modification statistiquement non significative a

ou non un intérêt au regard de la réalité clinique, et peut avoir éventuellement

influencé l’évolution d’une autre variable. En cas de comparaison de variables, les

valeurs observées dans les différents groupes avec leur intervalle de confiance, les

effectifs sur lesquels ces valeurs ont été observées et le degré de signification

statistique (p) des tests doivent être indiquées.

- Représentation graphique du risque relatif (cf. Question 16.3)

Certains résultats peuvent être représentés sous la forme d’un graphique « en

ligne » (forest-plot). La mesure de l’effet (sur la mortalité, ou décès

cardiovasculaire, ..) de la variable étudiée (ou de l’étude en cas de métaanalyse)

peut être celle du risque relatif (ou de l’odds ratio). La lecture est la suivante : - l’axe

horizontal indique la valeur du RR, - une ligne verticale en trait plein indique

l’absence d’association entre le traitement étudié et le traitement de référence ou

placebo (RR = 1), - le RR de chacun des variables est représenté par un carré ou un

point, - les barres horizontales rapportent les intervalles de confiance à 95% du RR

de chacun des variables. Par principe, plus les intervalles de confiance sont larges,

moins le RR est précis ; lorsque l’intervalle de confiance franchit la ligne verticale

correspondant à un RR égal à 1, l’effet du traitement étudié pour la variable

correspondante n’est pas significatif ; lorsque le RR avec son l’intervalle de confiance

dépasse entièrement la ligne verticale, on distingue deux cas possibles : l’effet du

traitement étudié pour la variable correspondante est significativement supérieur au

traitement de référence ou placebo avec un RR <1 ou inversement, l’effet du

traitement de référence ou placebo pour la variable correspondante est

significativement supérieur au traitement étudié avec un RR >1.

- Courbes de survie

La définition des délais de survie repose sur le temps écoulé entre la date d’inclusion

dans l’essai et la survenue d’un événement préalablement défini, tel que rechute ou

décès. Les taux de survie sans rechute, et surtout de survie sans événement, sont

un critère de jugement particulièrement important. Si l’on souhaite comparer les taux

22

de survenue d’évènements (infarctus du myocarde, décès, fracture…) et leurs

moments de survenue, la méthode d’analyse appropriée est celle des courbes type

« survie » (méthode de Kaplan-Meier habituellement utilisée), qui permet non

seulement de prendre en compte la totalité du temps de participation à l’étude de

chacun des patients (et d’utiliser ainsi toute l’information disponible), mais aussi de

ne réaliser qu’un seul test statistique. Il n’est pas rare que des courbes de survie

soient présentées et établies. Il faut se méfier, dans les courbes de survie, de l’axe

des ordonnées. En effet, l’axe des ordonnées doit être compris entre 0 et 100% et

l’ensemble de la population doit partir, au moment de l’inclusion avec 100% de

survie. Il n’est pas rare que pour amplifier l’effet du traitement, l’axe des ordonnées

ne soit, par exemple, compris qu’entre 90 et 100%, donnant artificiellement un gain

du traitement beaucoup plus important que ce qu’il est en réalité. En cas de

comparaison de (deux) courbes de survie, le test de Log-Rank est le plus souvent

employé avec la valeur du degré de signification du test habituellement inscrit sur la

figure.

12 - VÉRIFIER LA PRESENTATION DES INDICES DE DISPERSION (VALEURS EXTREMES, QUARTILES, ECART TYPES) DES DONNEES NUMÉRIQUES, ET CELLE DE L’IMPRÉCISION DES ESTIMATIONS (INTERVALLE DE CONFIANCE, VARIANCE, ERREUR STANDARD DE LA MOYENNE)

12.1- Ecart-type et erreur standard de la moyenneL’estimation du point central autour duquel gravitent les valeurs observées (n) est

donnée par la moyenne m et la dispersion des valeurs autour de ce point central par

l’écart type ‘s’. L’expression moyenne ± écart-type définit un domaine où sont

comprises environ 68% des valeurs observées si leur distribution est gaussienne (ou

« normale »). Il s’agit de connaître l’amplitude de l’erreur sur une mesure individuelle.

C’est elle qui résume au mieux la variabilité des données autour d’une valeur

centrale : elle doit apparaître dans la rédaction de l’article. L’erreur standard de la

moyenne qui est égal à s/√n ne doit pas être utilisée pour la présentation des

résultats, car elle exprime une quantité qui ne dépend pas seulement de la variabilité

des mesures recueillies : elle se définit comme l’écart-type des moyennes qu’on

observerait si l’on recommençait l’expérience un grand nombre de fois. Elle doit donc

23

être bien différenciée de l’écart-type ‘s’ des valeurs qui doit être donné pour résumé

les données. L’erreur standard de la moyenne sert en pratique à construire un autre

indice qui est l’intervalle de confiance de la moyenne.

12.2 – Intervalle de confiance (cf. Question 16)L’intervalle de confiance (« confidence interval ») traduit la précision de l’estimation

de la taille de l’effet réalisée par l’essai. Le but de l’estimation est de déterminer la

vraie valeur d’un paramètre, par exemple, la vraie réduction relative de mortalité.

Cependant, la valeur estimée dans un échantillon peut être assez loin de la vraie

valeur du fait des fluctuations aléatoires d’échantillonnage, c’est-à-dire du fait du

hasard. L’intervalle de confiance permet de prendre en compte cette incertitude

aléatoire dans la présentation des estimations. L'intervalle de confiance (IC) à 95%

est un intervalle de valeurs qui a 95% de chance de contenir la véritable valeur du

paramètre estimé. Avec un peu moins de rigueur, il est possible d’admettre que l'IC

représente la fourchette de valeurs à l'intérieur de laquelle nous sommes certains à

95% de trouver la vraie valeur recherchée.

13 - DISCUTER LA NATURE ET LA PRECISION DES CRITÈRES DE JUGEMENT DES RESULTATS

13.1- Choix du critère de jugementLe principal critère de jugement devrait être la variable la plus pertinente sur le plan

clinique pour évaluer l’efficacité du traitement. En principe, un seul critère principal

de jugement sera déterminé. Insistons sur la justification du choix du critère et des

méthodes retenues pour sa mesure (test biologique, méthodes cliniques) qui devront

être parfaitement décrites dans le protocole. Il n’est pas toujours facile de juger de

l’objectivité ou de la subjectivité des résultats. La subjectivité se rencontre lorsque la

réponse à un critère fait entrer des variables liées à une appréciation non quantifiable

(par exemple, des critères faisant appel à des échelles de la qualité de vie devant

être nécessairement validés dans la littérature).

Il arrive fréquemment que le critère de jugement soit un regroupement de plusieurs

critères (« composite endpoints »). Si un patient a, dans le suivi, un des critères

composites, il sera considéré comme positif pour le critère primaire de l’étude. Il faut

bien vérifier que les critères composites sont cohérents et que chacun possède un

24

poids à peu près équivalent : une étude qui aurait comme critère d’évaluation décès

+ infarctus du myocarde paraît répondre clairement à la question du pronostic

cardiovasculaire d’un patient ayant un problème coronaire. Par contre, un critère

composite associant décès, infarctus du myocarde et réapparition de douleurs

thoraciques, est un critère beaucoup moins fiable car la réapparition des douleurs

thoraciques ne correspond pas toujours à la réapparition de douleurs thoraciques

d’origine angineuse et met rarement en jeu la vie du patient. Ce point est important

car la significativité statistique du critère primaire fait trop souvent assimiler aux

rédacteurs puis aux lecteurs que l’ensemble du critère dans sa globalité est

significatif et que donc le traitement a par exemple, dans le dernier cas cité, à la fois

réduit les décès et les infarctus au même titre que les récidives d’angor. Toutefois,

dans un certain nombre d’études précédemment publiées, on se rend parfois compte

que le seul critère qui a pu faire balancer la significativité de l’étude est par exemple

la réapparition des douleurs thoraciques sans qu’il n’y ait aucune diminution du

risque de décès et d’infarctus du myocarde. C’est là que l’analyse en sous groupes,

à condition qu’elle ait été prévue à priori, a de l’intérêt car elle permet de bien clarifier

quels sont, parmi les éléments du critère composite, ceux qui ont permis d’obtenir la

significativité de l’étude.

Il n’est pas rare qu’un critère principal du jugement soit associé à des critères

secondaires. Ils concernent les autres mesures d’efficacité ou de tolérance du

traitement testé. Ceux-ci doivent également être définis (ainsi que leur mode de

mesure) dans le protocole. ll faut alors vérifier que les auteurs ne discutent pas

uniquement les critères secondaires si le critère primaire n’a pas de significativité car

il faut se rappeler que le dessin et la puissance statistique d’une étude sont conçus

pour le critère principal et que les critères secondaires sont justement secondaires

car à priori il n’y a souvent pas de puissance suffisante pour pourvoir répondre à la

question posée pour ce qui les concerne ou que des paramètres confondants

peuvent exister. Il faut donc se méfier dans l’interprétation d’une significativité dans

les critères secondaires des études. Ces critères secondaires ne servent

théoriquement qu’à guider l’interprétation du critère primaire.

Lorsque le bénéfice clinique est difficile voire impossible à mesurer, le critère

principal sera un critère de substitution : une mesure biologique, par exemple, servira

de point de comparaison pour l’efficacité du traitement (Exemple : la cholestérolémie

pour le risque d’accident coronaire). Deux limitations sont liées à l’utilisation d’un

25

critère de substitution : (1) le risque que le marqueur choisi ne soit pas un prédicteur

efficace du bénéfice clinique, (2) l’impossibilité d’évaluer correctement la balance

« bénéfice-risque » du traitement. Pour qu’un critère intermédiaire soit considéré

comme un critère de substitution, il lui faut répondre aux trois conditions suivantes :

(1) son évolution est corrélée à celle du critère clinique pertinent ; il a une valeur

prédictive (Exemples : l’HTA qui majore les risques de morbidité et de mortalité

cardiovasculaires ou la diminution de la densitométrie mesurée par absorptiométrie

qui est associée à un risque accru de fractures), (2) il y a une correspondance entre

l’évolution, sous traitement, du critère intermédiaire et du critère clinique ; un effet

favorable sur le critère de substitution est prédictif, en termes de morbidité et

mortalité, d’un effet favorable sur le critère clinique, (3) on devrait pouvoir estimer,

« quantifier » le bénéfice clinique attendu, à partir de l’importance de la variation

observée sur le critère intermédiaire.

13.2- Précision du critère de jugementPrécisément prévu, le moment de recueil du critère de jugement devra être approprié

à la cinétique de l’effet clinique, mais aussi à la plus grande loyauté possible pour la

comparaison de l’essai. Il ne serait par exemple pas raisonnable de mesurer

l’efficacité d’un antalgique à libération immédiate 24 heures après son administration,

ni honnête de mesurer, à la 6ème heure, les efficacités respectives d’un antalgique

administré par voie intraveineuse et d’un antalgique à libération prolongée,

administré par voie orale.

Le choix d’un critère quantitatif ou qualitatif d’évaluation n’est pas anodin. Les

critères quantitatifs fournissent une plus grande quantité d’information que les

qualitatifs. Si un critère qualitatif a été retenu, du type « succès/échec » ou

« répondeur/ non répondeur », il faut alors s’assurer que la définition du succès ou la

fixation du seuil de réponse a été faite préalablement à la réalisation de l’étude et

conformément au consensus scientifique.

13.3- Durée du suivi – validation des résultats sur le long termeIl faut se méfier également de la durée du suivi. En effet, il n’est pas rare qu’une

extrapolation soit faite à propos d’un suivi de 6 mois sur le suivi à long terme : par

exemple, si un traitement montre une diminution des événements au bout de 6 mois,

il n’est pas certain qu’il faille continuer ce traitement au-delà de 6 mois.

26

Malheureusement, il arrive dans les conclusions des articles, que la notion de

bénéfice au long terme est avancée alors que l’étude n’a pas porté sur le long terme

(cf. Question 21). Le principe est simple : il est facile d’ajouter un traitement (surtout

s’il a peu d’effets indésirables) mais il est beaucoup plus difficile de le stopper dans

la pratique quotidienne…, une donnée bien connue de l’industrie. Dans l’exemple de

l’étude RALES (NEJM 1999), l’essai a été stoppé prématurément en raison d’un

bénéfice devenu significatif au bout de 2 ans. Personne ne se pose la question de

stopper la spironolactone après 2 ans de traitement. Pourtant, aucune donnée

n’existe après ce délai et on ne peut jamais exclure l’apparition d’une toxicité ou

d’une accoutumance au long terme…

14- RELEVER LES BIAIS QUI ONT ÉTÉ DISCUTES. RECHERCHER D’AUTRES BIAIS EVENTUELS NON PRIS EN COMPTE DANS LA DISCUSION ET RELEVER LEURS CONSÉQUENCES DANS L’ANALYSE DES RESULTATS

L’analyse critique d’un article doit pouvoir éliminer la possibilité de l’existence

d’un biais. Les situations propices à l’apparition des différents biais sont à

rechercher, soit au niveau d’un défaut méthodologique, soit au niveau d’un défaut de

réalisation. Rappelons qu’il y a un biais quand la différence observée entre les deux

groupes à la fin de l’essai est due à un autre facteur que le traitement étudié.

Biais de confusionLe biais de confusion est le biais entraîné par l’absence de prise en considération

des facteurs de confusion. Pour l’éviter, l’essai doit être comparatif et doit comporter

un groupe contrôle contemporain utilisé comme référence. Afin de vérifier l’absence

d’un éventuel biais de confusion il convient de se poser les questions suivantes : -

existe-t-il un groupe contrôle ?, - l’effet du traitement est-il déterminé par rapport à ce

groupe contrôle ?

Biais de sélection (cf. Questions 5 et 6)Le biais de sélection survient lorsque les deux groupes de l’essai ne sont pas

comparables. Une différence entre les deux groupes peut alors apparaître en dehors

de tout effet traitement. La randomisation a pour but d’éviter le biais de sélection en

27

créant, en moyenne, deux groupes comparables. Afin de vérifier l’absence d’un

éventuel biais de sélection, il convient de se poser la question suivante : - la méthode

de randomisation garantie-t-elle l’imprévisibilité du traitement alloué à un patient ? En

effet, il est particulièrement important qu’un investigateur ne puisse pas connaître ou

prédire le groupe auquel sera alloué le prochain patient. À ce titre, une « pseudo

randomisation » basée sur la date de naissance du patient ou le jour de la

consultation est inacceptable. L’utilisation d’enveloppe scellée n’est pas optimale,

surtout pour les essais en ouvert. Seules les procédures centralisées, téléphone, fax,

informatique donnent suffisamment de garantie. Afin de juger si les groupes issus de

la randomisation sont comparables, il convient de vérifier qu’il n’existe pas de

déséquilibre entre les groupes au niveau des principaux facteurs pronostiques (ou

d’autres variables conditionnant le critère de jugement). Dans les situations suivantes

où - le groupe contrôle n’est pas constitué de patients contemporains, mais de

témoins historiques ou de témoins géographiques (en fait, il n’y a pas eu de

randomisation), où - le processus de randomisation était prévisible (il était possible

pour les investigateurs de sélectionner les patients dans les groupes de l’essai), le

risque de biais de sélection est fort et remet en cause la validité interne du résultat

obtenu.

Biais de suiviUn biais de suivi survient lorsque les deux groupes ne sont pas suivis de la même

manière au cours de l’essai. La comparabilité initiale est alors détruite et une

différence peut apparaître en dehors de tout effet traitement. Le double aveugle est

un élément central pour empêcher l’apparition de ce biais. À côté de l’évaluation de

la qualité du double aveugle, d’autres points spécifiques du biais de suivi sont à

prendre en considération. Afin de vérifier l’absence d’un éventuel biais de suivi, il

convient de se poser les questions suivantes en plus de l’analyse du double

aveugle : - est-ce que les arrêts de traitements, les déviations aux protocoles et les

traitements concomitants ont été recueillis et sont convenablement documentés ? , -

le recours aux traitements concomitants a-t-il été aussi fréquent dans tous les

groupes ? (une différence dans les traitements concomitants peut faire disparaître

l’effet du traitement étudié, ou, à l’inverse, faire apparaître une fausse différence), -

les taux de déviation au protocole sont-ils similaires dans les deux groupes ?, - les

taux d’arrêt du traitement de l’étude sont-ils similaires dans les deux groupes ? (en

28

sachant que les différences observées peuvent être dues à une différence de

tolérance des produits et non pas à une situation potentiellement biaisée).

Biais d’évaluationLe biais d’évaluation survient quand la mesure du critère de jugement n’est pas

réalisée de la même manière dans les deux groupes. Le double insu limite le risque

de biais d’évaluation. Afin de vérifier l’absence d’un éventuel biais d’évaluation, il

convient de se poser les questions suivantes : - l ’évaluation du critère de jugement

est-elle faite de la même façon quel que soit le traitement reçu ?, - le traitement est-il

susceptible d’influencer sur la mesure du critère de jugement ?, - dans un essai en

ouvert, la mesure du critère de jugement est-elle subjective ?. La connaissance du

traitement reçu par le patient peut influencer la mesure du critère de jugement. Avec

ce type de critère, si le double aveugle est impossible (par exemple psychothérapie),

l’évaluation des patients doit se faire, en insu du traitement reçu, par un évaluateur

indépendant des médecins ayant en charge les patients (triple aveugle).

Biais des essais en ouvert (ou liés à l’absence ou à un défaut de double insu)Dans certaines situations, la réalisation d’un double insu n’est pas possible pour des

raisons éthiques ou pratiques. Dans ce cas, les essais ne peuvent être réalisés qu’en

simple insu ou en ouvert. La méthodologie employée n’empêchant pas la survenue

d’un biais, il convient d’analyser soigneusement les marqueurs permettant de vérifier

que le suivi et l’évaluation des critères de jugement se sont effectués de manière

identique dans les deux groupes. Seules quelques situations très particulières

empêchent la réalisation d’un double insu (cf. tableau ci-dessous). En dehors de ces

situations, la non-réalisation de l’essai en double insu est insatisfaisante. Afin de

vérifier l’absence d’un éventuel biais dans un essai en ouvert, il convient de se poser

les questions suivantes : - le critère de jugement est-il un critère « dur », dont

l’évaluation n’est pas subjective? (le décès est le critère le plus sûr dans un essai en

ouvert car il ne demande aucune interprétation ; par contre, l’utilisation d’événements

cliniques est moins robuste ; dans certains cas, le diagnostic de survenue de

l’événement clinique peut être subjectif et influencé par la connaissance du

traitement du patient), - en cas d’utilisation d’événements cliniques comme critère de

jugement, l’adjudication s’est-elle effectuée de manière centralisée, indépendante et

en insu de la connaissance du traitement ?, - l’essai est-il réalisé en ouvert alors que

29

sa réalisation en double insu était éthiquement et pratiquement possible ? La

justification de l’absence d’aveugle pour des raisons pratiques, principalement de

coûts, ne doit pas être acceptée trop facilement. L’expérience montre que, même

avec des critères de jugement « durs » (mortalités), il existe une surestimation de

l’effet dans les essais en ouvert par rapport aux essais en double aveugle. Les

situations où il est impossible de réaliser un double insu sont rares. Par exemple, la

nécessité d’une adaptation posologique en fonction d’un paramètre biologique n’est

pas un obstacle insurmontable à la réalisation d’un double aveugle. Une procédure

d’ajustement centralisé peut être mise en place.

Liste des situations où l’absence de double insu est « acceptable »

Un des traitements comparés est une intervention chirurgicale ou invasive (radiologie interventionnelle comme une angioplastie).

Un des traitements comparés nécessite un appareillage lourd dont il est impossible de faire un simulacre comme la radiothérapie.

Un des traitements comparés s’accompagne d’effet indésirable ou d’une toxicité évocatrice qui laisse deviner la nature du traitement dans presque tous les cas : chute de cheveux dans des chimiothérapies anticancéreuses.

Les traitements comparés sont des stratégies de prise en charge : traitement à domicile versus traitement hospitalier.

Un des traitements comparés concerne une prise en charge améliorée : stroke unit, kinésithérapie, aide à domicile, etc.

Le traitement factice risque d’avoir un effet : faux massage, placebo de chewing-gum pour l’arrêt du tabac, etc.

Un des traitements comparés délivre son action de façon évidente et non dissimulable. Il est donc impossible d’en faire un simulacre sans effet : (chirurgie,) dans une certaine mesure kinésithérapie, cure thermale, physiothérapie (chaleur), etc.

D’une manière générique, toutes les situations où la réalisation d’un traitement « placebo » ayant la même apparence que le traitement étudié s’avère trop compliqué à réaliser ou illusoire, par exemple, quand l’action du traitement est directement visible (comme la chirurgie, le recours à une aide humaine, etc.).

Biais d’attritionLe biais d’attrition survient quand des patients randomisés sont écartés de l’analyse.

Tous les patients randomisés doivent être inclus dans l’analyse. Les patients inclus

mais non analysés correspondent soit à des perdus de vue, soit à des données

manquantes, ce qui rend dans les deux cas le critère de jugement principal

30

manquant. Afin de vérifier l’absence d’un éventuel biais d’attrition, il convient de se

poser les questions suivantes : - le nombre de patients analysés est-il égal au

nombre de patients randomisés ? , - quelle est la robustesse du résultat vis-à-vis de

l’hypothèse du biais maximum ? , - est-ce qu’une méthode de remplacement des

données manquantes a été utilisée ? Dans ce cas, le nombre de patients analysés

correspond au nombre de patients randomisés même si de nombreuses valeurs

étaient manquantes. Ces méthodes nécessitent des hypothèses sur la nature des

données manquantes. Même si elles sont pour la plupart conservatrices, leur

utilisation ne doit pas faire oublier le problème initial et le risque de biais.

Biais liés à l’absence d’analyse en intention de traiter (cf. Question 8)Différentes situations peuvent conduire à une destruction de la comparabilité initiale

des groupes, comme, par exemple, une analyse en « per-protocole » où les patients

inclus à tort, traités par erreur avec un mauvais traitement, ayant arrêté le traitement

de l’étude ou ayant reçu des traitements concomitants sont exclus de l’analyse. Ces

exclusions secondaires sont susceptibles de biaiser le résultat, principalement en

détruisant la comparabilité initiale des groupes et du fait que les exclusions sont

potentiellement liés à l’effet du traitement. Pour éviter ce biais, l’analyse doit être

réalisée en intention de traiter. Afin de vérifier l’absence d’un éventuel biais, il

convient de se poser les questions suivantes : - l’analyse a-t-elle était faite en

intention de traiter ? , - c’est-à-dire tous les patients inclus dans l’essai ont-ils été

analysés dans le groupe dans lequel ils ont été randomisés, quel que soit le

traitement qu’ils ont reçu ? Les deux situations suivantes sont-elles exclues ? : des

patients randomisés mais non traités ne sont pas retenus pour l’analyse, des patients

alloués à un groupe mais traités par erreur avec le traitement d’un autre groupe ne

sont pas analysés.

Biais des essais de non-inférioritéLes biais spécifiques affectent l’essai de non-infériorité, en particulier, tout ce qui

concourt à faire disparaître l’effet des traitements étudiés. La situation est inversée

par rapport à l’essai de supériorité où ces situations n’entraînent pas de biais mais

simplement une perte de puissance. Afin de vérifier l’absence d’éventuels biais dans

un essai de non-infériorité, il convient de se poser les questions suivantes : - le

traitement de référence a-t-il développé sa pleine efficacité ?

31

(les conditions d’administration du traitement de référence : dose utilisée, schéma

d’administration, observance des patients, doivent garantir l’obtention de l’efficacité

optimale du traitement de référence. Si ce n’est pas le cas, un nouveau traitement,

en réalité, inférieur au traitement de référence, apparaîtrait comme non-inférieur), -

les patients inclus sont-ils similaires aux patients chez lesquels le traitement de

référence a été validé ?, - les patients inclus présentent-ils un risque suffisamment

élevé pour permettre à l’effet du traitement de se manifester ? (la fréquence du

critère de jugement doit être proche de celle qui est attendue et qui a été utilisée

dans le calcul du nombre de sujets), -.l’analyse en per-protocole donne-t-elle les

mêmes résultats que l’analyse en intention de traiter ? (dans l’essai de non-

infériorité, l’analyse per-protocole est la plus sensible et la moins biaisée. Cependant,

elle ne reflète pas la vraie vie. L’analyse en intention de traiter est plus représentative

de la pratique courante, mais elle est conservatrice et a tendance à faire disparaître

les différences. Il convient donc de considérer simultanément ces deux analyses

pour avoir à la fois une vue non biaisée et représentative de la réalité). Dans les

situations suivantes, le risque de biais dans l’essai de non-infériorité est fort et remet

en cause la validité interne du résultat obtenu : - la mesure du critère de jugement

est peu sensible et/ou peu spécifique (la mauvaise performance diagnostique de

cette mesure tend à égaliser les résultats des deux groupes, et peut gommer une

différence en défaveur du traitement étudié), - de nombreux patients sont exclus de

l’analyse per-protocole, - il existe un fort taux d’écarts au protocole, - le taux de

données manquantes était élevé et des techniques de remplacements ont été

utilisées (ces techniques sont conservatrices et elles sont susceptibles de faire

disparaître une réelle différence entre les traitements).

15- VERIFIER LA LOGIQUE DE LA DISCUSSION ET SA STRUCTURE. RECONNAÎTRE CE QUI RELEVE DES DONNEES DE LA LITTÉRATURE ET CE QUI EST L’OPINION PERSONNELLE DE L’AUTEUR

Dans sa « Discussion », l’auteur est supposé discuter les conditions de

réalisation de son étude et les limites de l’interprétation des résultats. Les résultats

concernant le critère principal doivent servir de base à la discussion pour recadrer ce

résultat dans la littérature et en expliquer les mécanismes. Il est habituel que la

32

première phrase de la discussion réponde à l’objectif principal décrit dans

l’introduction. Il ne faut donc pas admettre de discussion basée uniquement sur des

résultats concernant les objectifs secondaires de l’étude. La discussion pourrait être

comparée à une sorte d’autocritique destinée à mettre l’accent sur les données les

plus fiables et les plus démonstratives de l’étude et n’accorder aux résultats de

l’essai que la portée qu’il mérite. Cette portée est parfois considérable, comme

modifier la prise en charge thérapeutique dans les 6 heures qui suivent un infarctus

du myocarde, ou bouleverser les habitudes en matière de prévention secondaire

chez les coronariens. Le plus souvent, pourtant, elle est limitée, lorsqu’il s’agit par

exemple de proposer un nouveau traitement d’appoint ou de troisième intention… De

manière générale, si la différence observée entre les deux groupes a été trouvée

statistiquement significative, il importe d’en discuter la signification clinique (cf.

Questions 16 et 17) ; si la différence observée entre les deux groupes n’a pas été

trouvée statistiquement significative, l’équivalence des produits ne peut être pour

autant revendiquée, un manque de puissance de l’étude ayant pu en être la cause.

Dans la discussion, il doit en outre être faire mention :

- de la cohérence interne des informations fournies : l’étude est-elle à l’origine de

résultats discordants ou même contradictoires entre eux ? Que penser, par exemple,

d’un anti-hypertenseur qui diminuerait par rapport à son comparateur le nombre de

patients décédés mais n’agirait pas sur les accidents vasculaires cérébraux ?

- de la cohérence externe des résultats de l’étude avec les données de la littérature :

La cohérence externe permet de s’assurer que le résultat pris en considération n’est

pas unique en son genre mais qu’il s’intègre dans un cadre logique : le résultat est-il

confirmé par d’autres et est-il cohérent avec les connaissances fondamentales,

épidémiologiques, etc…? En général, un résultat n’est pas interprété de manière

isolée, mais mis en perspective par rapport aux autres similaires ou déjà publiés

dans le domaine. Par ailleurs, la discussion devra aborder le problème de

l’applicabilité des résultats de l’essai aux patients autres que ceux de l’essai, aux

patients d’autres pays…

Dans la discussion figure un paragraphe intitulé « limitation des résultats » qui est

généralement situé à la fin avant la conclusion et qui permet généralement aux

auteurs de bien cadrer les limites de leur étude. Les auteurs doivent en particulier

relever les biais de l’étude et expliquer à chaque fois les procédures mises en œuvre

pour les limiter au maximum

33

16- DISCUTER LA SIGNIFICATION STATISTIQUE DES RESULTATS 16.1- Différence statistiquement significativeUne différence observée entre deux groupes peut être réelle ou bien due au hasard.

Le test statistique (par exemple le Chi 2) permet d’évaluer la réalité statistique de la

différence. Les conclusions de tout essai sont entachées de deux risques : le risque

alpha et le risque bêta. Le risque alpha représente la probabilité de conclure à tort à

une différence alors que les traitements ont en réalité une efficacité identique, ou de

conclure à tort à un effet positif du traitement alors que le traitement est inefficace

(différence en réalité due au hasard). Classiquement, une différence observée est

considérée comme statistiquement significative quand le risque alpha est inférieur à

5 %. C’est le « fameux » « p ». Cette valeur seuil est arbitraire mais représente une

garantie minimale. Lorsqu’il n’y a pas de significativité, il n’est pas possible de

conclure à l’identité dans les deux groupes puisque statistiquement on ne peut

conclure, sauf méthodologie adaptée, à l’égalité mais seulement à l’absence de

différence. Il est aussi nécessaire d’écarter une situation d’inflation du risque alpha

résultant d’une répétition des tests statistiques rencontrées en cas : - d’absence de

critère de jugement principal avant l’obtention des résultats, - d’analyses en sous

groupes, - de recherche de l’effet répété au cours du temps, - d’analyses

intermédiaires non protégées. Dans ces cas de comparaisons multiples, il importe

de conserver le risque alpha fixé à priori, en le corrigeant par le nombre de

comparaisons à tester, ce qui définit une valeur de p (permettant de rejeter ou non

l’hypothèse testée au risque alpha initialement fixé).

16.2- Taille et précision de l’effetL’estimation de la taille de l’effet (« size of effect ») doit être suffisamment précise

pour pouvoir éliminer la possibilité que l’effet puisse être petit et donc sans intérêt en

pratique. Cette infirmation est apportée par l’intervalle de confiance du résultat.

16.3- Intervalle de confianceL'intervalle de confiance est l'ensemble des valeurs raisonnablement compatibles

avec le résultat observé (estimation ponctuelle). Il donne une expression formelle de

34

l’incertitude rattachée à une estimation ponctuelle du fait des fluctuations

d’échantillonnages.

Par exemple une réduction de mortalité de -20% avec un IC 95% de [–35% ;-5%]

signifie que bien qu’une baisse de –20% ait été observée ponctuellement dans

l’essai, il n’est pas possible d’exclure que l’efficacité du traitement soit en réalité plus

petite (au pire elle peut être de –5%) ou plus grande (au mieux de –35%). La borne

péjorative de l’intervalle de confiance (dans cet exemple, -5%) représente le plus

petit effet du traitement que l’on ne peut pas raisonnablement exclure.

Exemple de 5 situations différentes (ces données sont représentées graphiquement

sur la figure).

Essai RRR IC 95% p

A -23% -30% -16% 0,000

B -6% -10% -1% 0,024

C -23% -41% -1% 0,043

D 0% -4% 4% 1,000

E -19% -48% 27% 0,362

RRR : réduction relative de risque. Par convention, une RRR négative signe une réduction de risque. A l’opposé, une valeur positive témoigne d’une augmentation.

Représentation graphique des RRR et IC95% des différents essais

35

16.4- Interprétation des intervalles de confiance dans le cas d’un résultat significatif (Cf. tableau et figure ci-dessus)Dans l’essai A, le traitement entraîne une réduction relative du risque (RRR) de -23%

(IC95% [-30%,-16%]) ; une valeur de RRR négative signe une réduction du risque, à

l’inverse une valeur positive une augmentation. L’interprétation de ce résultat est qu’il

existe un effet statistiquement significatif, de taille importante et connue avec

précision. Ce traitement est intéressant en pratique car quel que soit la valeur réelle

de l’effet, celle-ci reste intéressante. Dans le pire des cas, cet effet est encore de -

16% ce qui correspond à une réduction relative du risque satisfaisante.

Le traitement dans l’essai B entraîne une réduction relative du risque de -6% (IC95%

[-10% ; -1%]). L’interprétation de ce résultat est qu’il existe un effet statistiquement

significatif, que l’effet du traitement est connu avec précision (l’intervalle de confiance

est étroit) mais qu’il n’est pas formellement prouvé que le traitement soit intéressant

en pratique. En effet, même dans la meilleure des situations, c’est à dire celle où

l’effet réel serait proche de la borne inférieure (-10%), la taille de l’effet reste faible et

peu intéressante en pratique.

Le traitement dans l’essai C entraîne une réduction relative du risque de -23%

(IC95% [-41% ;-1%]). L’interprétation de ce résultat est qu’il existe un effet

statistiquement significatif, la taille de l’effet n’est pas connue avec précision mais il

se pourrait que cet effet soit de taille intéressante. En effet l’estimation ponctuelle (-

23%) témoigne d’un effet substantiel de même que la borne inférieure de l’intervalle

(-41%). Cependant l’incertitude sur ce résultat est grande et il est aussi possible que

l’effet réel soit quasiment nul (proche de la borne supérieure, -1%). En pratique, il est

difficile de recommander l’utilisation de ce traitement car il existe une possibilité que

le traitement soit peu efficace. Un essai supplémentaire qui permettra d’améliorer la

précision de l’estimation de l’effet en méta-analyse pourrait être souhaitable.

16.5- Interprétation des intervalles de confiance dans le cas d’un résultat non significatif (Cf. tableau et figure ci-dessus)Dans l’essai D, le traitement n’entraîne pas de modification relative du risque

(RRR=0%, IC95% de [-4% ;+4%]). Ce résultat n’est pas significatif (p =1.00). Aux

mieux, il pourrait exister une réduction très faible de 4% qui ne présente pas

beaucoup d’intérêt en pratique. Bien qu’en toute rigueur, il ne soit pas possible de

conclure à l’absence d’efficacité, l’interprétation de l’intervalle de confiance autorise à

36

conclure que très probablement ce traitement serait d’aucune utilité en pratique. Cet

exemple montre la supériorité de l’approche par les intervalles de confiance sur celle

utilisant uniquement des tests statistiques. En utilisant l’approche test statistique il

est impossible de conclure. Par contre, avec l’approche basée sur les intervalles de

confiance et étant donné la précision du résultat, il est licite de conclure à l’absence

d’intérêt de ce traitement : même si celui-ci a une efficacité non nulle, la taille de

l’effet serait trop petite pour être intéressante en pratique.

Le traitement dans l’essai E entraîne une réduction relative non significative de -19%

(IC à 95% de [-48%,+27%]). Il apparaît clairement que ce résultat non significatif

n’autorise pas à conclure à l’absence d’effet. En effet, ce résultat est compatible avec

une réduction relative de -48%, effet de taille conséquente. De plus l’intervalle est en

très grande partie du coté favorable ce qui renforce la possibilité de l’existence de

l’effet. En conclusion, il est possible que le traitement soit efficace et que cette

efficacité soit suffisamment importante pour être intéressante en pratique. Ce résultat

encourage à réaliser un nouvel essai de plus grande puissance.

16.6- Analyse en sous groupesQuelle légitimité (ou signification statistique) donner à l’analyse en sous groupes ? Il

convient de distinguer deux cas de figure :

- lorsque l’essai thérapeutique a montré une différence significative pour le critère

principal et pour l’ensemble du groupe ; dans ce cas, il peut être intéressant

d’examiner si l’effet thérapeutique ainsi démontré est dans les différents sous

groupes (par exemple, dans les différentes tranches d’âges de la population

étudiée) ; il est souhaitable de ne faire d’analyse que dans des sous groupes pour

lesquels la question est logique ;

- en revanche, lorsque l’essai est négatif sur le critère principal, il n’est pas logique

d’analyser les sous groupes ; l’hypothèse n’ayant pas été vérifiée, il est illogique

de formuler à postériori d’autres hypothèses.

Il faut garder à l’esprit que les sous groupes n’ont pas, d’habitude, la puissance

suffisante dans l’étude pour pouvoir être analysés de façon fiable. Les tendances ne

veulent absolument rien dire : (i) si dans l’analyse d’un sous groupe, le bénéfice d’un

traitement n’est pas significatif, ceci ne veut pas dire que le traitement est inefficace

dans ce sous groupe mais peut être que la puissance n’est pas suffisante. Si l’étude

avait été réalisée spécifiquement pour ce sous groupe avec une puissance

37

suffisante, la différence serait peut être significative ; (ii) d’un autre côté, le fait de

discuter une tendance non significative dans un sous groupe, en extrapolant que si

un nombre plus grand de patients avait été inclus, la différence serait certainement

significative, ne peut être acceptable car cette tendance peut très bien ne pas se

vérifier sur une population plus importante avec une puissance suffisante. Exemple :

l’étude ELITE (Lancet 1997) avait pour but d’étudier la tolérance du LOSARTAN

comparée au CAPTOPRIL chez les patients en insuffisance cardiaque. Une

tendance non significative (p = 0.075) en faveur du LOSARTAN par rapport au

groupe CAPTOPRIL a été longuement discutée dans la publication. L’étude ELITE II,

3 ans après, ne retrouvera pas de différence significative entre CAPTOPRIL et

LOSARTAN sur la mortalité (Lancet 2000). D’une manière générale, l’analyse des

sous groupes ne permet que de donner des tendances potentielles pour la création

ou la réflexion de nouvelles études. Les sous groupes d’analyse doivent avoir été

définis, si possible, à priori, pour permettre une bonne définition et une plus grande

homogénéité au sous groupe considéré. Lorsque les sous groupes sont définis à

posteriori, un certain nombre de patients peuvent ne pas avoir été clairement

identifiés comme appartenant ou n’appartenant pas au sous-groupe et peuvent

fausser l’analyse. Exemple : dans l’étude EPISTENT (Circulation 1999) qui analysait

l’intérêt d’un traitement par inhibiteur des récepteurs GPIIB/IIIA lors de l’angioplastie

coronaire, le sous groupe des diabétiques, analysé à posteriori, a été défini sur des

critères discutables. De plus, l’analyse de ce sous groupe montre qu’il existe des

différences importantes au niveau des caractéristiques des patients qui n’ont pas été

prise en compte lors de l’analyse. Il n’y a que lorsqu’un bénéfice apparaît significatif

dans un sous groupe que l’on peut réellement penser qu’il existe un bénéfice du

traitement dans le sous-groupe considéré, à condition que tous les facteurs

confondants (connus) aient été envisagés.

17- DISCUTER LA SIGNIFICATION CLINIQUE DES RESULTATS

La valeur observée du « p » n’est pas le reflet de l’efficacité du traitement ou

de la solidité du résultat. Des grands essais pouvant inclure des dizaines milliers de

patients peuvent mettre en évidence des différences significatives mais non

nécessairement cliniquement pertinents. En fait, le résultat du test est surtout

38

dépendant de la taille de l’essai et de l’écart de risque entre les deux groupes. En

conclusion, le « p » peut dépendre essentiellement des « moyens » mis dans la

réalisation de l’essai. Ce point est illustré dans le tableau ci-dessous : le résultat des

essais 1 et 2 est identique (baisse relative du risque de 28 %), par contre le « p » est

différent selon la taille de l’échantillon et l’écart de risque observé. Pour une même

efficacité relative, il est possible d’obtenir ou non un « p » statistiquement significatif.

Pour connaître la pertinence de l’essai, il est préférable de comparer les

pourcentages non pas en baisse relative du risque, mais en baisse absolue, et de

s’interroger sur l’impact clinique des résultats.

Valeur du « p » en fonction de la taille de l’échantillon et de l’écart de risque entre les

deux groupes

Décès Baisse relative

Baisse absolue

Nombre de patients à

traiter pour éviter un

décès

« p » 200

sujets

« p »1 000 sujets

« p »2 000 sujets

« p »4 000 sujets

Essai n°1

Traité 5 %- 28 % 2 50 0.55 0.18 0.059 < 0.01

Non traité 7 %

Essai n°2

Traité 20 %- 28 % 8 12.5 0.18 0.003 < 0.001 < 0.0001

Non traité 28 %

La notion de diminution ou d’augmentation du risque relatif et du risque absolu est

une notion importante. Exemple : dans une étude concernant l’infarctus, si la

mortalité est passée de 10 % à 5 % après le traitement par X, il existe donc une

diminution du risque absolu de décès de 5 % (10 % - 5 %). En terme de risque relatif,

ceci correspond à une diminution de 50 % de la mortalité (50 % de patients en moins

sont morts). Le calcul du risque relatif amplifie le gain obtenu et est souvent le chiffre

mis en avant. Ce risque relatif est dépendant de la fréquence des événements dans

la population : plus cette fréquence est basse, plus un petit changement va avoir une

incidence importante sur le risque relatif. Exemple : passer de 4 % à 3 % de mortalité

correspond à une diminution de 25 % du risque relatif et de 1 % de risque absolu (ce

39

qui est peu). Il faut donc se méfier, lorsque la diminution ou l’augmentation du risque

relatif est importante, que la diminution ou l’augmentation du risque absolu reste

également intéressante. Par exemple, une diminution de 0.5% de risque absolu,

même si elle correspond à une diminution de 30 % de risque relatif, doit nous faire

poser la question du coût engagé pour une telle diminution d’événements : une

diminution de 0.5 % du risque absolu signifie qu’il faudra traiter 200 patients pour

obtenir un événement en moins. Si le traitement coûte cher ou est compliqué et que

l’événement analysé est par exemple une diminution d’un symptôme, le coût engagé

est prohibitif.

Il faut bien comprendre que la réduction relative du risque n’exprime pas un bénéfice

individuel du traitement. Dans cet autre exemple, comparons l’étude WOSCOPS et

une étude X, réalisée sur une population dont le risque cardiovasculaire est

inférieur. Considérons que dans ces deux études, la réduction relative du risque est

identique sur le critère principal (décès d’origine coronarienne ou IDM non mortels) :

dans l’étude WOSCOPS, le taux de survenue de ce critère est de 7.9% dans le

groupe placebo et de 5.5% dans le groupe pravastatine, et dans l’étude X, le taux de

survenue est de 0.79% dans le groupe placebo et de 0.55% dans le groupe sous

traitement, soit une réduction relative du risque de 31%, identique dans les deux

études. En revanche, le bénéfice absolu (ou la réduction absolue du risque) du

traitement observé dans l’étude WOSCOPS est 10 fois supérieur à celui observé

dans l’étude X : la réduction absolue du risque de survenue du critère principal est

respectivement de 2.4% (étude WOSCOPS) et 0.24% (étude X).

18- VERIFIER QUE LES RESULTATS OFFRENT UNE REPONSE À LA QUESTION ANNONCEE

Donner une réponse à la question annoncée à travers les résultats définit la

validité interne de l’étude. La validité interne de l’étude nécessite que le résultat soit

issu d’une démarche hypothético-déductive pour être valide sur un plan

méthodologique. Cela signifie que le résultat avancé doit correspondre directement

formulé à priori, et dont le test était l’objet spécifique de l’essai. Il convient d’éliminer

la possibilité que l’hypothèse ait pu être formulée après la prise de connaissance des

résultats de l’essai (formulation post-hoc). Ce changement post-hoc de l’hypothèse

testée, du critère de jugement, de la population cible supprime sa valeur déductive à

40

un résultat et le transforme en un résultat inductif. Cela signifie encore qu’un résultat

non issu d’une démarche hypothético-déductive est de nature inductif et exploratoire.

19- VERIFIER QUE LES CONCLUSIONS SONT JUSTIFIEES PAR LES RESULTATS

Les conclusions doivent s’inscrire dans la logique des seuls résultats fiables et

se cantonner au thème qui était l’objet du travail. La conclusion de l’étude doit ainsi

comporter la reprise du résultat principal et les ouvertures qui sont attendues en

sachant qu’il faut se méfier beaucoup des extrapolations générales. Prenons

l’exemple d’une étude sur l’infarctus dont le résultat aboutit à une diminution de 1 %

d’événements, même si elle correspond à une diminution du risque relatif de 30 %,

une conclusion disant qu’il existe une grande diminution du risque d’événement n’est

pas acceptable. Dans une étude dont le critère principal est composite, la

généralisation du résultat à l’ensemble des éléments du critère composite doit être

prudemment analysée. Dans l’exemple où un traitement X fait diminuer

significativement le risque de décès, d’infarctus et de récidives de douleurs

thoraciques, il faut bien vérifier que la conclusion a potentiellement tenu compte des

analyses en sous groupes (Exemple : pas de diminution des décès et des infarctus

mais uniquement des récidives de douleurs thoraciques).

Une bonne conclusion d’essai clinique est factuelle : elle n’est ni du registre de

l’opinion, ni à plus forte raison de celui de la spéculation ; elle est prudente, nuancée,

sans extrapolation abusive. Reprenant tous les aspects qu’il était prévu d’aborder

dans l’essai, elle fait la part de ce qui a été « démontré » et de ce qui ne l’a pas été.

Elle ne fait pas le tri des informations, pour ne retenir que les favorables. Tenant le

plus grand compte des résultats d’efficacité, elle ne néglige pas pour autant, dans le

domaine du médicament, les données disponibles sur la sécurité d’emploi. Elle

rappelle la concordance ou la discordance des résultats de l’essai avec les données

validées.

20- INDIQUER LE NIVEAU DE PREUVE DE L’ETUDE (GRILLE DE L’ANAES)

20.1- Niveau de preuve d’une étude

41

Le niveau de preuve d’une étude caractérise la capacité de l’étude à répondre

à la question posée (cf. tableau ci-dessous).

Cette capacité se juge, d’une part, par la correspondance de l’étude au cadre du

travail (sujet, population, paramètres de jugement pris en compte), et d’autre part les

caractéristiques suivantes :

- l’adéquation du protocole d’étude à la question posée (voir page 16) ;

- l’existence ou non de biais importants dans la réalisation, et en particulier

l’adaptation de l’analyse statistique aux objectifs de l’étude ;

- la puissance de l’étude et en particulier la taille de l’échantillon.

Le niveau de preuve est directement tributaire du sujet abordé et des questions

posées. Un fort niveau de preuve pour une étude thérapeutique n’est pas toujours

obtenu d’un essai contrôlé randomisé. Citons par exemple l’utilisation des protocoles

compassionnels pour la recherche d’indication de certaines thérapeutiques

chirurgicales (Exemple : stent dans l’anévrysme rompu de l’aorte). Selon le domaine

exploré (diagnostic, pronostic, dépistage, traitement, etc.) un fort niveau de preuve

peut être donné par des études dont le type de protocole sera différent.

Une classification générale du niveau de preuve d’une étude peut être proposée à

partir des classifications de la littérature et des composantes vues ci-dessus :

un fort niveau de preuve correspond à une étude dont :

le protocole est adapté pour répondre au mieux à la question posée.

la réalisation est effectuée sans biais majeur,

l’analyse statistique est adaptée aux objectifs,

la puissance est suffisante ;

un niveau intermédiaire est donné à une étude de protocole similaire, mais

présent une puissance nettement insuffisante (effectif insuffisant ou puissance

a posteriori insuffisante) et/ou des anomalies mineures ;

un faible niveau de preuve peut être attribué aux autres types d’études.

20.2- L’évidence scientifiqueL’évidence scientifique est appréciée lors de la synthèse des résultats de

l’ensemble des études sélectionnées. La gradation de l’évidence scientifique

s’appuie sur : - l’existence de données de la littérature pour répondre aux questions

posées, - le niveau de preuve des études disponibles, - la cohérence de leurs

résultats.

42

Pour une question donnée, il est possible de classer les différentes études en

fonction de leur niveau de preuve. Pour chaque niveau, l’attention est portée aux

résultats des études quant aux paramètres de jugement définis préalablement pour

répondre aux questions posées. Une analyse descriptive donne les résultats et les

explications nécessaires pour comprendre les éventuelles divergences. Si les

résultats sont tous cohérents entre eux, des conclusions peuvent facilement être

formulées. En cas de divergence des résultats, il appartient aux « experts » de

pondérer les études en fonction de leur niveau de preuve, de leur nombre, et pour

des études de même niveau de preuve en fonction de leur puissance.

20.3- Accord professionnelL’expression d’un accord professionnel doit traduire un consensus professionnel. Un

accord professionnel nécessite d’être validé par un groupe de lecture externe au

groupe de travail à l’origine de l’accord professionnel. Les groupes d’experts à

l’origine d’un accord professionnel doivent être représentatifs des différents

professionnels de santé concernés et des différentes modalités d’exercice.

20.4- Grade des recommandationsEn fonction des données fournies par la littérature et de l’avis des professionnels les

notions suivantes doivent être rappelées :

- une classification des recommandations doit s’adresser aux

professionnels destinataires de celle-ci ;

- la classification a pour but d’expliciter les bases des recommandations

(volonté de transparence) ;

- la gradation proposée est la même que les recommandations soient

d’ordre thérapeutique, diagnostique ; elle peut se baser sur plusieurs

gradations pour le niveau de preuve des études.

Les recommandations proposées sont classées en grade A, B ou C selon les

modalités suivantes (cf. tableau ci-dessous) :

- une recommandation de grade A est fondée sur une preuve scientifique

établie par des études de fort niveau de preuve, par exemple essais

comparatifs randomisés de forte puissance et sans biais majeur, méta-

analyse d’essais contrôlés randomisés, analyse de décision basée sur

des études bien menées ;

43

- une recommandation de grade B est fondée sur une présomption

scientifique fournie par des études de niveau intermédiaire de preuve :

par exemple, essais comparatifs randomisés de faible puissance,

études comparatives non randomisées bien menées, études de

cohorte ;

- une recommandation de grade C est fondée sur des études de moindre

niveau de preuve par exemple, études cas-témoin, séries de cas.

En l’absence de précision, les recommandations proposées ne correspondent qu’à

un accord professionnel. L’existence d’une évidence scientifique forte entraîne

systématiquement une recommandation de grade A quel que soit le degré d’accord

professionnel. L’appréciation de la force des recommandations repose donc sur le

niveau d’évidence scientifique et l’interprétation des experts.

NIVEAU DE PREUVE ET GRADE DES RECOMMANDATIONS (selon l’ANAES)

NIVEAU DE PREUVE SCIENTIFIQUEFOURNI PAR LA LITTERATURE

GRADE DES RECOMMANDATIONS

Niveau 1

- Essais comparatifs randomisés de forte puissance - Méta-analyse d’essais comparatifs randomisés- Analyse de décision basée sur des études bien menées.

A

Preuve scientifique établie

Niveau 2

- Essais comparatifs randomisés de faible puissance- Etude comparatives non randomisées bien menées- Etude de cohorte

B

Présomption scientifique

Niveau 3

- Etude cas-témoin

Niveau 4

- Etudes comparatives comportant des biais

C

Faible niveau de preuve scientifique

44

importants- Etudes rétrospectives- Séries de cas- Etudes épidémiologiques descriptives (transversale, longitudinale)

20.5- Grille de lecture Les critères méthodologiques recherchés pour identifier le niveau de preuve des

études pourraient être rassemblés dans cette grille de lecture, publiée par l’ANAES

(cf. tableau ci-dessous). Signalons qu’il existe plusieurs autres grilles de lecture dont

la grille CONSORT destinée aux essais contrôlés randomisés, avec 2 groupes

parallèles, qui est la plus reconnue des éditeurs des grands journaux (site Web

http :www.consort-statement.org/)

GRILLE DE LECTURE D’UN ARTICLE THERAPEUTIQUE

Titre et auteur de l’article : Rev/Année/Vol/Année :

Thème de l’article :

OUI NON ?

1. Les objectifs sont clairement définis q q q

2. Méthodologie de l’étude

* l’étude est comparative

- l’étude est prospective

- l’étude est randomisée

* le calcul du nombre de patients a été fait a priori

* la population de l’étude correspond à la population

habituellement traitée

* toutes les variables cliniquement pertinentes sont

prises en compte

* l’analyse statistique est adaptée

* l’analyse est faite en intention de traiter

qqqq

q

qqq

qqqq

q

qqq

qqqq

q

qqq

45

3. Les résultats sont cohérents avec l’objectif de l’étude et

tiennent compte d’éventuels effets secondaires q q q

4. Application clinique

* la signification clinique est donnée

* les modalités de traitement sont applicables en routine

qq

qq

qq

21- DISCUTER LA OU LES DECISIONS MEDICALES AUXQUELLES PEUBENT CONDUIRE LES RESULTATS ET LA CONCLUSION DE L’ARTICLE

La pertinence clinique (« clinical relevance ») permet de s’assurer que le

résultat de l’essai correspond à un effet suffisamment important et concernant un

critère cliniquement pertinent. L’estimation de la taille de l’effet doit être suffisamment

précise pour pouvoir raisonnablement éliminer le fait que l’effet serait petit, et donc

sans intérêt en pratique. Cette évaluation repose sur l’emploi des indices d’efficacités

(risque relatif, nombre de sujets nécessaires de traiter pour éviter un événement,

NNT) et des intervalles de confiance (cf. Questions 16 et 17). L’effet a été déterminé

par rapport à un comparateur adapté, placebo ou traitement de référence validé. Les

patients de l’essai doivent être représentatifs des patients vus en pratique médicale

courante afin d’assurer l’extrapolabilité (« extrapolability ») du résultat à la pratique :

même définition de la maladie, pas de sélection excessive sur le sexe, l’âge, les

comorbidités, etc. Le but est d’obtenir un échantillon relativement représentatif de la

population ciblée. En particulier, ils ne doivent pas avoir été sur-sélectionnés. Pour

être représentative de la pratique médicale de tous les jours, l'inclusion des patients

doit être basée sur des critères larges, peu sélectifs tels qu'utilisés en pratique pour

définir la maladie cible. L'essai est alors centré sur la pratique, avec comme but de

documenter l’utilisation du traitement telle qu'elle sera faite avec ce traitement. C'est

un essai pragmatique dont le but est de savoir si l'utilisation du traitement permettra

en pratique d'atteindre les objectifs thérapeutiques (Question 8).

22- IDENTIFIER LA STRUCTURE IMRAD (INTRODUCTION, MATÉRIEL ET METHODE, RESULTATS, DISCUSSION) ET S’ASSURER QUE LES DIVERS CHAPITRES DE LA STRUCTURE REPONDENT À LEURS OBJECTIFS RESPECTIFS

La base de l’article est la structure dit IMRAD : I : Introduction, M : Matériel et

Méthodes, R : Résultats, A : and, D : Discussion.

46

Introduction - Elle comprend en général 3 parties : (1) aspect général du sujet, (2)

aspect particulier du problème, (3) but du travail. Cette troisième partie est une

phrase clé ; elle pose une question qui doit appeler une réponse. Cette phrase peut

servir à bâtir le résumé.

Matériel et Méthodes - Cette section doit répondre aux questions suivantes : - quel

a été le matériel d’étude ? (sous le terme matériel peuvent être compris des

malades ; il faut s’assurer ici que le matériel est bien cohérent avec le but de l’étude),

- ce que l’on a cherché à évaluer, - les critères de jugement. Les méthodes d’étude

du matériel ou des malades doivent être adaptées à la question posée. Elles doivent

être cohérentes et pertinentes. Les méthodes statistiques utilisées devront être

appropriées prenant ainsi en compte - le type de variables étudiées, - les conditions

dans lesquelles les tests seront employés (risques alpha et bêta, et la différence

attendue pour calculer le nombres de sujets nécessaire), - en cas de comparaisons

multiples, la conservation du risque alpha fixé (cf Question 16).

Résultats - Ce chapitre doit tenir tous les résultats et rien que les résultats. Le texte

est complété de tableaux, qui contiennent des chiffres et de figures, qui sont de type

variés. Le lecteur doit être capable d’analyser la présentation, la précision, la lisibilité

des tableaux et des figures. Ceci doit être en cohérence avec le but du travail et les

méthodes utilisées. De même, le lecteur doit être capable de juger de l’objectivité ou

de la subjectivité des résultats. Ceci n’et pas toujours facile. La subjectivité se

rencontre lorsque la réponse à un critère fait entrer des variables liées à une

appréciation non quantifiable.

Discussion – Sa construction doit lui permettre de répondre à plusieurs objectifs :

(1) le premier objectif est de répondre à la question posée. La première phrase de la

discussion répond à la dernière phrase de l’introduction. C’est une phrase clé. Elle

peut servir à bâti le résumé; (2) le deuxième objectif est de juger la qualité et la

validité des résultats. L’auteur de l’article va relever des biais. D’autres biais peuvent

ne pas avoir été pris en compte, qu’il faut savoir détecter. La validité des résultats

doit être établie en fonction de leur signification statistique et clinique. Ils doivent

permettre de répondre à la question posée et de proposer une conclusion justifiée

par ces résultats ; (3) le troisième objectif est de comparer les résultats obtenus avec

ceux de la littérature.

23- F AIRE UNE ANALYSE CRITIQUE DE LA PRESENTATION DES REFERENCES

47

Les références bibliographiques correspondent aux travaux de la littérature qui

justifient l’étude et qui sont discutés à la lumière des résultats. Ces références

peuvent comporter des travaux des auteurs, ce qui indique qu’ils ont à priori une

connaissance et une expérience du sujet. Les références sont présentées selon un

mode propre au journal qui publie les travaux, mais de plus en plus une

uniformisation est utilisée ; Il arrive que l’appel des références soit erroné : erreurs de

transcription du libellé de la référence, erreurs dans la citation du contenu de la

référence. L’analyse critique de la présentation des résultats pourrait être aussi

effectuée à travers l’accessibilité de l’article : se méfier de références de thèses, à

des congrès, ou encore à des articles pour lequel il est noté « article soumis » ou

« article en cours de publication ou sous presse». Juger de la pertinence d’une

référence pourrait sinon se faire à travers le titre de l’article référencé ne pouvant pas

correspondre au thème étudié.

24- FAIRE UNE ANALYSE CRITIQUE DU TITRE

Le rôle du titre est d’annoncer le contenu de l’article. L’analyse critique du titre

doit porter sur le caractère informatif et la présence de mots clés. On ne peut en

juger qu’après avoir bien analysé l’article.

Comment rédiger un titre ? La rédaction du titre est difficile car elle doit allier une

concision extrême à un maximum de précision. Cette tâche est cependant simplifiée

par une souplesse dans l’application des règles de syntaxe. Le titre est en effet

construit comme une succession de mots clés dont l’ensemble n’est pas tenu de

constituer une phrase. Les mots du titre doivent souligner le contenu significatif de

l’article. Celui-ci inclut notamment le type de maladie, le type d’objectif, les

phénomènes étudiés et la population décrite en termes de lieu, de période et

d’individus. Le travail de synthèse fait lors de la rédaction du résumé doit donc être

poussé au point que chaque mot du titre apporte un maximum d’informations.

Deux règles facilitent l’atteinte de l’objectif du titre. Premièrement, les mots peuvent

être ordonnés de manière à mettre les plus informatifs en position forte. Les positions

fortes sont le début et, à moindre niveau, la fin du titre. La situation des mots les plus

informatifs en début des titres est cependant plus facile à faire en anglais qu’en

français. Deuxièmement, la rédaction du titre doit éviter l’utilisation d’éléments non

48

définis qui peuvent obscurcir le sens. Il faut notamment éviter l’utilisation

d’abréviations et de jargon. Certaines revues autorisent l’utilisation d’abréviations et

de termes supposés familiers pour l’ensemble de leurs lecteurs. Par exemple,

l’abréviation HIV (human immunodeficiency virus) est autorisée dans les titres du

Journal of Acquired Immune Deficiency Syndromes and Human Retrovirology, mais

pas dans ceux du New England Journal of Medicine. La mise en position forte des

mots les plus informatifs est facilitée par l’utilisation de sous-titres. Ces sous-titres

peuvent apparaître après un ou deux points placés après le titre principal, un tiret

cadratin ou avec une police de caractère différente, habituellement plus petite que

celle du titre principal. Cette dernière présentation implique que le sous-titre sera

moins perceptible que le titre principal. Un titre avec sous-titre, dans son ensemble,

sera en moyenne plus long qu’un titre unique. Certaines revues n’autorisent d’ailleurs

pas l’utilisation de sous-titres. En pratique, un titre doit être construit

progressivement. Un titre identifiant l’article peut être proposé aux phases initiales de

la rédaction mais, comme pour le résumé, le titre définitif ne doit être écrit qu’une fois

le corps terminé. Cette rédaction progressive peut se faire de la manière suivante :

1) écrire rapidement un titre « spontané », c'est-à-dire sans trop se soucier de

sa longueur, en y incluant les éléments significatifs du contenu définis ci-dessus.

2) analyser ce titre pour classer les mots, des plus informatifs aux moins

informatifs. Cette analyse peut se faire en soulignant différemment les mots

indispensables à la compréhension du champ de l’étude (notamment le type

d’individu et les phénomènes étudiés), les mots moins informatifs mais utiles (le type

d’étude et les caractéristiques précises de la population) et les mots vides

d’information (conjonction, articles…).

3) ordonner les mots informatifs pour les placer en début ou fin de titre et

essayer de supprimer les mots vides d’information.

49

II ANALYSE D’UN ARTICLE D’EVALUATION DIAGNOSTIQUE

II.1- SPECIFICITE D’UN ARTICLE D’EVALUATION DIAGNOSTIQUE

L’évaluation diagnostique désigne l’ensemble des travaux de recherche sur

les prédicteurs d’une maladie, qu’il s’agisse d’un examen « complémentaire »

(imagerie, biologie) ou d’un signe clinique. Afin d’examiner les critères

méthodologiques recherchés et l’analyse des résultats d’un article de procédure

diagnostique, on pourrait classer la population étudiée en deux groupes à l’aide de la

méthode de référence, les malades et les non malades et désigner le « test » comme

le prédicteur étudié. On supposera qu’un test positif ou élevé oriente vers la maladie.

II.2- METHODOLOGIE DE L’ETUDE

- Le test étudié est-il comparé à un test de référence fiable et validé, déterminé a

priori ?

L’évaluation de la validité d’un test se fait par comparaison avec un test diagnostique

de référence reconnu par tous. Il peut s’agir d’un examen anatomo-pathologique,

mais il peut aussi consister en un diagnostic clinique, un test biologique, un examen

radiologique… L’absence de test de référence nécessite de définir le diagnostic

recherché avec un faisceau d’arguments dont la validité doit avoir été évaluée.

- La méthode de sélection des patients est-elle décrite ?

Les caractéristiques des patients recrutés pour l’étude, les critères d’inclusion et

d’exclusion sont déterminants pour pouvoir juger la validité externe de l’étude, c'est-

à-dire la capacité d’utilisation des résultats en pratique quotidienne auprès d’une

population peu sélectionnée.

- La fréquence de la maladie dans l’échantillon étudié correspond-elle aux données

épidémiologiques connues ?

50

Cette donnée permet également de juger la validité externe de l’étude.

- Le terme « normal » est-il défini ?

La maladie doit être clairement définie par le test de référence et par opposition la

normalité. L’attribution d’un diagnostic est en fait effectuée à partir d’un seuil à

déterminer (c’est le cas pour la valeur de marqueurs) au-delà duquel la maladie est

présente avec une probabilité connue et acceptée.

- La méthodologie du test diagnostique est-elle décrite pour pouvoir être reproduite ?

Doivent être décrites la préparation du patient, la réalisation du patient, l’analyse et

l’interprétation des résultats.

- La reproductibilité (fiabilité) du test est-elle analysée?

Le même test appliqué plusieurs fois à la même personne donne-t-il des résultats

similaires ?

- La variabilité inter ou intra-observateur est-elle calculée ?

Les résultats d’un test revu par 2 ou plusieurs personnes différentes ou par la même

personne à plusieurs reprises présentent-ils des variations d’interprétation

(coefficient kappa, coefficient intra-classe).

- Biais dans les études d’évaluations diagnostiques ?

Si le test est réalisé en connaissance des antécédents et de l’histoire clinique du

sujet, un biais pourra survenir dans l’interprétation des résultats du test [plus

facilement positif en cas d’antécédents (« biais du voyant »)]. Il est également

important de vérifier que le résultat du test n’a pas modifié la conduite diagnostique

au cours de l’évaluation. Dans le cas contraire, un biais peut survenir si le processus

qui aboutit à définir les malades et les non malades n’est pas strictement identique

chez les sujets dont le test est positif et chez ceux dont le test est négatif (workup

bias – « biais d’exécution »). Un autre biais concerne la population étudiée : les

résultats obtenus dépendent des caractéristiques de la population étudiée et ne sont

pas forcément transposables à une autre population (spectrum bias). Ce biais est lié

à un déplacement des distributions du prédicteur étudiée chez les malades et les non

malades (globalement, la moyenne des tensions artérielles dans une autre

51

population augmente chez les malades et chez les non malades) : il entraîne une

modification des performances du test (y compris des sensibilités et spécificités).

II.3- ANALYSE DES RESULTATS

Dans la pratique, de nombreux tests diagnostiques aboutissent à un résultat

exprimé sous forme discrète de type « présence vs absence », « normal vs

anormal », « positif vs négatif ». La manière la plus simple de représenter les

résultats consiste à dresser le tableau à quatre cases (cf. Tableau 1 ci dessous).

Dans cet échantillon, la fréquence de la maladie (encore appelée prévalence, notée

P) est donnée par P = (a + c) / (a + b + c + d).

Tableau 1- Evaluation d’un test diagnostique

Malades(a + c)

Non malades(b + d)

Test positif (a + b)

Vrais positifs (a) Faux positifs (b)

Test négatif(c + d)

Faux négatifs (c) Vrais négatifs (d)

Les critères les plus utilisés pour l’évaluation d’un test en « tout ou rien » sont listés

dans le tableau 2 ci-dessous.

* La sensibilité est la fréquence avec laquelle le test est positif chez les sujets malades.* La spécificité est la fréquence avec laquelle le test est négatif chez les non-malades.* L’efficacité diagnostique correspond au pourcentage de bien classés par le test. Ces valeurs s’expriment avec un intervalle de confiance.

* Les valeurs prédictives expriment comment les résultats d’un examen

diagnostique vont prédire la présence ou l’absence d’une maladie ; VPP et VPN

dépendent de la sensibilité, de la spécificité et de la prévalence de la maladie.

* L’étude des courbes ROC (Receiver Operating Characteristic curves) permet

d’argumenter le choix du seuil diagnostique d’un test en recherchant le meilleur

rapport entre sensitbilité et spécificité de ce test. La sensibilité et la spécificité varient

52

souvent en sens inverse ; un bon test est à la fois sensible et spécifique : sur la

courbe ROC, l’aire sous la courbedoit être supérieur ou égale à 0,70.

* Le rapport de vraisemblance (likehood ratio = LR)

Le LR permet de quantifier la vraisemblance d’un diagnostic fourni par un test positif,

ce qui conditionne l’utilité du test. Il correspond au rapport de la probabilité qu’un test

positif corresponde réellement à une maladie par rapport à la probabilité qu’un test

positif ne corresponde pas à la présence de la maladie.

- LR d’un test positif = (vrais positifs / malades) / (faux positifs / non-malades)

= sensibilité / (1 – spécificité)

Avant de pratiquer le test diagnostique étudié, un patient a une probabilité p0 d’avoir

la maladie. Après le test, cette probabilité sera différente p1. Le LR d’un test positif

permet de calculer cette probabilité p1 à partir de la connaissance de la probabilité

avant le test. La probabilité pré-test (p0) ou prévalence correspond ainsi à la

proportion de patients malades au sein de la population générale ([a+c] / [a+b+c+d]).

C’est la probabilité de la maladie avant le test diagnostique. La probabilité post-test

p1, c’est la probabilité pré-test combinée avec le LR du test positif (il ne s’agit pas

d’une multiplication directe). On peut l’obtenir facilement en utilisant le normogramme

de Fagan. Si le LR est égal à 1, la probabilité du diagnostic est la même avant et

après le test. Le test paraît donc peu utile. Plus les valeurs du LR s’éloignent de 1 et

plus le test présentera de l’intérêt. Les valeurs de LR pour un test positif qui sont

supérieures à 1 montrent une augmentation de la confiance dans le diagnostic

(augmente la probabilité prétest de la maladie), alors que les valeurs inférieures à 1

reflètent une infirmation du diagnostic (diminue la probabilité prétest de la maladie).

Le LR présente trois avantages importants :

1) il ne change pas avec la prévalence de la maladie. Il est un bon reflet de la

valeur du test quel que soit le groupe de population auquel celui-ci est appliqué ;

2) il est utilisable pour plusieurs niveaux de résultats d’un test. Pour chaque

niveau, il procure une information différente qui permet d’interpréter au mieux les

résultats du test ;

3) il permet de calculer de manière individuelle l’intérêt de réaliser le test à

partir de la probabilité initiale de maladie du patient.

- Les résultats sont analysés en aveugle quand c’est possible.

53

Par exemple, y a-t-il comparaison en aveugle du test étudié et du test de référence

ou lecture en aveugle d’un examen d’imagerie par une radiologue n’ayant pas réalisé

l’examen et/ou ne connaissant pas le diagnostic.

II.4- APPLICATION CLINIQUE DU TEST

Le test doit pouvoir apporter un information utilise pour la décision diagnostique et

thérapeutique du médecin. Par ailleurs, il doit pouvoir résulter du diagnostic ainsi réalisé et

de ses conséquences une amélioration de l’état de santé des individus (utilité pour le

patient). Ces utilités sont recherchées par des études complémentaires, postérieures aux

études étudiant fiabilité et validité, comparatives des deux stratégies diagnostiques incluant

ou non le test.

Tableau 2- Critères les plus utilisés pour l’évaluation d’un test diagnostique[ P = prévalence = (a + c) / (a + b + c + d)]

Critères Signification Formule

Sensibilité Se Proportion de tests positifs chez les malades

a / (a + c)*

Spécificité Sp Proportion de tests négatifs chez les non malades

d / (b + d)

Valeur prédictive positive

VPP Probabilité que le sujet soit malade si le test est positif

a / (a + b)ou (Se P) / (Se P+(1-P) (1-Sp))

Valeur prédictive négative

VPN Probabilité que le sujet ne soit pas malade si le test est négatif

d / (c + d)ou(Sp (1-P)) / (Sp (1-P) + (1-Se) P)

Précision ou efficacité diagnostique

Prec Proportion de tests dont le résultat est correct

(a + d)/(a + b + c + d) ouSe P + Sp (1-P)

Rapport de vraisemblance positif

RVP Rapport de la proportion de tests positifs chez les malades sur la proportion de tests positifs chez les non malades

a (b + d) / d (a + c)ouSe / (1 – Sp)

54

Rapport de vraisemblance négatif

RVN Rapport de la proportion de tests négatifs chez les non malades sur la proportion de tests négatifs chez les malades

b (a + c) / b (b + d)ouSp / (1 – Se)

Ces valeurs s’expriment avec un intervalle de confiance.

GRILLE DE LECTURE D’UN ARTICLE DIAGNOSTIQUE

Titre et auteur de l’article : Rev/Année/Vol/Pages :


OUI NON ?

1. Les objectifs sont clairement définis q q q

2. Méthodologie

* le test étudié est comparé à un test de référence

fiable et valide, déterminé a priori

* la méthode de sélection des patients est décrite

* la fréquence de la maladie dans l’échantillon

étudié correspond aux données épidémiologiques

connues

* le terme « normal » est défini

q

qq

q

q

qq

q

q

qq

q

3. Analyse des résultats

* les résultats sont analysés en aveugle quand

c’est possible

* les caractéristiques diagnostiques du test sont

calculées ou calculables (sensibilité, spécificité)

q

q

q

q

q

q

4. L’utilité clinique du test est recherchée q q q

Commentaires :

55

III ANALYSE D’UN ARTICLE DE PRONOSTIC- ANALYSE DE COHORTE

Pour fournir des éléments de réponse à une question pronostique, les articles

à analyser sont habituellement soit des études contrôlées randomisées (cf. analyse

d’un article thérapeutique) soit une étude de cohorte. Dans ce dernier cas, l’attention

lors de la lecture d’un article sur les facteurs pronostiques d’une affection doit être

portée sur les aspects suivants.

III.1- DEFINITION DE LA COHORTE

Une étude de cohorte consiste à suivre, pendant un temps donné (étude

longitudinale prospective), 2 groupes de patients, un groupe de patients exposés

(par exemple à un médicament) et un groupe témoin non exposé, et de recherche

systématiquement l’événement-cible (par exemple un effet indésirable). On peut

comparer l’incidence (R1) de l’événement-cible dans le groupe exposé à l’incidence

(R0) du groupe témoin. On calcule ainsi le risque relatif. Plus d’incidence R1 est

élevée par rapport à R0, plus le risque relatif est >1.

Le nombre nécessaire de patients pour constituer une cohorte est généralement

très important. La taille de l’échantillon dépend de la fréquence attendue de l’effet

indésirable dans le groupe témoin (« bruit de fond ») et de l’augmentation du risque

dans le groupe exposé au traitement.

ETUDE DE COHORTE

On constitue

2 groupes :

Evénement -

cible

Pas

d’événement

Incidence de

l’événement

cible

Risque Relatif(RR)

Exposé (facteur

causal présumé)

a b R1 = a/a+bR1 / R0 =

a (c+d) / c (a+b)

Non exposé c d R0 = c/c+d

56

Le risque relatif est toujours encadré par un intervalle de confiance à 95%.

EXEMPLE : étude de cohorte comparant l’incidence du mésothéliome parmi les

sujets exposés à l’amiante et parmi les sujets non exposés. Etude de l’incidence des

hémorragies digestives chez des patients prenant des anti-inflammatoires non

stéroïdiens par rapport à un groupe témoin.

III.2- METHODOLOGIE

- Les modalités de constitution de la cohorte sont-elles précisées ?

On distingue les études de cohorte prospectives et les études de cohorte historiques,

rétrospectives. L’exposition de référence est précisée.

L’un des biais classiques d’une étude de cohorte consiste à définir cette cohorte

rétrospectivement à partir du suivi d’une autre cohorte utilisée pour une autre étude.

- Tous les patients ont-ils été identifiés au même stade de la maladie ?

* il faut s’assurer que la définition des stades de la maladie est unanime. Par

exemple, lors de la conférence de consensus sur le suivi des patients ayant un

mélanome de stade I opéré, les experts ont remis en cause la définition du stade I du

mélanome. Comment, dès lors, intégrer les mêmes patients dans une cohorte

multicentrique ou comparer des études différentes s’il n’y a pas d’accord sur la

définition ou le début du suivi ?

* pour juger de l’évolution de la maladie, il est essentiel que tous les patients

soient le plus similaires possibles, au départ de la cohorte pour le stade de la

maladie ;

* le début du suivi doit être le même pour tous les patients de la cohorte.

- Les critères d’inclusion et d’exclusion sont-ils spécifiés et adéquats ?

La définition de la population étudiée est une connaissance nécessaire à

l’appréciation du pronostic : moment de l’inclusion dans le cours de la maladie,

critères diagnostiques, critères de sévérité, caractéristiques démographiques.

Souvent, il s’agit de sous-groupes sélectionnés du fait du recrutement propre des

57

expérimentateurs. Par exemple, l’évolution des infections urinaires sera fort

différente si l’étude est faite dans un service d’urologie ou en ambulatoire.

- Les biais possibles sont-ils pris en compte ?

L’analyse des biais est un temps essentiel qui, comme pour les études sur la

causalité, permet de s’assurer des effets propres de tel ou tel facteur pronostique :

biais de recrutement (effet centre), biais de sélection, biais temporel.

- Le suivi est-il complet et correctement réalisé ?

La durée du suivi est précisée : elle est suffisamment longue compte tenu de

l’évolution naturelle de la maladie. Tous les patients sont pris en compte. Beaucoup

d’études annoncent une série importante de patients (souvent constituée a

posteriori) avec des résultats sur une fraction minime d’entre eux. L’interrogation

constante concerne les données manquantes : « qu’est-il advenu de ces

patients ? ». Un taux au-delà de 10 % à 15 % de perdus de vue devient préjudiciable

à l’interprétation des résultats d’une étude ; ce taux est à interpréter en fonction de la

question.

- Les critères de jugement objectifs de l’évolution sont-ils pertinents, fiables et valides

et tous utilisés ?

Les critères de jugement doivent pouvoir répondre à l’objectif de l’étude. Ils doivent

être pertinents. Seul un clinicien du domaine est en mesure de l’apprécier,

cependant les paramètres constants seront la survie, la mortalité, la récidive, etc.

III.3- RESULTATS

- L’interprétation de ces critères est-elle objective ?

Elle tient compte de la comparabilité des groupes et de la durée du suivi de chaque

individu. Pour la survie, l’analyse se fait préférentiellement selon les méthodes

actuarielles (modèle de Cox, méthode de Kaplan-Meier). La mortalité doit être

appréciée de façon brute et après ajustements sur des facteurs généraux tels que

l’âge, le sexe, et d’autres déterminants propres à la pathologie étudiée.

58

- Les résultats sont-ils ajustés sur les autres facteurs pronostiques ?

Une relation peut être mis en évidence entre le pronostic et le facteur étudié. Il est

important d’analyser cette relation avec la prise en compte des autres facteurs

(maladies associées, âge de début de la maladie, etc.), en particulier lors d’une

analyse multivariée qui permet de relativiser l’importance des facteurs les uns par

rapport aux autres.

GRILLE DE LECTURE D’UN ARTICLE DE PRONOSTIC(ANALYSE DE COHORTE)

Titre et auteur de l’article :Rev/Année/Vol/Pages :


OUI NON ?

1. Les objectifs de l’étude sont clairement définis q q q

2. Méthodologie

* les modalités de constitution de la cohorte sont

précisées

* tous les patients de la cohorte ont été identifiés

au même stade de la maladie

* les critères d’inclusion et d’exclusion sont

spécifiés et adéquats

* les biais possibles sont exposés et les méthodes

pour les prendre en compte sont décrites

* le suivi est complet et correctement réalisé

* les critères de jugement sont pertinents, fiables et

tous utilisés

3. Les résultats

* l’interprétation de ces critères est objective

* les résultats sont ajustés pour les autres facteurs

pronostiques

q

q

q

q

q

q

q

q

q

q

q

q

q

q

q

q

q

q

q

q

q

q

q

q

59

IV ANALYSE D’UN ARTICLE CAS-TEMOINS

Les enquêtes d’observation, rassemblent principalement les enquêtes de

cohortes et les enquêtes cas-témoins, qui comportent des groupes de comparaison

non randomisés. Les études cas-témoins ont pour principe de comparer la fréquence

d’exposition chez des sujets ayant présenté l’événement à la fréquence

correspondante chez des sujets n’ayant pas réalisé l’événement, pris comme

témoins. Seules, ces dernières seront indiquées si la survenue de l’évènement est

très rare et/ou retardée. Ces études devraient être utilisées comme alternative à

l’essai randomisé, lorsque l’attribution par tirage au sort n’est pas réalisable (pour

des raisons éthiques notamment). Elles sont donc réservées à la recherche de

facteurs de risque, étiologiques, d’une maladie. Elles sont particulièrement

intéressantes pour les maladies rares.

IV.1- DEFINITION DES TEMOINS

Une étude cas-témoins consiste à former un groupe de patients présentant

l’évènement- cible (cas), à former un groupe témoin indemne et à rechercher

systématiquement dans ces 2 groupes l’exposition au facteur causal (médicament,

toxique…) incriminé.

Structure d’une étude cas-témoins

ETUDE CAS – TEMOIN

On constitue :

2 groupes :

Cas :

Evènement-cible

Témoin :

pas d’événement

Proportion Odds ratio

(OR)

Exposé (facteur

causal présumé)

a b a / b

OR = ad / bc

non exposé c d c / d

60

On ne peut pas calculer d’incidence de l’effet indésirable puisque l’on ne part pas de

la population exposée, l’investigateur fixant au départ le nombre de cas et le nombre

des témoins. Mais on peut approcher le risque relatif par l’odds ratio (OR) (cf.

tableau – Structure d’une étude cas-témoins)

Mais il s’agit d’une étude habituellement rétrospective avec 2 grandes difficultés liées

à la présence de facteurs de confusion :

1. la constitution du groupe témoin. Elle se fait par appariement avec le groupe

« cas » en prenant en comte des données démographiques et médicales, mais il se

peut que les 2 groupes diffèrent par des facteurs connus ou inconnus ;

2. la nécessité d’une grande qualité de recueil de l’information. Les données sont

recueillis à partir des dossiers médicaux ou en interrogeant les patients.

Une étude cas-témoin ne permet pas de conclure formellement que l’exposition

significative à un facteur X est le facteur causal de la maladie étudiée.

IV.2- METHODOLOGIE

- Les populations prises en compte sont-elles bien définies ?

Les caractéristiques (âge, sexe…) de la population doivent être connues, en

particulier si les facteurs de risque et l’événement-cible étudiés peuvent être liés à

ces caractéristiques. L’analyse statistique devra alors pendre en compte ces

caractéristiques comme facteurs de confusion possible expliquant l’association

facteur de risque – événement – cible.

- Les groupes sont-ils homogènes ?

Dans une étude cas-témoin, les variables d’appariement doivent être décrites. (cf.

METHODES STATISTIQUES)

- Les facteurs de risque sont-ils bien définis ? L’exposition et les événements-cibles

ont-ils été mesurés de la même manière dans les 2 groupes faisant l’objet de la

comparaison ?

Au cours des études cas-témoin, il peut exister un biais de surveillance quant à la

recherche de l’exposition au facteur causal incriminé. Ce biais survient quand les

investigateurs avertis du risque potentiel pourraient avoir tendance à rechercher plus

61

attentivement la présence de l’événement-cible dans les groupes exposés, ce qui

peut aboutir à une surestimation du risque.

- Quelle est la précision de l’estimation du risque ?

Le risque relatif est toujours encadré par un intervalle de confiance. Si l’intervalle de

confiance n’englobe pas la valeur (par exemple un RR ou OR = 4,5 avec un IC95 =

2,8 – 6,4), l’incidence de l’événement-cible dans le groupe exposé est considérée

comme significativement supérieure à celle du groupe témoin, et on conclut que le

facteur présumé est un facteur de risque pour l’événement-cible considéré. La limite

inférieure de l’estimation du RR ou OR de survenue de l’événement-cible constitue

une estimation minimale de la force de l’association. Dans une étude où l’on ne peut

établir de relation statistiquement significative entre un facteur et un événement-

cible, la limite supérieure de l’IC indique néanmoins l’importance possible d’un

événement-cible.

62

V MODALITES DE REDACTION DU RESUME

V.1- INTRODUCTION

Le rôle du titre est d’annoncer le contenu de l’article alors que celui du résumé

est d’informer de manière abrégée sur le contenu de l’article. Le titre et le résumé

sont, par ailleurs, la partie de l’article la plus lue. En effet, ils sont distribués sur les

bases bibliographiques informatisées, accessibles au niveau du monde entier. Ils

doivent donner envie à la personne qui lit le résumé, de lire l’ensemble de l’article.

V.2- REGLES DE REDACTION DU RESUMÉ STRUCTURE

La plupart des revues proposent des résumés informatifs (c'est-à-dire

comprendre l’essentiel de l’article) et structurés dans lesquels une série de mots clés

indiquent au lecteur où trouver les informations importantes résumant l’étude. La

construction des résumés structurés repose ainsi sur des règles de rédaction

similaires à celles du corps de l’article ou du rapport. La principale similitude est

l’utilisation de la structure IMRD (I pour introduction, M pour méthode, R pour résultat

et D pour conclusion - discussion). Cette structuration permet au lecteur de répondre

respectivement aux 4 questions suivantes :

* quelle est la question posée ?

* comment a-t-elle été étudiée ?

* quels résultats ont été trouvés ?

* quelle interprétation et quel sens ont donné les auteurs à ces résultats ?

- Contenu du résumé

Le résumé ne doit pas dépasser 250 mots. Chaque élément de cette structure,

cependant, ne sera exposé que de manière abrégée. Ainsi, l’introduction est limitée à

l’énoncé de l’objectif principal, parfois précédé d’une phrase de description du

contexte. Le chapitre Introduction comporte 1 phrase, parfois 2. L’énoncé des

méthodes est limité à la description succincte du schéma d’étude (étude randomisée,

prospective /rétrospective, multicentrique /monocentrique, en double aveugle

/ouverte,…), du type de la population étudiée (nombre de patients, principaux

63

critères d’inclusion, critère de jugement principal), et des mesures nécessaires à la

réponse à la question principale. Cette partie Méthodes est éventuellement

complétée par une description des méthodes statistiques. Le chapitre Méthodes

comporte 3 phrases, parfois 4. L’énoncé des résultats est aussi limité aux principaux

résultats. Il comporte 3 à 4 phrases. La discussion n’est pas obligatoire et est

habituellement incluse dans la dernière phrase de la conclusion.

- Autres règles de rédaction

Les autres règles de rédaction du résumé, s’appuient sur la précision, la rigueur, la

clarté, la fluidité et la concision. La nécessité de limiter la taille du résumé (chaque

mot des 250 mots maximum compte) implique néanmoins que concision et précision

deviennent particulièrement importantes. La concision maximale est atteinte en

limitant chaque section de la structure IMRD aux éléments importants et en en

fournissant aucun détail. Le résumé se limite à énoncer des faits concernant les

messages importants que le lecteur doit retenir. Le lecteur intéressé trouvera les

détails dans le reste de l’article ou du rapport. L’absence de détails, cependant, ne

doit pas être synonyme de manque de précision. Notamment, l’énoncé du type de

population doit comporter des critères d’inclusion mais se limiter aux principaux

critères. Les résultats doivent aussi être précisément énoncés et quantifiés.

Quelques règles supplémentaires peuvent faciliter la rédaction d’un résumé concis,

précis et clair. Premièrement, le résumé ne doit être rédigé qu’une fois la lecture de

l’article est finie. Il doit y avoir une parfaite concordance entre le contenu du résumé

et celui de l’article : tout ce qui est énoncé dans le résumé doit être retrouvé dans le

corps de l’article et doit être exprimé de la même manière (mêmes définitions,

mêmes données…). Doivent être évités les éléments susceptibles de nuire à sa

clarté. Ainsi, l’utilisation d’abréviations doit être limitée ; si une abréviation permet de

simplifier l’énoncé d’expressions longues plusieurs fois répétées dans le résumé (par

exemple, IDM pour infarctus du myocarde), elle doit être définie selon les règles

énoncées. Cependant, un certain nombre d’abréviations est autorisé et ne nécessite

pas qu’elles soient énoncées, comme par exemple VIH ou IEC (voir ANNEXE 2). Le

résumé ne doit inclure ni référence, ni tableau ou figure. L’absence de référence

correspond à l’obligation de limiter le contenu du résumé aux éléments directement

liés à l’étude. Cela implique aussi l’utilisation exclusive du passé (imparfait ou passé

composé) pour les verbes du résumé.

64

- Quelques astuces….

Certaines astuces peuvent permettre déjà de déceler dans le texte de l’article où se

trouvent les idées directrices. Dans le chapitre « Introduction » de l’article, le dernier

paragraphe ou la dernière phrase comportent souvent le but de l’étude et/ou le

résultat principal de l’étude. Dans le chapitre « Discussion » de l’article, le premier

paragraphe comporte généralement les résultats principaux de l’étude. De plus, la

dernière phrase ou le dernier paragraphe de la discussion comporte le résumé de la

discussion et le résumé final de l’article. Il faut donc repérer durant la lecture de

l’article les mots et phrases clés à intégrer au résumé.

- Les erreurs les plus communément commises

Première erreur : les résultats affichés dans le résumé sont différents de ceux du

texte. Ceci est une grave erreur. Les résultats présentés doivent être exactement

identiques à ceux qui existent dans le texte.

Deuxième erreur : le résumé est considéré comme une partie annexe ou accessoire

d’un article. Une fois encore, il doit vraiment concentrer les idées fortes de l’article.

65

VI METHODES STATISTIQUES

VI.1- INTRODUCTION

Dans les objectifs pédagogiques de l’épreuve de lecture critique d’un article médical

scientifique, plusieurs objectifs se rapportent à la méthodologie statistique :

analyser la technique de randomisation,

vérifier que les analyses statistiques sont cohérentes avec le projet de travail

et discuter leur interprétation,

vérifier la présentation des indices de dispersion des données numériques et

celles de l’imprécision des estimations,

discuter la signification statistique des résultats.

Le présent chapitre se propose de répondre à ces objectifs, en abordant :

1- le plan habituel de la section statistique du paragraphe « méthodes » d’un article original,

2- les questions principales à se poser pour critiquer les méthodes statistiques utilisées et l’interprétation qui en est faite.

VI.2- PLAN HABITUEL DE LA SECTION « METHODOLOGIE STATISTIQUE » D’UN ARTICLE SCIENTIFIQUE

1- Introduction :

La partie de méthodologie statistique d’un article original, est habituellement

individualisée au sein de la section « méthodes »

Cette partie est située à la fin d’une section « méthodes » la plus complète,

comportant en particulier des précisions sur la variable dépendante (critère de

jugement principal), et les autres paramètres mesurés. Elle ne se conçoit

également qu’après des détails sur le recueil des données et éventuellement

sur leur circuit (contrôle, saisie).

66

Le paragraphe « nombre de sujets nécessaires » peut être intégré dans cette

partie, mais peut être également séparé.

L’analyse statistique doit être planifiée a priori, ce qui est évidemment difficile

à juger au stade de la rédaction du papier. Cependant, l’apparition d’analyses

en sous-groupes (ex analyse des résultats d’un traitement par groupes d’âge

ou par sexe) dans les résultats doit rendre le lecteur prudent.

2- Le plan général habituel de la section « méthodologie statistique »:

Le plan est habituellement toujours articulé de la même façon : il va permettre

ainsi d’avoir plusieurs renseignements sur la façon dont l’analyse statistique a

été menée : les modalités de l’analyse statistique descriptive, les modalités de

traitement des non réponses ou des valeurs manquantes, les tests statistiques

utilisés pour comparer les résultats portant sur le critère principal et les

critères secondaires (ex : test du Chi-2, test ANOVA …), les éventuelles prises

en compte de co-variables par des techniques statistiques spécifiques

(analyse de régression logistique par exemple), le seuil de significativité

retenu ou le type unilatéral ou bilatéral des tests utilisés…

2-1 Modalités d’analyses descriptives de l’échantillon :

les auteurs doivent préciser comment sont exprimés les résultats descriptifs

des variables qualitatives (sous forme de pourcentages habituellement), ou

des variables quantitatives (habituellement sous forme de moyennes ±

écart type).

Pour les variables quantitatives, d’autres paramètres peuvent être également

donnés comme les médianes ou les extrêmes (souvent important pour se

rendre compte de l’homogénéité de la population). L’écart type est encore

appelé déviation standard (standard deviation en anglais).

Parfois, d’autres mesures de dispersion sont utilisées comme l’erreur

standard (ou standard error en anglais), qui est en fait l’écart type de la

moyenne et qui est calculé par l’écart type divisé par la racine carrée de

l’effectif. Il est alors facile de comprendre que cette erreur standard est

toujours plus faible que l’écart type, ce qui parfois peut donner aux lecteurs

une impression fausse de précision importante des résultats de l’étude, alors

qu’il s’agit simplement d’une astuce de présentation. Ceci peut être vrai pour

67

les chiffres donnés dans l’article, mais également pour les représentations

graphiques. Il est donc de bonnes pratiques que les auteurs aient précisé

s’ils ont exprimé leurs résultats sous la forme de moyenne ± écart type ou

sous la forme de moyenne ± erreur standard.

2-2 Modalités de traitement des non réponses, ou des valeurs manquantes en

général :

Dans certaines études, les valeurs manquantes peuvent être nombreuses

pour différentes raisons : perdus de vue, absence de réponse, erreur de

saisie. Les auteurs doivent donner une idée de l’ampleur de ces valeurs

manquantes et de ce qui a été fait pour les traiter ou non dans les analyses.

2-3 Analyse du critère principal de jugement :

Le test statistique utilisé pour comparer les résultats obtenus entre les

différents groupes analysés sur le critère principal doit être précisé et justifié.

Un seul type de test doit avoir été réalisé à ce niveau. Ce test doit être adapté

à la question posée (voir plus loin). Dans cette partie de méthodologie

statistique, seul le test est précisé, mais il est bien évident que dans la partie

« résultats » de l’article, tout test statistique

doit s’accompagner des valeurs qui ont été comparées (ex : 125 ± 14 mm Hg

versus 137 ± 18 mm Hg ; p=0, 09). Un « p » sans les valeurs qui ont été

comparées n’a aucune signification et ne peut être réellement interprété.

2-4 Analyse des critères secondaires :

Les autres critères de jugement doivent être également comparés et les tests

statistiques adaptés doivent être précisés.

2-5 Prise en compte d’éventuelles co-variables :

L’influence de co-variables sur le critère principal de jugement peut être

recherchée, soit co-variable par co-variable (analyse dite univariée), soit de

façon multivariée. Le type d’analyse multivariée, la plupart du temps par des

méthodes d’analyse dite de régression logistique, doit être alors précisé, ainsi

que la procédure réalisée : sélection des variables incluses dans le modèle

initial puis sélection progressive des variables pour aboutir au modèle final. Ce

68

type d’analyse est utilisé en particulier dans les études épidémiologiques et

dans les études pronostiques.

2-6 Autres analyses :

Les auteurs peuvent présenter à la fin de cette partie de méthodologie

statistique, d’autres types d’analyses réalisées comme des analyses de

concordance entre plusieurs observateurs par exemple…

2-7 Seuil de significativité choisi :

Les auteurs doivent préciser le seuil de significativité qui a été choisi pour

l’ensemble des analyses statistiques (habituellement seuil à 0,05 c’est-à-dire

que les auteurs se laissent 5% de risque d’erreur de conclure à une différence

statistiquement significative alors qu’elle n’existe pas réellement) : Ce seuil

peut toutefois être amené à 0,10 pour certains résultats d’analyse multivariée

(méthodes de régression logistique, modèle de Cox) et parfois l’inclusion des

variables dans le modèle initial d’une analyse multivariée peut être faite

jusqu’à un seuil de 0,25.

2-8 Tests unilatéraux (One Tailed Test) ou bilatéraux (Two Tailed Test) :

Les tests bilatéraux s’intéressent aux différences entre les deux groupes d’un

côté ou de l’autre, c’est-à-dire si un des deux groupes, peu importe lequel, est

supérieur à l’autre, alors que les tests unilatéraux s’intéressent à un seul côté

de la différence, c’est-à-dire un groupe spécifique supérieur à l’autre groupe :

Par exemple, les auteurs qui testent un nouveau médicament veulent

absolument montrer que celui-ci est supérieur au traitement de référence

utilisé habituellement. Ainsi, les auteurs, s’ils ont utilisé des tests unilatéraux

doivent expliquer pourquoi et donner clairement l’hypothèse statistique testée,

à savoir quel groupe était considéré supérieur à l’autre. Des tests unilatéraux

n’ont aucune puissance statistique de montrer l’inverse.

2-9 Analyses intermédiaires :

Ce paragraphe doit également préciser si une seule analyse statistique du

critère principal de jugement a été réalisée pour l’ensemble de l’étude (à la fin

de l’étude) ou si des analyses intermédiaires ( pendant le déroulement de

69

l’étude) ont été prévues dès le début du protocole (ex. des essais

thérapeutiques). Auquel cas, un ajustement du seuil de significativité doit avoir

été prévu et notamment dès le calcul du nombre de sujets nécessaires, afin

de ne pas dépasser un risque d’erreur global de l’analyse statistique sur

l’ensemble de l’étude de 5%.

2-10 conditions d’application des tests statistiques utilisés :

Les conditions d’application des tests doivent avoir été vérifiées et donc cela

doit être précisé : exemple : la normalité ou non de distribution des variables

qui amène à choisir des tests dits paramétriques ou non paramétriques. Ainsi

lorsque les analyses sont complexes, les auteurs doivent détailler dans leur

article les méthodes qu’ils ont mises en oeuvre pour vérifier les hypothèses

sous jacentes aux tests réalisés.

VI.3- ELEMENTS PRINCIPAUX DE LA LECTURE CRITIQUE STATISTIQQUE

1 Randomisation :

La seule manière de rendre comparable deux groupes est de randomiser,

c’est-à-dire de tirer au sort quels sujets seront dans un groupe et quels sujets

seront dans l’autre groupe. Toute autre méthode risque de mener à des biais

lors de comparaisons de résultats.

Les techniques de randomisation sont multiples. Il existe des randomisations

simples, des randomisations stratifiées sur certaines variables (ex : sexe,

âge), des randomisations stratifiées par centre dans les essais

multicentriques.

La randomisation fait appel à des tables de nombres au hasard.La

randomisation classique est équilibrée par blocs de taille variable, c’est-à-dire

s’assure que les différents groupes auront un effectif identique à des moments

précis au fur et à mesure des inclusions.

Même en cas de randomisation satisfaisante, les auteurs doivent donner un

tableau montrant les caractéristiques de base des groupes étudiés. Ce

tableau (généralement le 1er tableau de l’article) doit montrer que les groupes

sont similaires en terme d’âge, de sexe par exemple, ou des variables

pronostiques importantes. Il n’y a pas lieu de réaliser des tests statistiques à

70

ce niveau, si la randomisation a été correctement réalisée. Toutefois, si

d’importantes différences sont retrouvées à ce stade, même dues au hasard,

cela peut poser un problème d’interprétation dans les résultats. Il faut donc

alors voir si les auteurs ont pris en compte ces différences et ont par exemple

réalisé des ajustements dans les analyses statistiques ultérieures.

2 Nombre de sujets nécessaires :

Le calcul du nombre de sujets nécessaires est un critère majeur de la

qualité scientifique d’un article. En effet, si ce calcul n’a pas été fait ou est

erroné, cela signifie que les résultats obtenus dans l’étude n’ont aucune

valeur. Inversement, intégrer un nombre de sujets supérieur a ce qui était

nécessaire pour voir une différence de résultat entre deux traitements par

exemple est à la fois inutilement coûteux, long et non éthique.

Le calcul de la taille de l’échantillon prend en compte plusieurs éléments. Ce

calcul doit se faire a priori, au moment de la planification de l’étude et doit être

adapté à la question posée. Habituellement, il est placé dans la section

« méthodes », avant la description de l’analyse statistique. Par exemple, dans

le cadre d’un essai thérapeutique, l’effet considéré comme cliniquement

significatif est indiqué en premier (exemple : la différence attendu entre deux

antihypertenseurs est une baisse de 5 mm Hg de la pression artérielle

systolique en faveur du nouveau traitement), suivi des niveaux de risque

statistique que les auteurs se sont fixés (généralement 5% pour le risque α de

1ère espèce et 10 à 20% pour le risque β dit de 2ème espèce). Le caractère

unilatéral ou bilatéral du test influe également sur ce nombre de sujets. Enfin,

des données concernant la variabilité des phénomènes mesurés peuvent être

indiqués avec les résultats du calcul du nombre de sujets nécessaires. (Nota :

Le calcul du nombre de sujets nécessaires dans le cadre d’une étude

épidémiologique a été précisé dans les cours correspondants).

Parfois, le calcul de la taille des échantillons n’a pas pu être fait a priori car il

n’existait aucune référence dans la littérature permettant de définir la

différence attendue ou la variabilité des phénomènes mesurés (cas d’une

première étude sur le sujet). Ce point doit donc apparaître clairement dans la

section « méthodes » et la partie « discussion » de l’article doit évoquer cette

limite et ses conséquences éventuelles.

71

3 Les tests statistiques étaient-ils appropriés ? (cf. tableau ci-dessous)

S’il s’agit de comparer des pourcentages dans deux groupes de sujets (deux

variables qualitatives), le test approprié est un chi2.

S’il s’agit de comparer une variable quantitative, c’est-à-dire deux moyennes

entre deux groupes (le groupe étant une variable qualitative), le test approprié

est un test « t » de student (test paramétrique) ou un test de Mann-Whitney

(test non paramétrique).

Dans le cas de comparaison de plusieurs moyennes (plus de deux), les tests

correspondants sont une analyse de variance (test paramétrique) ou un test

de Kruskal-Wallis (test non paramétrique).

S’il s’agit de regarder si une variable quantitative va dans le même sens

qu’une autre variable quantitative, il s’agit de corrélation. Exemple : l’analyse

de la variation du taux de cholestérol et du poids. Les tests appropriés sont

alors le calcul du coefficient de corrélation linéaire « r » (test paramétrique) ou

le test des rangs de Spearman (test non paramétrique).

D’autres situations peuvent être rencontrées, comme par exemple la situation

des tests appariés : il s’agit de tests réalisés chez les mêmes sujets, comme

par exemple comparer deux moyennes à deux moments différents dans un

même groupe de sujets, avant et après un traitement par exemple. Ces tests

sont habituellement plus puissants car la variation inter-individuelle est

évidemment plus faible dans un même groupe de sujets et il est alors plus

facile de montrer une différence. Il existe des tests appariés pour chacune des

situations que nous venons de voir.

Comment choisir entre test paramétrique et test non paramétrique ? Les tests

paramétriques font l’hypothèse que les données ont une forme particulière de

distribution, le plus souvent une distribution normale. Les tests non

paramétriques ne font pas ce type d’hypothèse sur la distribution des

72

données. En général, les tests paramétriques sont plus puissants que les tests

non paramétriques et doivent donc être utilisés si possible. La plupart des

données biologiques que l’on utilise en médecine sont distribuées de façon

normale autour d’une moyenne dans la population. La plupart des variables

peuvent donc être traitées par des tests paramétriques. Toutefois, de

nouveaux paramètres à l’étude dont on ne connaît pas la distribution dans la

population ne peuvent être traités par des tests paramétriques que si l’effectif

des groupes est suffisamment important (au minimum au-delà de 30 dans

chaque groupe). Ce seuil de 30 a été choisi car c’est à partir de ce seuil que

l’on peut faire l’approximation que la distribution suit une loi normale, et que

dès lors les résultats des tests paramétriques ne seront pas biaisés. Certaines

variables dont on sait à l’évidence qu’elles ne suivent pas une loi normale,

comme par exemple la durée de séjour dans un service hospitalier, ne doivent

pas être traitées par des tests paramétriques, même si le nombre de sujets est

important.

Si des auteurs ont utilisé des tests statistiques non usuels, voire obscurs, il

faut que l’article justifie pourquoi cela a été réalisé et qu’ils apparaissent dans

les références. Le nombre de tests statistiques possibles semble parfois infini.

Toutefois les comparaisons statistiques habituelles peuvent être réalisées en

utilisant au maximum une douzaine de tests.

Enfin, les données doivent avoir été analysées en suivant le protocole originel.

Notamment, chercher dans les données des résultats intéressants a

posteriori, par exemple par des analyses en sous groupes peut entraîner des

conclusions faussement positives. Ces analyses ne peuvent pas entraîner des

conclusions majeures, mais doivent simplement être génératrices

d’hypothèses nouvelles, qui devront être testées par d’autres études. Par

exemple, en multipliant les tests statistiques par sous groupes de patients, on

peut toujours arriver à mettre en évidence que le traitement est efficace chez

les femmes de plus de 32 ans. Mais est-ce que cela a un intérêt en terme

médical ?

73

Tests courants pour comparer deux mesures, sur deux groupes A et B

Groupes indépendants(nA et nB sujets)

Groupes appariés(n paires de sujets)

Comparer deux proportions (variable qualitative)

Grands effectifs (effectifs > 5) Test du ² (chi2) de Pearson

Grands effectifs (nombre de paires discordantes > 20) ² de MacNemar

Petits effectifs (un effectif calculé < 5)Test de Fisher exact

Petits effectifs (paires discordantes < 20) ² de MacNemar pour petits effectifs

Comparer deux moyennes (variable quantitative)

Grands effectifs (nA et nB > 30)Test t de Student*

Grands effectifs (nA et nB > 30)Test t apparié*

Petits effectifs (nA et nB < 30)Test t de Student* (distributions normales, variances égales)

Petits effectifs (nA et nB < 30)Test t apparié* (distribution normale des différences)

Grands effectifs ou petits effectifsTest des rangs, test U, W, ou test de Mann-Whitney ou de Wilcoxon

Grands effectifs ou petits effectifsTest des rangs signé de Wilcoxon (Wilcoxon’s signed rank sum test)

Comparer deux survies Test du Log-Rank (risques proportionnels)Test de Wilcoxon

Test du Log-Rank stratifié

* tests paramétriques, les autres tests sont des tests non paramétriques

4 Est-ce que les valeurs de « p » ont été calculées et surtout interprétées de

façon appropriées ?

La valeur de « p » correspond à la probabilité que le résultat constaté soit lié

au hasard. Dans la pratique scientifique standard, lorsque le « p » est inférieur

à 5%, on considère qu’il existe une signification statistique et que le résultat

74

n’est pas lié au hasard. Cela veut donc dire par définition qu’une association

significative peut être retrouvée dans un cas sur vingt par hasard.

A l’inverse, une valeur de « p » qui n’est pas inférieure à 0,05 peut avoir deux

explications : soit il n’existe effectivement pas de réelle différence entre les

groupes, soit il y avait trop peu de sujets pour la mettre en évidence (manque

de puissance). C’est pourquoi le calcul du nombre de sujets nécessaires est

extrêmement important.

Enfin, une valeur de « p » ne suffit souvent pas. Il faut donner les valeurs

comparées et pas seulement la valeur de « p ». De plus, il est de bonne

pratique de donner également les intervalles de confiance des paramètres

estimés. Cet intervalle de confiance correspond à la variation du paramètre

dans une population plus large dont serait issu l’échantillon de l’étude. Ces

intervalles de confiance peuvent être calculés pour l’ensemble des paramètres

intéressants dans une étude, que ce soit un pourcentage, une moyenne ou

d’autres paramètres tels que sensibilité, spécificité, etc… L’intervalle de

confiance permet de se rendre compte si les résultats de l’étude sont

suffisamment précis, qu’ils soient positifs ou négatifs. Si la variation du

paramètre est trop importante, même si l’étude a un résultat statistiquement

significatif, il est prudent de se méfier. L’interprétation de l’intervalle de

confiance doit être réalisé grâce au bon sens clinique. L’utilisation des

intervalles de confiance dans les articles médicaux est encore

malheureusement peu commune.

VI.4- ANNEXE

POUR CEUX QUI VEULENT TRICHER ! ! ! : lancer toutes vos données dans un ordinateur, et rapporter comme

significatives toutes relations où « p » est inférieur à 0,05,

si les différences existent initialement entre deux groupes de patients sur des

variables de base type sexe, âge, poids…et qu’elles favorisent le groupe où a

été donné le nouveau traitement, se souvenir de ne pas ajuster sur ces

différences,

75

ne pas s’intéresser à la distribution des données. Si vous le faites, vous

risquez d’être obligé d’utiliser des tests non paramétriques, ce qui n’est pas

très drôle,

ignorez tous les perdus de vue et les non répondeurs, comme cela l’analyse

concerne uniquement les sujets ayant eu l’ensemble du traitement,

si des valeurs extrêmes de certaines variables vous ennuient dans vos

calculs, enlevez-les, mais si les extrêmes vous aident dans vos conclusions,

laissez-les,

si vos intervalles de confiance sont trop larges, voire inclus la possibilité de

l’absence de différence entre les groupes, ne les écrivez pas dans l’article.

Mieux encore, mentionnez les très brièvement dans le texte, mais ne les

dessinez pas sur un graphe et surtout ignorez les lorsque vous donnerez vos

conclusions,

si une différence entre deux groupes devient significative quatre mois et demi

après le début d’un essai alors qu’il devait durer six mois, arrêter l’essai

thérapeutique et commencer à donner les résultats. Par contre, si à six mois

les résultats sont proches de la significativité, continuer l’essai pour un mois

supplémentaire…,

si vos résultats semblent non intéressants, demandez à l’ordinateur de revenir

voir si certains sous groupes se comportent différemment (analyse en sous

groupe). Vous trouverez peut être que votre traitement est intéressant chez

toutes les femmes âgées de 52 à 61 ans et mesurant 1,57 m à 1,65 m…,

si l’analyse de vos données de la façon dont vous l’aviez planifiée ne vous

donne pas les résultats escomptés, recommencer avec d’autres tests …

76

VII ANNEXES

ANNEXE 1 : RECOMMANDATIONS DU CNCI DE L’EPREUVE DE LCA

CONSEIL SCIENTIFIQUE DU CENTRE NATIONAL DES CONCOURS D’INTERNAT

Section Médecine – Novembre 2005----------------------------

ÉPREUVE DE LECTURE CRITIQUE D’UN ARTICLE MEDICAL(Epreuves Classantes Nationales à partir de 2008)

L’objectif de l’épreuve est d’amener l’étudiant à lire de façon critique et à analyser le contenu d’un article en vue de son autoformation actuelle et future. Le mot critique ne doit pas être entendu dans le sens où l’on demanderait aux étudiants de chercher systématiquement tous les défauts d’un article. Cette épreuve part du principe que toute information médicale doit être analysée avec du recul, en cherchant les défauts éventuels, les limites mais aussi les implications, l’utilité pour la pratique. L’article choisi doit être considéré comme de bonne qualité (le but de l’enseignement de la lecture critique est de donner à la fois le sens critique et le goût de la lecture).

I - PRINCIPES DE L’EPREUVE

L’épreuve porte sur des articles:

médicaux scientifiques originaux, c’est-à-dire rapportant une étude d’observation ou expérimentale.

traitant d’un sujet mentionné dans le programme du 2ème cycle (bulletin officiel du Ministère de l’éducation nationale n° 31 du 30 août 2001 à l’adresse www.education.gouv.fr/bo/2001/31/sup.htm).

issus d’une revue médicale avec comité de lecture

en français (articles primitivement en français ou traduits d’une autre langue).

utilisés en entier (ce qui est souhaitable) ou partiellement s’ils sont trop longs.

Le résumé, les noms des auteurs ainsi que la référence de la revue seront supprimés.

77

http://www.education.gouv.fr/bo/2001/31/sup.htm

II - DEROULEMENT DE L’ÉPREUVE

Rédactionnelle, elle dure 3 heures et compte pour 20 % de la note totale Les réponses se font avec des phrases construites ; le style télégraphique n’est pas accepté. Les abréviations ne sont pas admises sauf celles qui figurent sur le site du CNCI.

L’étudiant est libre d’organiser et de répartir son temps comme il le souhaite entre lecture et rédaction.

L’épreuve comporte deux parties : un résumé (30 % de la note) et des questions (70 % de la note).

1 - Le résumé doit être structuré en fonction du contenu de l’article. Il comporte généralement : objectifs de l’étude, matériel et méthodes, résultats et conclusion. Il ne doit pas dépasser 250 mots.

2 - Les questions sont au nombre de 6 à 10 et portent sur les objectifs pédagogiques indiqués ci-dessous. Leur liste est évolutive et susceptible d’être modifiée au cours du temps. La longueur des réponses peut varier selon le type de question et n’est pas limitée par un cadre : en moyenne, la question doit amener l’étudiant à répondre sous forme de phrases en 10 à 20 lignes.

III - CONSEILS POUR L’ELABORATION DE L’EPREUVE

OBJECTIFS PEDAGOGIQUES

IDENTIFIER1 - L’objet de l’article parmi les suivants : évaluation d’une procédure

diagnostique, d’un traitement, d’un programme de dépistage, estimation d’un pronostic, enquête épidémiologique…

2 - La « question » étudiée.

CRITIQUER LA MÉTHODE

Population étudiée :

3 - Identifier les caractéristiques de la population étudiée4 - Analyser les modalités de sélection des sujets, critères d’inclusion et

critères d’exclusion. 5 - Analyser la technique de randomisation, le cas échéant. 6 - Discuter la comparabilité des groupes soumis à la comparaison.7 - Discuter le choix des effectifs étudiés et leur cohérence dans la

totalité de l’article.

78

Méthode

8 - S’assurer que la méthode employée est cohérente avec le projet du travail et qu’elle est effectivement susceptible d’apporter « une » réponse à la question posée dans l’introduction.

9 - Vérifier que les analyses statistiques (en fonction de notions élémentaires) sont cohérentes avec le projet du travail.

10 - Vérifier le respect des règles d’éthique.

CRITIQUER LA PRÉSENTATION DES RÉSULTATS

11 - Analyser la présentation, la précision et la lisibilité des tableaux et des figures, leur cohérence avec le texte et leur utilité.

12 - Vérifier la présentation des indices de dispersion (valeurs extrêmes, quantiles, écarts types) des données numériques, et celle de l’incertitude de l’estimation (intervalle de confiance, variance, erreur standard de la moyenne…).

CRITIQUER L’ANALYSE DES RÉSULTATS ET DE LA DISCUSSION

13 - Discuter la nature et la précision des critères de jugement des résultats.

14 - Relever les biais qui ont été discutés. Rechercher d’autres biais éventuels non pris en compte dans la discussion et relever leurs conséquences dans l’analyse des résultats.

15 - Vérifier la logique de la discussion et sa structure. Reconnaître ce qui relève des données de la littérature et ce qui est opinion personnelle de l’auteur.

16 - Discuter la signification statistique des résultats.17 - Discuter la signification clinique des résultats.18 - Vérifier que les résultats offrent une réponse à la question

annoncée. 19 - Vérifier que les conclusions sont justifiées par les résultats.20 - Indiquer le niveau de preuve de l’étude (grille de l’ANAES).

EVALUER LES APPLICATIONS CLINIQUES

21 - Discuter la ou les décisions médicales auxquelles peuvent conduire les résultats et la conclusion de l’article.

CRITIQUER LA FORME DE L’ARTICLE

22 - Identifier la structure IMRAD (Introduction, Matériel et méthode, Résultats, Discussion) et s’assurer que les divers chapitres de la structure répondent à leurs objectifs respectifs.

23 - Faire une analyse critique de la présentation des références. 24 - Faire une analyse critique du titre.

79

REDACTION DES QUESTIONS

Aucun calcul nouveau ne doit être demandé.

Un commentaire de tableaux, figures ou calculs statistiques peut être demandé,

La forme de l’article peut être discutée ; une nouvelle rédaction du titre ou d’un paragraphe peut être demandée.

Il ne peut être posé de questions de mémorisation sur le sujet étudié ni de questions s’écartant de l’article.

Le résumé doit être fidèle à l’article ; il ne correspond pas à l’article tel que l’étudiant l’imagine mais tel qu’il a été conçu avec ses défauts éventuels.

Il faut éviter les sous questions.

Les questions ne sont pas posées dans un langage de spécialistes. Elles doivent être comprises simplement par tout étudiant de deuxième cycle n’ayant pas reçu de formation particulière.

Si une définition pose problème, c’est-à-dire si elle peut faire l’objet de discussions, la définition retenue pour cette épreuve doit être précisée dans l’intitulé.

IV - MODALITES DE CORRECTION

Le résumé ne doit pas dépasser 250 mots. L’étudiant indique le nombre de mots. Une pénalité sera décidée par le jury en cas de dépassement, proportionnelle au degré de dépassement.

Une grille de réponses est fournie par le conseil scientifique du CNCI pour les questions portant sur l’article (sur 100 points non divisibles) et pour le résumé (sur 50 points non divisibles). Elle peut être modifiée par le jury.

Des points négatifs peuvent être décidés par le jury.

La correction est une double correction comme pour les dossiers.

¨¨¨¨¨¨

80

ANNEXE 2 :

CNCI-Conseil Scientifique de Médecine: Liste des abréviations autorisées.

Toute autre abréviation peut être utilisée dans un cas clinique si et seulement si l'abréviation est décrite en début de texte.

Liste revue le 16/12/2004 par le Conseil Scientifique Médecine du CNCI

A

ACE : antigène carcino-embryonnaire ACTH : adrenocorticotropic hormone (corticotrophine, hormone corticotrope

hypophysaire) ADH : antidiuretic hormone (hormone antidiurétique, vasopressine) ADN : acide désoxyribonucléique AINS : anti inflammatoire non stéroidien ALAT : alanine amino transferase (TGP) ALD : affection de longue durée AMM : autorisation de mise sur le marché AMPc : AMP cyclique ANCA : antineutrophyloc cytoplasmic antibody (anticorps anti cytoplasme des

polynucléaires) APGAR : american pediatric groos assessment record APUD : amine precursor uptake and decarboxylation (groupe de cellules captant et

décarboxylant des précurseurs d'amines) ARN : acide ribonucléique ARNm : ARN messager ASA : classification du risque opératoire de l'american society of anesthesiologist ASAT : aspartate amino transférase (TGO) ASLO : antistreptolysine O ATP : adénosine triphosphate AVC : accident vasculaire cérébral aVf, aVL, aVr : dérivations électrographiques unipolaires AVK : anti-vitamine K

B BCG : bacille de Calmette et Guérin BK : bacille de Koch BPCO : broncho pneumopathie chronique obstructive

C CCMH : concentration corpusculaire moyenne en hémoglobine CEC : circulation extra corporelle CGMH : concentration globulaire moyenne en hémoglobine CIVD : coagulation intra-vasculaire disséminée CK : créatine kinase CMV : cytomégalovirus CO : monoxyde de carbone CO2 : dioxyde de carbone

81

CPK : créatine phosphokinase CPK-BB : créatine phosphokinase iso enzyme BB CPK-MB : créatine phosphokinase iso enzyme MB CPK-MM : créatine phosphokinase iso enzyme MM CRH : corticotropin releasing hormone (hormone de libération de l'hormone

corticotrope) CRP : C reactive protein (protéine C réactive)

D DCI : dénomination commune internationale DHEA : déhydroépiandrostérone DOPA : dihydroxyphénylalanine

E EBNA : Epstein-Barr nuclear antigen EBV : Epstein-Barr virus ECBU : examen cytobactériologique des urines ECG : électrocardiogramme ECHO virus : enteric cytopathogenic human orphan virus EEG : électroencéphalogramme EFR : épreuve fonctionnelle respiratoire ELISA : enzyme-linked immunosorbent assay EMG : électromyographie

F FiO2 : fraction inspirée d'oxygène FSH : follicle stimulating hormone (hormone folliculostimulante)

G gamma-GT : gamma-glutamyl transférase GB : globule blanc GH : growth hormone (hormone somatotrope) GH-RH : GH-releasing hormone (hormone activatrice de l'hormone de croissance) GR : globule rouge GVH : graft versus host (réaction du greffon contre l'hôte)

H Hb : hémoglobine HbA1C : hémoglobine glyquée HbO2 : oxyhémoglobine HBPM : héparine de bas poids moléculaire HCG : human chorionic gonadotrophin (gonadotrophine chorionique) HDL : high density lipoproteins (lipoprotéines de haute densité) HELLP : hemolysis + elevated liver enzymes + low platelets HLA : human leucocyte antigen (antigène d'histocompatibilité) HPV : human papillomavirus HTLV : human T cell leukemia/lymphoma virus (virus humain T lymphotropique)

82

I IDR : intradermoréaction IEC : inhibiteur de l'enzyme de conversion Ig : immunoglobulines IGF : insulin-like growth factor (somatomédine) IMAO : inhibiteur de la mono amine oxydase INR : international normalized ratio IRM : imagerie par résonance magnétique ITT : incapacité temporaire totale IV : intraveineuse

L LCR : liquide céphalorachidien LDH : lactate déshydrogénsae LDL : low density lipoprotein (lipoprotéine de faible densité) LH : luteinizing hormone (hormone lutéinisante) LHRH : luteinizing hormone releasing hormone (gonadolibérine)

M

MALT : mucous associated lymphoid tissue (tissu lymphoïde associé aux muqueuses) MNI : mononucléose infectieuse MST : maladie sexuellement transmissible

N NFS : numération formule sanguine NK : natural killer (lymphocyte)

O OAP : œdème aigu du poumon OMS : organisation mondiale de la santé ORL : oto-rhino-laryngologie

P PAN : périartérite noueuse PaO2 : pression artérielle partielle en oxygène PaCO2 : pression artérielle partielle en dioxyde de carbone PCR : polymerase chain-reaction PDF : produits de dégradation de la fibrine PDGF : platelet-derived growth factor (facteur de croissance des plaquettes) PMI : protection maternelle et infantile PNB : polynucléaires basophiles PNE : polynucléaires éosinophiles PNN : polynucléaires neutrophiles PSA : prostatic specific antigen

83

Q QI : quotient intellectuel QRS : complexe QRS QSP : quantité suffisante pour QT : segment QT

R RAST : radio allergo sorbent test (dosage radio immunologique des IgE spécifiques

d’un allergène) Rh : rhésus RMN : résonance magnétique nucléaire

S SIDA : syndrome d'immunodéficience acquise SRAS : syndrome respiratoire aigu sévère

T T3 : triiodothyronine T4 : thyroxine, tétraiodothyronine TCA : temps de céphaline activée TCK : temps de céphaline kaolin TCMH : teneur corpusculaire moyenne en hémoglobine TDM : tomodensitométrie TEP : tomographie par émission de positon TGMH : teneur globulaire moyenne en hémoglobine TGO : transaminase glutamo oxaloacétique TGP : transaminase glutamo pyruvique TNM : classification tumor nodes metastasis (tumeur primitive, adénopathies

régionales, métastases) TP : taux de prothrombine TPHA : treponema pallidum haemagglutination assay TRH : thyrotropin releasing hormone (protiréline) TSH : thyroïd stimulating hormone (thyréostimuline)

U UI : unité internationale UIV : urographie intraveineuse

V VDRL : veneral disease research laboratory (réaction d'agglutination syphilitique) VEMS : volume expiratoire maximum par seconde VGM : volume globulaire moyen VIH : virus de l'immunodéficience humaine (HIV, virus du SIDA) VLDL : very low density lipoproteins (lipoprotéines de très faible densité) VS : vitesse de sédimentation

84

VIII REFERENCES

Ouvrages et articles :

Bergmann JF et membres de l’APNET. Lire et critiquer un article médical. Principes de lecture critique et exercices pratiques corrigés.. ED : Expansion Scientifique Française 2003

85

ANAES. Guide d'analyse de la littérature et gradation des recommandations. Service des recommandations professionnelles, janvier 2000, 48 pages.

Beaucage C, Bounier-Vigery "épidémiologie appliquée" Une initiation à la lecture critique de la littérature en science de la santé. Gaétan Morin Editeur Montréal 1996, 550 pages.

Greenhalght. Savoir lire un article médical pour décider. La méthode fondée sur les niveaux de preuves au quotidien. RAND, Editeur, Meudon 2000.

Huguier M, Maisonneuve H, Benhamou CC, De Calan L, Grenier B, Franco B, Galmiche JP , Lorette G. La rédaction médicale. De la thèse à l'article original. La communication orale, DOIN éditeur Paris 1994, 204 pages.

Carrat F. Epidémiologie et statistique : notions indispensables. Cœur et médecine interne, Cohen A, Belramouf N. Edition ESTEM 2002, chap 23 ; 660-74.

Lorette G, Grenier B. Comment lire un article médical scientifique Doin Editeur, Paris 2002

Bouvenot G, Vray M. Essais cliniques : théorie, pratique et critique. Edition : Médecine Sciences- Flammarion 1999

Malinovski JM, Pain L, Juvin P, Langeron O, Riou B, Martin C. Aide à la lecture d'une étude scientifique. Comité des référentiels cliniques de la Société française d'anesthésie et de réanimation. Annales françaises d'anesthésie et de réanimation, Mar 2000, 19(3):209-16

BouvenotG, Villani P, Ambrosi P. Lecture critique de la publication. Press Med 2002 ;31 :1061-8.

Salmi, LR. Lecture critique et rédaction médicale scientifique : comment lire, rédiger et publier une étude clinique ou épidémiologique. Paris : Elsevier, 2002, 287p.

Salmi LR, Collet JP Lecture critique des articles médicaux

I/ Introduction. Revue du Praticien 1991 ; 41 : 2598-2605.

II/ Juger de l'intérêt d!un test diagnostique Revue du Praticien 1991 41 2734-43

III/ Comprendre l'histoire naturelle et le pronostic d!une maladie. Revue du Praticien 1992 ; 42: 76-9.

IV/ Déterminer la causalité. Revue du Praticien 1992 ; 42: 213-8.

V/ Juger de l'intérêt d!une nouvelle thérapeutique. Revue du Praticien 1992; 42: 335-9.

VI/ Champ &application et limites. Revue du Praticien 1992 42: 447-9

Adresses INTERNET :

86

http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6VKG-44XMXHK-F-3&_cdi=6122&_orig=browse&_coverDate=03%2F31%2F2000&_sk=999809996&view=c&wchp=dGLbVzz-zSkWb&_acct=C000043357&_version=1&_userid=789722&md5=bef7796d8e22cefb0d25b3d5425f53ab&ie=f.pdf

http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6VKG-44XMXHK-F-3&_cdi=6122&_orig=browse&_coverDate=03%2F31%2F2000&_sk=999809996&view=c&wchp=dGLbVzz-zSkWb&_acct=C000043357&_version=1&_userid=789722&md5=bef7796d8e22cefb0d25b3d5425f53ab&ie=f.pdf

- Lecture critique des articles médicaux – Université de Montréal

http://www.bib.umontreal.ca/SA/caps30.htm

- Guide d’analyse de la littérature et gradation des recommandations publié par

l’ANAES :http://www.anaes.fr/anaes/Publications.nsf/nPDFFile/RA_LILF-4NAHYY/

$File/analiterat.pdf?OpenElement

- Cucherat M : http://www.spc.univ-lyon1.fr/lecture-critique/

87

http://www.anaes.fr/anaes/Publications.nsf/nPDFFile/RA_LILF-4NAHYY/$File/analiterat.pdf?OpenElement

http://www.anaes.fr/anaes/Publications.nsf/nPDFFile/RA_LILF-4NAHYY/$File/analiterat.pdf?OpenElement

EPIDEMIOLOGIE ET STATISTIQUE · Web view16.2- Taille et précision de l’effet L’estimation de...

Documents

Transcript of EPIDEMIOLOGIE ET STATISTIQUE · Web view16.2- Taille et précision de l’effet L’estimation de...