La statistique bayésienne

8
La Revue de médecine interne 30 (2009) 242–249 Mise au point La statistique bayésienne : une approche des statistiques adaptée à la clinique Bayesian statistic: An approach fitted to clinic N. Meyer a,b,, S. Vinzio c , B. Goichot c a Pôle de santé publique, hospices civils, hôpitaux universitaires de Strasbourg, 1, place de l’Hôpital, 67091 Strasbourg, France b Laboratoire de biostatistique, faculté de médecine, 4, rue Kirschleger, 67085 Strasbourg, France c Service de médecine interne, hôpital de Hautepierre, hôpitaux universitaires de Strasbourg, 1, rue Molière, 67098 Strasbourg, France Disponible sur Internet le 30 ao ˆ ut 2008 Résumé La statistique bayésienne connaît un succès croissant mais encore limité. Ce constat est surprenant car le théorème de Bayes sur lequel repose ce paradigme est très utilisé par les cliniciens. Il existe une connexion directe entre les tests diagnostiques, d’usage quotidien, et la statistique bayésienne. Ce lien est le théorème de Bayes qui permet de calculer les valeurs prédictives positive ou négative d’un test. Le principe de ce théorème est ici étendu à des situations statistiques simples en guise d’introduction à la statistique bayésienne. La simplicité conceptuelle de la statistique bayésienne devrait lui apporter dans l’avenir une plus grande acceptation de la part du monde biomédical. © 2008 Elsevier Masson SAS. Tous droits réservés. Abstract Bayesian statistic has known a growing success though quite limited. This is surprising since Bayes’ theorem on which this paradigm relies is frequently used by the clinicians. There is a direct link between the routine diagnostic test and the Bayesian statistic. This link is the Bayes’ theorem which allows one to compute positive and negative predictive values of a test. The principle of this theorem is extended to simple statistical situations as an introduction to Bayesian statistic. The conceptual simplicity of Bayesian statistic should make for a greater acceptance in the biomedical world. © 2008 Elsevier Masson SAS. Tous droits réservés. Mots clés : Théorème de Bayes ; Tests diagnostiques ; Intervalle de crédibilité ; Distribution a priori Keywords: Bayes’ theorem; Diagnostic tests; Credibility interval; Prior distribution 1. Position du problème La recherche biomédicale s’appuie beaucoup sur la statis- tique qui permet notamment de comparer l’effet de différents traitements à partir d’un échantillon de patients. La statistique est absolument ubiquitaire et actuellement aucun article médi- cal ne peut être publié sans qu’il ne contienne des intervalles de confiance, des écarts-types ou des tests statistiques avec leur p. Tous ces résultats sont obtenus avec différentes techniques faisant toutes parties de ce que l’on appelle la statistique fréquentiste. Ces méthodes fréquentistes ont été développées Auteur correspondant. Adresse e-mail : [email protected] (N. Meyer). essentiellement par Pearson et Fisher au début du xx e siècle et l’aura scientifique de ces deux personnes, ainsi qu’une relative facilité d’emploi de ces méthodes, ont largement contribué à la position ultradominante des méthodes fréquentistes dans la littérature médicale. Il existe cependant des méthodes statistiques alternatives, englobées sous le vocable générique de statistique bayésienne. Les méthodes bayésiennes sont historiquement les premières puisqu’elles ont été introduites dès le xviii e siècle par Thomas Bayes puis par Pierre Simon de Laplace. Elles sont pourtant res- tées quasiment inutilisées jusqu’à la fin du xx e siècle. Basées sur le théorème de Bayes, elles constituent un cadre théorique per- mettant de réaliser de l’inférence statistique [1]. Encore appelé théorème des probabilités inverses, le théorème de Bayes permet en effet, à partir de données observées, de déterminer laquelle 0248-8663/$ – see front matter © 2008 Elsevier Masson SAS. Tous droits réservés. doi:10.1016/j.revmed.2008.07.004

Transcript of La statistique bayésienne

Page 1: La statistique bayésienne

R

cbeb©

A

itsb©

M

K

1

ttecc

ff

0d

La Revue de médecine interne 30 (2009) 242–249

Mise au point

La statistique bayésienne : une approche des statistiques adaptéeà la clinique

Bayesian statistic: An approach fitted to clinic

N. Meyer a,b,∗, S. Vinzio c, B. Goichot c

a Pôle de santé publique, hospices civils, hôpitaux universitaires de Strasbourg, 1, place de l’Hôpital, 67091 Strasbourg, Franceb Laboratoire de biostatistique, faculté de médecine, 4, rue Kirschleger, 67085 Strasbourg, France

c Service de médecine interne, hôpital de Hautepierre, hôpitaux universitaires de Strasbourg, 1, rue Molière, 67098 Strasbourg, France

Disponible sur Internet le 30 aout 2008

ésumé

La statistique bayésienne connaît un succès croissant mais encore limité. Ce constat est surprenant car le théorème de Bayes sur lequel reposee paradigme est très utilisé par les cliniciens. Il existe une connexion directe entre les tests diagnostiques, d’usage quotidien, et la statistiqueayésienne. Ce lien est le théorème de Bayes qui permet de calculer les valeurs prédictives positive ou négative d’un test. Le principe de ce théorèmest ici étendu à des situations statistiques simples en guise d’introduction à la statistique bayésienne. La simplicité conceptuelle de la statistiqueayésienne devrait lui apporter dans l’avenir une plus grande acceptation de la part du monde biomédical.

2008 Elsevier Masson SAS. Tous droits réservés.

bstract

Bayesian statistic has known a growing success though quite limited. This is surprising since Bayes’ theorem on which this paradigm reliess frequently used by the clinicians. There is a direct link between the routine diagnostic test and the Bayesian statistic. This link is the Bayes’

heorem which allows one to compute positive and negative predictive values of a test. The principle of this theorem is extended to simple statisticalituations as an introduction to Bayesian statistic. The conceptual simplicity of Bayesian statistic should make for a greater acceptance in theiomedical world.

2008 Elsevier Masson SAS. Tous droits réservés.

; Dist

tion

elfll

eL

ots clés : Théorème de Bayes ; Tests diagnostiques ; Intervalle de crédibilité

eywords: Bayes’ theorem; Diagnostic tests; Credibility interval; Prior distribu

. Position du problème

La recherche biomédicale s’appuie beaucoup sur la statis-ique qui permet notamment de comparer l’effet de différentsraitements à partir d’un échantillon de patients. La statistiquest absolument ubiquitaire et actuellement aucun article médi-al ne peut être publié sans qu’il ne contienne des intervalles deonfiance, des écarts-types ou des tests statistiques avec leur p.

Tous ces résultats sont obtenus avec différentes techniquesaisant toutes parties de ce que l’on appelle la statistiqueréquentiste. Ces méthodes fréquentistes ont été développées

∗ Auteur correspondant.Adresse e-mail : [email protected] (N. Meyer).

pBtlmte

248-8663/$ – see front matter © 2008 Elsevier Masson SAS. Tous droits réservés.oi:10.1016/j.revmed.2008.07.004

ribution a priori

ssentiellement par Pearson et Fisher au début du xxe siècle et’aura scientifique de ces deux personnes, ainsi qu’une relativeacilité d’emploi de ces méthodes, ont largement contribué àa position ultradominante des méthodes fréquentistes dans laittérature médicale.

Il existe cependant des méthodes statistiques alternatives,nglobées sous le vocable générique de statistique bayésienne.es méthodes bayésiennes sont historiquement les premièresuisqu’elles ont été introduites dès le xviiie siècle par Thomasayes puis par Pierre Simon de Laplace. Elles sont pourtant res-

ées quasiment inutilisées jusqu’à la fin du xxe siècle. Basées sur

e théorème de Bayes, elles constituent un cadre théorique per-

ettant de réaliser de l’inférence statistique [1]. Encore appeléhéorème des probabilités inverses, le théorème de Bayes permetn effet, à partir de données observées, de déterminer laquelle

Page 2: La statistique bayésienne

édeci

pgts

ddsdverpnoutle

nesbnlf

2d

tf

pmiqflrdfGrddoetSént

••

syrpd

3

go

N. Meyer et al. / La Revue de m

armi plusieurs hypothèses concurrentes a le plus probablementénéré les données, ce qui définit l’inférence (ou induction) sta-istique. Ce principe inductif se généralise dans le cadre de latatistique, dite bayésienne.

La statistique bayésienne connaît depuis une vingtaine’années un regain d’intérêt, notamment grâce à l’amélioratione certaines techniques de calcul et à l’apparition de logicielspécialisés [2]. Si elle domine dans les publications spécialiséese biostatistique et se répand en épidémiologie, elle reste relati-ement confidentielle dans le domaine clinique malgré quelquesxemples récents [3–8]. Ce constat peut surprendre car le théo-ème de Bayes est bien connu des cliniciens qui l’utilisent,arfois sans le savoir il est vrai, dans le cadre des tests diag-ostiques. Rappelons brièvement qu’un test diagnostique est unutil permettant de déterminer si un patient est atteint ou non parne maladie. Le calcul de la valeur prédictive positive (VPP) duest permet, après observation du résultat du test, de déterminera probabilité que le sujet soit malade. Or, le calcul de la VPPst une application directe du théorème de Bayes [9].

L’objectif de cette mise au point est d’expliciter le fonction-ement de la statistique bayésienne à partir de l’équivalencexistant entre les tests diagnostiques et le raisonnement bayé-ien, puis de montrer son intérêt dans le cadre de la rechercheiomédicale en général. Après un rappel sur le test d’hypothèseulle et les tests diagnostiques, nous illustrerons par un exemple’intérêt des méthodes bayésiennes par rapport à la méthoderéquentiste en terme d’interprétation.

. La statistique fréquentiste et le principe du test’hypothèse nulle

La statistique fréquentiste utilise comme principal outil leest d’hypothèse nulle (THN). Les principes généraux de sononctionnement sont les suivants [10] :

pour comparer deux traitements, un traitement de référenceA et un nouveau traitement B, on utilise souvent comme cri-tère de jugement la différence entre les taux de guérison dechaque traitement. On compare donc le taux de guérison TAdu traitement A avec le taux de guérison TB du traitement B.On utilise pour cela classiquement un test du khi-carré (χ2) ;en général, le but affiché de l’étude est de montrer la supério-rité de l’un des deux traitements par rapport à l’autre. Pourcela, le test d’hypothèse nulle pose comme hypothèse dedépart que les deux traitements ont le « même effet ». Celarevient à dire que TA = TB. Cela peut être réexprimé en disantque TA − TB = 0. Cette hypothèse est appelée « hypothèsenulle » car elle spécifie que la différence entre les traitementsest nulle ;il faut par ailleurs introduire une « hypothèse alternative » quiest le complément logique de l’hypothèse nulle. L’hypothèsealternative est donc la suivante : la différence entre les tauxde guérison n’est pas nulle (mais l’ampleur exacte de la diffé-

rence n’a pas à être précisée). L’idée fondamentale ici est quel’hypothèse nulle est soit vraie, soit fausse et que si elle estfausse, alors c’est l’hypothèse alternative qui est vraie : soit iln’y a pas de différence entre les deux traitements, soit il y en

qdet

ne interne 30 (2009) 242–249 243

a une. Le test d’hypothèse nulle est une procédure qui permetde décider laquelle des deux hypothèses doit être retenue, ense basant sur des données observées, par exemple, au coursd’un essai thérapeutique. En pratique, le but de l’expérienceest de montrer que c’est l’hypothèse alternative qui est vraieet ainsi de montrer que le nouveau traitement est supérieur autraitement de référence.

Lors de l’essai, on constitue aléatoirement deux groupes, leremier recevant le traitement A et le second recevant le traite-ent B. Même si les deux taux de guérison sont théoriquement

dentiques, en pratique, sur un échantillon donné, ils ne le sontuasiment jamais car la différence observée est soumise auxuctuations aléatoires inhérentes au tirage au sort. Cette diffé-ence observée est en général faible, proche de zéro. Cependant,ans une petite proportion de cas, la valeur observée de la dif-érence sera éloignée de cette valeur nulle. En utilisant la loi deauss (loi normale), on peut calculer la probabilité que la diffé-

ence observée dépasse un certain seuil. La loi de Gauss permete dire que des différences faibles sont très probables alors quees différences importantes sont peu probables. Si la différencebservée dépasse le seuil choisi, la différence est « grande » etlle est considérée comme « rare » sous l’hypothèse d’égalité desraitements : une telle différence n’aurait pas dû être observée.i elle a pourtant été observée, c’est que l’hypothèse de départtait probablement fausse. Par conséquent, on rejette l’hypothèseulle et on accepte l’hypothèse alternative qui dit que les deuxaux de guérison diffèrent.

En résumé, le raisonnement du test fréquentiste est le suivant :

on fait l’hypothèse que les deux traitements ne diffèrent pas(hypothèse nulle), ce qui revient à dire que, en raison deseffets du tirage au sort, une grande différence a peu de chanced’apparaître ;on quantifie la différence entre les deux traitements ;si la différence est grande et qu’elle a moins de 5 % de chanced’être observée, on admet que l’hypothèse nulle de départétait fausse et donc que les deux traitements diffèrent. On ditque p < 5 % (ou p < 0,05) et que le test est significatif au seuilde 5 %.

Il faut insister sur l’interprétation correcte de p < 0,05. Celaignifie que si l’hypothèse d’égalité des traitements est vraie, ila moins de 5 % de chance d’observer par hasard une diffé-

ence aussi importante que celle constatée dans l’essai. Mais lene dit absolument pas quelle est la probabilité que l’hypothèse’égalité des traitements soit vraie (ou fausse).

. Le principe des tests diagnostiques

Soit un test diagnostique T (un symptôme, une mesure écho-raphique, ou un dosage sanguin) visant à établir la présenceu l’absence d’une maladie M [9]. Le test fournit un résultat

ualitatif, positif ou négatif. Lors de la mise au point d’un testiagnostique, on classe par ailleurs les sujets en malades et sainsn utilisant une méthode de référence pour déterminer ce sta-ut. En croisant les résultats du test avec le statut de référence
Page 3: La statistique bayésienne

244 N. Meyer et al. / La Revue de médeci

Tableau 1Éléments du test diagnostique : lecture verticale

Malades Sains Total

Test positif VP FP PTest négatif FN VN NTotal M S

VPm

mlmdentprsqcm

llPdp

tldautmmm

TTT

PdleP

mllTcemddsrPde

tmpdmmlmaPpt(tCi[

P

P = vrais positifs, FP = faux positifs, FN = Faux négatifs, VN = vrais négatifs,= nombre de tests positifs, N = nombre de tests négatifs, M = nombre de sujetsalades, S = nombre de sujets sains.

alade/sain des sujets, on établit un tableau permettant d’évalueres qualités diagnostiques de ce test (Tableau 1). Ce tableau per-

et de déterminer le nombre de sujets sains ou malades qui,’après le test, seront correctement ou incorrectement classésn malade ou sain par un test positif ou négatif. En prenant lesotations proposées dans le Tableau 1, on définit les vrais posi-ifs (VP) qui sont les sujets malades ayant un résultat de testositif, les faux positifs (FP) qui sont les sujets sains ayant unésultat de test positif, les vrais négatifs (VN) qui sont les sujetsains qui ont un résultat de test négatif et les faux négatifs (FN)ui sont des sujets malades ayant un résultat de test négatif. Àe stade, c’est l’investigateur qui fixe les nombres M de sujetsalades et S de sujets sains.À partir de ces éléments, on calcule :

la sensibilité (Se) = VP

VP + FN

la spécificité (Sp) = VN

VN + FP

La Se est aussi la probabilité d’avoir un test positif lorsque’on est malade, que l’on note Pr(P|M). De même, la Sp esta probabilité d’avoir un test négatif lorsque l’on est sain, soitr(N|S). La Se et la Sp sont des caractéristiques intrinsèquesu test, indépendantes de la prévalence de la maladie dans laopulation étudiée.

Après cette phase d’élaboration du test, son utilisation en pra-ique quotidienne vise à déterminer la présence ou l’absence dea maladie chez un sujet donné. Le tableau croisé précédemmentécrit doit alors être utilisé dans l’autre sens, c’est-à-dire en luippliquant une lecture horizontale, ce qui nécessite de modifiern peu le Tableau 1 pour obtenir le Tableau 2. À partir du résul-

at du test diagnostique, on cherche donc à déterminer le statut

alade/sain du sujet. Avant d’avoir appliqué le test au patient, leédecin ne sait pas s’il présente ou non la maladie. Il sait seule-ent que la probabilité qu’il présente la maladie n’est pas nulle

ableau 2léments du test diagnostique : lecture horizontale

Malades Sains Total

est positif P Pr(P|M) × Prév(M) = a Pr(P|S) × Prév(S) = b Pest négatif N Pr(N|M) × Prév(M) Pr(N|S) × Prév(S) Notal Prév(M) Prév(S)

rév(M) = prévalence de sujets malades dans la population, Prév(S) = prévalencee sujets sains dans la population, Pr(P|M) = probabilité d’avoir un test positiforsque l’on est malade, Pr(P|S) = probabilité d’avoir un test positif lorsque l’onst sain, Pr(N|M) = probabilité d’avoir un test négatif lorsque l’on est malade,r(N|S) = Probabilité d’avoir un test négatif lorsque l’on est sain.

a

amspsa

ne interne 30 (2009) 242–249

ême si souvent elle est très faible. On peut estimer la probabi-ité que le patient ait la maladie avant le test par la prévalence dea maladie dans la population générale, notée ici Prév(M) (voirableau 2). Cette prévalence constitue une connaissance a priori,’est-à-dire existant avant la réalisation du test diagnostique etn l’absence d’autre information clinique sur le patient, c’est laeilleure estimation que l’on puisse avoir du risque pour le sujet

’être malade. Dans le Tableau 2, par rapport au Tableau 1, laernière ligne doit donc être modifiée et les totaux en colonne desujets malades et sains ayant servi à concevoir le test doivent êtreemplacés par les estimations de leurs prévalences respectives,r(M) et Pr(S), dans la population dont est issu le patient consi-éré (population générale, population hospitalière, consultantsn ville, etc.).

Après réalisation du test, en supposant que celui-ci soit posi-if, le médecin ne sait toujours pas si le sujet est porteur de la

aladie mais il sait néanmoins que le sujet se trouve dans laremière ligne du tableau, celle des résultats positifs. Il resteonc pour le médecin à déterminer si le sujet est dans la pre-ière ou la seconde case de cette ligne. La proportion de sujetsalades qui a un test positif est le produit de la prévalence de

a maladie Prév(M) par la sensibilité du test (Se = Pr(P|M)). Deême, la proportion de sujets sains ayant un test positif est égal

u produit de la prévalence des sujets indemnes de la maladierév(S) par la probabilité d’avoir un test positif lorsque l’on n’estas malade, c’est-à-dire Pr(P|S), qui vaut 1−Sp. Pour connaî-re la probabilité d’être malade lorsque l’on a un test positifPr(M|P)), on rapporte la proportion de sujets malades ayant unest positif au nombre total de sujets ayant un résultat positif.e rapport correspond à la valeur prédictive positive (VPP) et

l s’obtient via le théorème de Bayes de la manière suivante9] :

r(M |P) = Pr(P |M) · Prév(M)

Pr(P |M) · Prév(M) + (1 − Pr (N| S)) · Prév(S)

Dans cette équation, on trouve les éléments suivants :

Pr(M|P) est la probabilité d’avoir la maladie lorsque le testest positif. C’est aussi la VPP ;Pr(P|M) est la probabilité d’avoir un résultat positif lorsquel’on est malade. C’est la sensibilité du test ;Pr(N|S) est la probabilité d’avoir un résultat négatif lorsquel’on n’est pas malade. C’est la spécificité du test ;Prév(M) est la probabilité a priori d’avoir la maladie : c’est laprévalence de la maladie ;Prév(S) est la probabilité a priori de ne pas être malade c’estle « complément à 1 » de la prévalence.

En reprenant les notations du Tableau 2, la VPP vaut donc :/(a + b).

En résumé, après application du test diagnostique, le médecinttribue au sujet une nouvelle probabilité d’être atteint de laaladie M, Pr(M|P) qui se lit « probabilité d’avoir la maladie

achant que le test est positif ». Cette VPP est la probabilité aosteriori de la maladie, c’est-à-dire la probabilité que le sujetoit malade, connaissant le résultat du test diagnostique et doncprès incorporation de l’information obtenue (le test est positif).

Page 4: La statistique bayésienne

N. Meyer et al. / La Revue de médeci

Tableau 3Illustration chez une femme âgée : prévalence : 1/500 000

Malade Sains Total

Test positif P 0,97 0,02 PTest négatif N 0,03 0,98 NTotal 1/500 000 499 999/500 000

C

V

Ll

bifLcumlglpdl(

sàebpabbpcCdSpergld

TI

TTT

C

4

preStl

pvrcssLcmlcvtv9cdUdmdc

cNPpàpl

5

hez cette patiente, la VPP vaut :

PP = 0, 97 · 1/500 000

0, 97 · 1/500 000 + (1 − 0, 98) · 499 999/500 000= 0, 00097.

a VPP combine donc l’information a priori (la prévalence dea maladie) et le résultat du test (le test est positif).

L’obtention du résultat du test permet donc d’établir la pro-abilité d’une hypothèse (être malade) à partir de l’estimationnitiale qu’est la prévalence. Plus précisément, le test trans-orme une probabilité a priori en une probabilité a posteriori.a prévalence est une connaissance a priori et la VPP est uneonnaissance a posteriori. La prévalence a été « corrigée » enne VPP qui mesure la probabilité que le sujet soit porteur de laaladie connaissant le résultat positif du test. On a en fait réa-

isé une mise à jour de l’information sur la situation du patientrâce au théorème de Bayes. Des exemples sont donnés danses Tableaux 3 et 4, concernant le diagnostic d’une sérologieositive pour le VIH chez une femme de 75 ans sans antécé-ents et chez un toxicomane de 27 ans. Ces exemples illustrente rôle parfois important que jouent les connaissances a priorila prévalence de la maladie dans la population concernée).

Le plus souvent, un test diagnostique compare deux entitéseulement : présence ou absence de la maladie. Mais il est toutfait possible d’imaginer des situations diagnostiques ou l’on

st amené à comparer trois possibilités (pas de tumeur, tumeurénigne, tumeur maligne). Le principe du théorème de Bayeseut parfaitement s’appliquer et on peut en principe comparerutant d’hypothèses diagnostiques que l’on veut. On pourrait trèsien imaginer devant un patient fébrile utiliser le raisonnementayésien pour déterminer laquelle parmi toutes les pathologiesrovoquant une hyperthermie est la plus probable. Le tableauontiendrait alors deux lignes et quelques dizaines de colonnes.haque diagnostic serait assorti d’une valeur prédictive positiveonnant la probabilité a posteriori de chacun de ces diagnostics.ur la base de ces VPP, on pourrait regrouper les pathologiesar grande famille : maladies infectieuses, maladies de système,tc., en additionnant les valeurs prédictives de chaque pathologie

apportées à une famille diagnostique. On obtient alors la VPPlobalement pour les pathologies infectieuses, puis la VPP poures maladies de systèmes, etc. La VPP la plus élevée indique leiagnostic ou le groupe de diagnostic le plus probable.

ableau 4llustration chez un toxicomane, prévalence = 1/10

Malade Sains Total

est positif P 0,97 0,02 Pest négatif N 0,03 0,98 Notal 1/10 9/10

hez ce patient, la VPP vaut : VPP = 0,97·0,1

0,97·0,1+(1−0,98)·0,9= 0, 982.

fatdappdgeLod

ne interne 30 (2009) 242–249 245

. Intervalle de confiance bayésien d’une proportion

Mais ces exemples concernent des maladies et non pas desroportions ou des taux de guérison. Comment utiliser le théo-ème de Bayes pour réaliser des analyses statistiques comme, parxemple, le calcul de l’intervalle de confiance d’une proportion ?i, par exemple, on observe huit rémissions parmi 19 patients

raités par une molécule X, quel est l’intervalle de confiance dea proportion 8/19 = 42 % par la méthode bayésienne ?

Lorsque l’on calcule l’intervalle de confiance d’une pro-ortion, on ne fait rien d’autre que déterminer l’ensemble desaleurs qui sont compatibles avec les données observées. Celaevient à se demander si toutes les valeurs de 0 à 100 % sontompatibles ou non avec la proportion observée de 8/19. Il’agit, par exemple, de déterminer si une valeur de 37 % peut rai-onnablement être compatible avec les proportions observées.a VPP de la valeur « 37 % » répond à cette question puisqu’elleonstitue la probabilité a posteriori que la valeur de 37 % soit laeilleure estimation du taux de rémission observé. En utilisant

e même principe que pour l’exemple de l’hyperthermie, il fautonstruire un tableau de deux lignes et 101 colonnes (toutes lesaleurs de 0 à 100 % par tranche de 1 %) et calculer la VPP deoutes les valeurs de pourcentage. En prenant l’ensemble desaleurs de pourcentage ayant les VPP les plus hautes et totalisant5 % de la somme des VPP, on aura construit un intervalle deonfiance à 95 % de la proportion, en englobant dans l’intervallee confiance les valeurs de pourcentages les plus probables.ne estimation plus fine peut bien sûr être obtenue en utilisantes tranches de 0,1 % au prix d’une augmentation des calculsais le principe reste évidemment le même. Il existe par ailleurs

es formules donnant directement les bornes de l’intervalle deonfiance mais leur utilisation sort du cadre de cet article.

Comme pour un test diagnostique, ce calcul suppose laonnaissance a priori de la probabilité de chaque proportion.ous reviendrons en détail plus loin sur cet aspect du problème.our l’instant, une solution simple consiste à dire que chaqueroportion a une probabilité a priori de 1/101. De plus il est toutfait possible de choisir des probabilités a priori très inégalesour mettre du « poids » sur certaines valeurs comme nous allonse voir ci-dessous.

. Comparaison de deux proportions

Pour comparer deux proportions le raisonnement est tout àait similaire à celui présenté ci-dessus. Nous allons l’illustrervec une étude qui visait à étudier l’effet d’une boisson probio-ique commerciale contenant du Lactobacillus sur la préventiones diarrhées à Clostridium difficile au décours d’un traitementntibiotique [11]. Le critère de jugement était la proportion deatients développant une diarrhée à C. difficile. Le nombre deatients développant une diarrhée était de sept sur 57 (12 %)ans le groupe probiotique et de 19 sur 56 (34 %) dans leroupe placebo, soit une différence de 22 %. Un test de Fisher

xact donne un p = 0,007 et un test du χ2 donne un p = 0,006.’analyse fréquentiste rejette donc l’égalité des traitements etn admet que le probiotique et le placebo ont des taux de succèsifférents.
Page 5: La statistique bayésienne

2 édeci

r

vvdlelptdputdtqvPcdlldl

sccmltldpfpdpVn

pEimasfpd

stpi

bcedRsd

ldqtdpdépmdppptnlq

pecpbdnlrrtdceàB

bqnc

6

46 N. Meyer et al. / La Revue de m

Une analyse bayésienne donne des résultats nettement diffé-ents [12]. L’analyse se réalise de la facon suivante.

Lorsque l’on compare deux proportions, chaque proportionariant de 0 à 100 %, les différences de proportions peuventarier de −100 à +100 %. Ces différences extrêmes sont évi-emment en général très peu probables et l’on s’attend danse cas étudié à observer une différence de l’ordre de 0 à 20 %ntre les proportions de patients présentant une diarrhée avec’un ou l’autre des traitements. La répartition des probabilités ariori des différences entre les deux proportions va donc reflé-er ce résultat attendu. Étant donné le contexte, l’absence deifférence est tout à fait crédible et il est possible de poser ariori que la probabilité que le probiotique et le placebo aientn effet identique est de l’ordre de 50 %. Les 50 % de probabili-és a priori restant seront répartis sur l’ensemble des différencese −100 à +100 %, en défavorisant les écarts les plus impor-ants. Pour se représenter cette répartition de la même manièreue dans l’exemple de l’intervalle de confiance, il faut conce-oir un tableau carré de 101 lignes et d’autant de colonnes.our chacune des cases de ce tableau, il faudra calculer la VPPorrespondant à chaque combinaison de proportions de succèses deux traitements étudiés. La diagonale du tableau contientes cases pour lesquelles les taux de succès sont les mêmes poures deux traitements : elle contient donc la VPP de l’absence deifférence. Les cases hors diagonales contiennent la VPP poura supériorité d’un traitement par rapport à l’autre.

Admettons pour l’instant qu’il y ait a priori une chanceur deux pour que les deux traitements aient la même effica-ité. Le calcul montre alors que la probabilité a posteriori deette absence de différence est de 0,110, ce qui est relative-ent important, en tout cas, plus que ne le laisserait penser

a valeur du « p ». La probabilité que le traitement par probio-ique soit supérieur au placebo est de 0,887 et la probabilité quee probiotique soit inférieur au placebo est de 0,003. On peutonc exclure l’idée que le nombre de patients diarrhéiques sousrobiotique est plus grand qu’avec le placebo (probabilité trèsaible) mais on ne peut pas encore totalement affirmer que lerobiotique est plus efficace que le placebo pour prévenir lesiarrhées, car il y a malgré tout 11 % de chance que cela ne soitas le cas. Exprimé avec le langage des tests diagnostiques, laPP de l’absence de différence est de 11 %, ce qui n’est paségligeable.

Comment justifier le choix d’une probabilité a priori de 50 %our l’absence de différence entre les deux traitements étudiés ?n fait, malgré son titre, l’étude n’est pas vraiment en double

nsu, le placebo n’étant pas vraiment un placebo. Ensuite, leaintien de l’insu pour certains patients ayant un traitement

ntibiotique n’était pas correctement assuré. Enfin, on peut rai-onnablement douter de l’efficacité générale d’un produit qu’ilaut considérer comme un alicament. Ces éléments invitent à larudence, d’ou un a priori assez fort sur l’absence d’effet, mais’autres valeurs peuvent se justifier si le contexte est différent.

Supposons maintenant que grâce à des informations obtenues

ur des études antérieures, la probabilité a priori que probio-ique = placebo soit de 0,25. Alors la probabilité a posteriori querobiotique = placebo est de 0,04, ce qui est alors légèrementnférieur à la valeur du seuil de décision des tests fréquentistes.

mdpO

ne interne 30 (2009) 242–249

Encore un dernier exemple. Si l’on est presque sûr que pro-iotique = placebo, avec une probabilité a priori de 0,95 pourette égalité, la probabilité a posteriori est encore de 0,70, ce quist en faveur de l’égalité des traitements. L’hypothèse nulle deépart est affaiblie mais elle reste encore la meilleure hypothèse.appelons qu’un classique test du χ2 conclut à une différence

ignificative. Le test bayésien est ici plus en faveur de l’absencee différence entre les deux groupes.

Une première conclusion importante de cet exemple est que’introduction de probabilité a priori permet de juger finemente la différence entre deux traitements. On constate par exempleue, compte tenu des données, pour admettre que les deux trai-ements diffèrent, il faudrait déjà être relativement convaincue cette différence avant l’expérience : pour que la probabilité aosteriori que probiotique = placebo soit inférieure à 5 %, il fautéjà que la probabilité a priori de cette égalité soit inférieure ougale à 25 %. Dans cet exemple, les données ne permettent doncas de renverser radicalement l’hypothèse d’égalité des traite-ents. Une analyse fréquentiste au contraire conclut que cette

ifférence est certaine ou presque, au risque α = 5 % de se trom-er. L’analyse bayésienne évoque plutôt un résultat faussementositif. Une seconde conclusion est que pour des valeurs de larobabilité a priori allant de 0,50 à 0,95, les conclusions pra-iques de la comparaison ne sont pas modifiées : le probiotique’est pas clairement supérieur au placebo. Cela montre aussi quees seules données ne suffisent pas forcément pour conclure etue des connaissances a priori peuvent moduler un résultat.

L’utilisation d’informations extérieures via la distribution ariori permet de moduler les conclusions obtenues lors d’unssai thérapeutique. Si plusieurs études antérieures avaientonclu à la supériorité du probiotique sur le placebo, on auraitu introduire ces conclusions dans l’analyse (dans la distri-ution a priori) et les combiner avec les données observéesans notre essai. Ce procédé permet une accumulation des don-ées, caractéristique propre à la science, et c’est finalement’ensemble des observations obtenues sur l’ensemble des étudeséalisées qui aurait participé à la conclusion sur les mériteselatifs du probiotique et du placebo. Deux études fréquen-istes peuvent avoir des conclusions contraires, ce qui posees problèmes d’interprétation alors qu’une analyse bayésienneombine ces deux études pour avoir une seule conclusion. Unxemple d’étude où l’incorporation d’études antérieures modifieraison les conclusions d’un essai thérapeutique est donné parrophy et Joseph [3].

Il ne faudrait pas déduire de cet exemple que les méthodesayésiennes permettent systématiquement de définir avec uneuasi-certitude le meilleur traitement. Néanmoins, elles four-issent souvent une information plus nuancée sur les traitementsomparés que les méthodes classiques.

. Généralisation

Le principe décrit ici s’étend bien entendu à d’autres para-

ètres statistiques tels que des coefficients de corrélation ou

es odds ratio ou tout autre modèle. Si le calcul est souventlus complexe pour ces paramètres, le concept reste identique.n combine une information a priori (quand elle existe) avec

Page 6: La statistique bayésienne

édeci

ldmcommeLLua

7

fd

bàlt

cdtq

rrttmltdl

tctmudlppqsdp5c

cb

clmpnsc

dabeppgSsnapsqlptrstbrlqtml

gldtcfspsadddl

N. Meyer et al. / La Revue de m

es données pour déterminer la cause la plus probable desifférences observées. Les situations traitées peuvent être extrê-ement complexes. De plus, la théorie bayésienne permet de

alculer directement des éléments tels que la probabilité qu’undds ratio ou un risque relatif soit supérieur à 1, ce que ne per-et pas facilement la théorie fréquentiste. Pour comparer deuxoyennes, l’analyse donnera la probabilité que la différence

ntre les deux moyennes soit comprise entre deux valeurs L1 et2 qui seraient particulièrement intéressantes pour le clinicien,1 étant, par exemple, un gain minimum cliniquement utile et L2n maximum défini par une certaine toxicité. Là non plus, il n’ypas d’équivalent fréquentiste direct, malgré les apparences.

. Discussion

Le contraste entre la statistique bayésienne et la statistiqueréquentiste est important. Sur de nombreux points, leurs para-igmes diffèrent ou s’opposent [1,13].

Nous avons vu qu’un élément crucial du raisonnementayésien est le choix de la répartition a priori des valeurs, c’est--dire la probabilité de chaque hypothèse ou proportion avant’observation des données. Alors, se pose naturellement la ques-ion du choix de la loi a priori.

Dans le cadre d’un test diagnostique, il est assez naturel dehoisir la prévalence des pathologies ou des états sains/maladesans la population concernée. Mais comment établir la répar-ition a priori d’une proportion ? Ce problème est plus simpleu’il n’y paraît.

Si un investigateur souhaite estimer la proportion de sujets enémission à deux ans lors de la prise d’une nouvelle chimiothé-apie dérivée d’une molécule ancienne, il sait à l’avance que leaux de rémission ne sera pas de 0 % ni de 100 %. De même, ceaux ne sera pas de 1 % ni de 99 %, etc. Selon la molécule et son

écanisme d’action précis, il peut raisonnablement estimer quee taux de rémission sera situé entre 30 et 70 % avec des valeursrès probables entre 40 et 50 %. Cette répartition a priori des tauxe rémission est donc issue d’une connaissance antérieure danse domaine et ce principe peut le plus souvent être appliqué.

Pour la plupart des situations, il est assez facile de délimi-er grossièrement les résultats possibles d’un traitement. Si unehimiothérapie montrait au cours d’un essai thérapeutique unaux de rémission à deux ans de 95 % en étant significative-

ent supérieur au taux de la molécule de référence, ce seraitne révolution, et l’on aurait du mal à y croire. Le fréquentisteirait : le test est significatif, donc le résultat existe, choquante bon sens clinique. Le bayésien, par l’utilisation de la loi ariori dirait que ce résultat est très peu probable et serait plusrudent tout en étant en accord avec le bon sens clinique. Pourue cette chimiothérapie fasse ses preuves, il faudrait la testerur un très grand nombre de sujets apportant une grande quantité’information pour contrebalancer les connaissances cliniquesréexistantes. A contrario, un taux de rémission à deux ans de0 % n’aurait rien de surprenant et de faibles effectifs suffirait à

onfirmer cette hypothèse.

Les situations d’ignorance totale sont en fait assez rares. Danses cas, toutes les proportions possibles ont la même proba-ilité a priori. Le calcul montre que les résultats obtenus de

vise

ne interne 30 (2009) 242–249 247

ette facon fournissent numériquement les mêmes résultats quees méthodes classiques, ce qui montre indirectement que ces

éthodes classiques ne tiennent pas compte de l’information ariori même quand elle est disponible. Le domaine de la défi-ition correcte d’une distribution a priori est actuellement laource de nombreux articles et l’on en trouvera un bon apercuhez O’Hagan [14,15].

La loi a priori permet aussi de confronter différents pointse vue. Dans un domaine spécifique, plusieurs experts peuventvoir des avis divergents sur une même question. L’analyseayésienne permet très facilement de confronter ces opinionsn réalisant les calculs avec chacune des lois a priori définiesar les experts. Si les conclusions sont les mêmes ou sont trèsroches, quelle que soit la distribution a priori alors, les diver-ences s’effacent devant les données et la conclusion est robuste.i au contraire, l’analyse montre des résultats très différents, celauggère qu’il faut enrichir les connaissances en augmentant leombre d’observations pour pouvoir trancher. Là encore, unepproche fréquentiste ne permet pas de confronter aussi sim-lement l’avis de différents experts. De plus, si les donnéesont suffisamment nombreuses, le résultat sera stable quelleue soit la distribution a priori utilisée. Tout cela montre quea loi a priori ne joue pas un rôle exclusif et qu’il n’est pasossible de lui faire dire n’importe quoi, les données devantoujours avoir le dernier mot lorsqu’elles sont disponibles. Enevanche, lorsque les sujets d’expérience et donc les donnéesont rares (examen très coûteux, maladies orphelines, animauxransgéniques n’existant qu’en très petit nombre), les méthodesayésiennes permettent de moduler les conclusions d’une expé-ience et d’enrichir la réflexion du chercheur en jouant sur cetteoi a priori. Mais, là aussi, il ne faudrait pas conclure de cesuelques lignes que les méthodes bayésiennes permettent sys-ématiquement d’obtenir un résultat, mais elles permettent au

oins d’enrichir la connaissance par une réflexion plus fine sures résultats.

Dans certaines situations médicales, des études épidémiolo-iques ou des scores cliniques comme le score de Wells pour’embolie pulmonaire permettent d’avoir une estimation de laistribution a priori des probabilités [16]. Si cette estimation estrop grossière (le score de Wells par exemple ne donne que troisatégories de probabilité : faible, moyenne et forte), il est tout àait possible de faire varier la valeur de cette probabilité a prioriur une certaine plage de valeur et d’en évaluer l’impact sur larobabilité a posteriori. Cette méthode, nommée analyse de sen-ibilité, permet de vérifier la robustesse des conclusions d’unenalyse bayésienne. Cela est particulièrement utile dans le cadre’un essai thérapeutique où cette analyse de sensibilité permete vérifier la stabilité des résultats en fonction des hypothèsese départ [17,18]. Un exemple en a été donné avec l’étude sure probiotique.

Parmi les avantages de la statistique bayésienne, soulignonsussi le fait que l’on puisse travailler de facon exacte sur deschantillons de très petite taille, voire même réduit à un indi-

idu [1]. Par ailleurs, les problèmes d’analyses séquentielles ountermédiaires disparaissent totalement : les analyses multiplesur des données s’accumulant progressivement au cours d’unssai thérapeutique n’obligent pas à des corrections des seuils de
Page 7: La statistique bayésienne

2 édeci

seluddtped[

ecsàfdfcsbcdtldlàmmduLddqmt[etsrqprslLà

8

tp

tuulr

C

R

[

[

[

[[

[

[

[

[

[

48 N. Meyer et al. / La Revue de m

ignificativité contrairement à la théorie fréquentiste. Enfin, lesssais de supériorité et les essais d’équivalence s’analysent aveces mêmes outils contrairement aux méthodes fréquentistes quitilisent des tests différents pour ces deux situations. En raisone ces avantages, la théorie bayésienne est de plus en plus utiliséeans le cadre des essais contrôlés [19] et des comptes rendus plusechniques sur le sujet pourront être trouvés dans la bibliogra-hie [17,20–23]. La Food and Drug Administration a d’ailleursntamé une réflexion visant à autoriser la mise sur le marché deispositifs médicaux validés dans un cadre uniquement bayésien24].

L’utilisation des méthodes bayésiennes est actuellementncore limitée par le manque de logiciels. Il faut cependantiter Winbugs, disponible gratuitement [2]. Une des causes pos-ibles de la rareté de ces logiciels est une certaine difficultéautomatiser les analyses bayésiennes. Mais les plus grands

reins à l’adoption de la statistique bayésienne sont sans doute,’une part, la force de l’habitude, et d’autre part, la difficulté àaire accepter une conception différente de la statistique. Commeorollaire, une modification de l’enseignement de la statistiqueemble nécessaire dans le domaine médical où le raisonnementayésien est déjà connu mais sous-exploité. Ce changementonceptuel devrait pourtant pouvoir se faire assez facilementans la mesure où tous les outils statistiques habituels de la statis-ique fréquentiste, comme par exemple les analyses multivariées,es modèles de Cox pour les études de survie ou la comparaisone moyennes, se retrouvent dans les méthodes bayésiennes, avec’avantage pour celles-ci de pouvoir s’adapter plus facilement

une vaste gamme de problèmes. Le lecteur de la littératureédicale sera donc en terrain connu avec le bénéfice supplé-entaire que les interprétations qu’il pourra faire des résultats

es études seront plus cohérentes et plus riches qu’avant, sousne forme plus apte à le satisfaire que les traditionnels p [1].es méthodes bayésiennes permettent par ailleurs d’incorporeres connaissances issues d’études antérieures ou encore l’avis’expert, ce qui est très difficile à réaliser dans un cadre fré-uentiste [1,3,17,18]. Différents exemples d’applications deséthodes bayésiennes pourront être trouvés dans la littérature,

ant dans le cadre d’essais randomisés [19], que de méta-analyses25], d’étude d’intervention en médecine générale [26] ou encoren épidémiologie [27,28]. Un bon exemple d’application de lahéorie bayésienne peut être trouvé dans Roberts [4] où uneynthèse entre données qualitatives et données quantitatives estéalisée. D’autres applications dans des domaines aussi variésue l’anesthésie ou la microbiologie montrent une utilisation delus en plus large de ces méthodes [5–7]. Un numéro spécial de laevue Clinical trial a d’ailleurs été consacré aux méthodes bayé-iennes [29]. Un changement est désormais perceptible dans laittérature médicale et cette tendance, attendue entre autres parilford et Braunholtz [30], devrait se confirmer dans les annéesvenir.

. Conclusion

Nous avons montré la simplicité d’interprétation de la statis-ique bayésienne en tracant un parallèle entre celle-ci et unerocédure traditionnellement utilisée en médecine, celle des

[

[

ne interne 30 (2009) 242–249

ests diagnostiques. Ce lien permet d’inciter à une plus largetilisation d’un paradigme d’une grande richesse scientifique ettilisé par un nombre croissant d’auteurs. Son application danse cadre de la recherche biomédicale devrait pouvoir enrichir laéflexion des investigateurs.

onflits d’intérêts

Aucun.

éférences

[1] Lee P. Bayesian statistics: an introduction. London: Arnold Pub;2004.

[2] Gilks WR, Thomas A, Spiegelhalter DJ. A language and program forcomplex Bayesian modelling. Statistician 1994;43:169–78.

[3] Brophy JM, Joseph L. Placing trials in context using Bayesian analysis.GUSTO revisited by Reverend Bayes. JAMA 1995;273:871–5.

[4] Roberts KA, Dixon-Woods M, Fizpatrick R, Abrams KR, JonesDR. Factors affecting uptake of childhood immunisation: a Bayesiansynthesis of qualitative and quantitative evidence. Lancet 2002;360:1596–9.

[5] Pouillot R, Albert I, Cornu M, Denis JB. Estimation of uncertainty andvariability in bacterial growth using Bayesian inference. Application toListeria monocytogenes. Int J Food Microbiol 2003;81:87–104.

[6] Dexter F, Ledolter J. Bayesian prediction bounds and comparisons ofoperating room times even for procedures with few or no historic data.Anesthesiology 2005;103:1259–67.

[7] Basánez MG, Marshall C, Carabin H, Gyorkos T, Joseph L. Bayesianstatistics for parasitologist. Trends Parasitol 2004;20:85–91.

[8] Vayssière C, David E, Meyer N, Haberstich R, Sebahoun V, Roth E, et al.A French randomized controlled trial of ST-segment analysis in a popu-lation with abnormal cardiotocograms during labor. Am J Obstet Gynecol2007;197, 299.e1-299.e6.

[9] Grenier B. Évaluation de la décision médicale. In: Coll. Évaluation etstatistique. 2e édition Paris: Masson; 1996.

10] Riou B, Landais P. Principes des tests d’hypothèse en statistique : �, � etP. Ann Fr Anesth Reanim 1998;17:1168–80.

11] Hickson M, D’Souza AL, Muthu N. Use of probiotic Lactobacillus prepa-ration to prevent diarrhoea associated with antibiotics: randomised doubleblind placebo controlled trial. BMJ 2007;335:80. Epub 2007.

12] Albert J. Bayesian computation using Minitab. Belmont CA: DuxburyPress; 1996.

13] Cohen J. The earth is round (p < .05). Am Psychol 1994;49:997–1003.14] O’Hagan A. Eliciting expert beliefs in substantial practical applications.

Statistician 1998;47:21–35 (with discussion, pp 55–68).15] O’Hagan A, Buck CE, Daneshkhah A, Eiser JE, Garthwaite PH, Jenkinson,

et al. Uncertain judgements. Eliciting expert’s probabilities. Chichester,UK: Wiley & Sons; 2006. Statistics in practice.

16] Wells PS, Anderson DR, Rodger M, Ginsberg JS, Kearon C, Gent M, etal. Derivation of a simple clinical model to categorize patient’s probabilityof pulmonary embolism: increasing the models utility with the SimpliREDD-dimer. Thromb Haemost 2000;83:416–20.

17] Spiegelhalter DJ, Freedman LS, Parmar MKB. Bayesian approaches torandomized trials. J R Stat Soc Ser A Stat Soc 1994;157:357–416.

18] Spiegelhalter DJ. Incorporating bayesian ideas into health-care evaluation.Stat Sci 2004;19:154–74.

19] Milling T, Holden C, Melniker L, Briggs WM, Birkhahn R, Gaeta T. Ran-domized controlled trial of single-operator vs. two-operator ultrasoundguidance for internal jugular central venous cannulation. Acad Emerg Med2006;13:245–7.

20] Berry DA. Bayesian statistics and the efficiency and ethics of clinical trials.Stat Sci 2004;19:175–87.

21] Vail A, Hornbuckle J, Spiegelhalter DJ, Thornton JG. Prospective applica-tion of bayesian monitoring and analysis in an “open’ randomized clinicaltrial. Stat Med 2001;20:3777–87.

Page 8: La statistique bayésienne

édeci

[

[

[

[

[

[

[

N. Meyer et al. / La Revue de m

22] Parmar MKB, Griffiths GO, SpiegelhalterDJ, Souhami RL, Altman DG,van der Scheuren E, et al. Monitoring of large randomized clinical trials: anew approach with bayesian methods. Lancet 2001;358:375–81.

23] Cronin KA, Freedman LS, Lieberman R, Weiss HL, Beenken SW, KelloffGH. Bayesian monitoring of phase II trials in cancer chemoprevention. JClin Epidemiol 1999;52:705–11.

24] FDA. Guidance for the Use of Bayesian Statistics in MedicalDevice Clinical Trials - Draft Guidance for Industry and FDA Staff.

http://www.fda.gov/cdrh/osb/guidance/1601.html. Accès on-line le 18 jan-vier 2008.

25] Jansen JP. Self-monitoring of glucose in type 2 diabetes mellitus: a Baye-sian meta-analysis of direct and indirect comparisons. Curr Med Res Opin2006;22:671–81.

[

[

ne interne 30 (2009) 242–249 249

26] Rahme E, Choquette D, Beaulieu M, Bessette L, Joseph L, Toubouti Y, et al.Impact of a general practitioner educational intervention on osteoarthritistreatment in an elderly population. Am J Med 2005;118:1262–70.

27] Eilstein D, Uhry Z, Cherie-Challine L, Isnard H. Mortalité par cancer dupoumon chez les femmes francaises. Analyse de tendance et projection àl’aide d’un modèle âge-cohorte bayésien, de 1975 à 2014. Rev EpidemiolSante Publique 2005;53:167–81.

28] Dunson DB. Commentary: practical advantages of bayesian analysis of

epidemiologic data. Am J Epidemiol 2001;153:1222–6.

29] Goodman NS. Introduction to bayesian methods I: measuring the strengthof evidence. Clin Trials 2005;2:282–90.

30] Lilford RJ, Braunholtz D. The statistical basis of public policy: a paradigmshift is overdue. BMJ 1996;313:603–7.