Bio-Statistique

download Bio-Statistique

of 179

Transcript of Bio-Statistique

  • Universit Pierre et Marie Curie

    Biostatistique

    PACES - UE4

    2011 - 2012

    Responsables : F. Carrat et A. MalletAuteurs : F. Carrat, A. Mallet, V. Morice

    Mise jour : 17 octobre 2011Relecture : V. Morice, A. Mallet, F. Carrat et S. Tzenas

  • 2/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

  • Sommaire

    Sommaire2011 - 2012 Biostatistique - Carrat, Mallet, Morice 3/179

    3 Sommaire

    9 Avant-propos

    11 Introduction

    11 1 La variabilit et lincertain12 2 La mesure dune grandeur12 2.1 Units et quations aux dimensions13 2.2 Erreurs de mesure14 3 La dcision dans lincertain

    15 Chapitre 1 : Statistique(s) et Probabilit(s)

    15 1.1 Statistique15 1.2 Population et chantillon16 1.3 Statistique et probabilit

    19 Chapitre 2 : Rappels mathmatiques

    19 2.1 Ensembles, lments19 2.2 Oprations sur les ensembles21 2.3 Ensembles finis, dnombrables, non dnombrables21 2.4 Ensembles produits22 2.5 Familles densembles22 2.6 Autres rappels mathmatiques22 2.6.1 Rappel sur les sommes23 2.6.2 Rappel sur les intgrales

    25 Chapitre 3 : Elments de calcul des Probabilits

    25 3.1 Introduction26 3.2 Exprience alatoire, ensemble fondamental et vnements27 3.3 Oprations sur les vnements27 3.4 Rgles du calcul des probabilits29 3.5 Remarque29 3.6 Illustration de quelques ensembles probabiliss29 3.6.1 Ensemble probabilis fini30 3.6.2 Ensemble fini quiprobable30 3.6.3 Ensembles probabiliss infinis

  • Sommaire

    30 3.6.3.1 Cas dnombrable31 3.6.3.2 Cas dun ensemble probabilis infini non dnombrable4/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    33 Chapitre 4 : Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    33 4.1 Probabilit conditionnelle34 4.2 Thorme de la multiplication35 4.3 Diagramme en arbre36 4.4 Thorme de Bayes38 4.5 Indpendance entre vnements38 4.6 Indpendance, inclusion et exclusion de deux vnements

    41 Chapitre 5 : Evaluation de lintrt diagnostique des informations mdicales

    41 5.1 Introduction41 5.1.1 Le diagnostic42 5.1.2 Les informations mdicales42 5.1.3 Situation exprimentale et estimation43 5.2 Les paramtres de lvaluation43 5.2.1 Sensibilit et spcificit44 5.2.2 Valeurs prdictives44 5.2.3 Comparaison des deux couples de paramtres45 5.2.4 Choix dun seuil : courbes ROC47 5.3 Estimation des paramtres de lvaluation47 5.3.1 Un chantillon reprsentatif47 5.3.1.1 Les donnes47 5.3.1.2 Estimation de la sensibilit et de la spcificit48 5.3.1.3 Estimation des valeurs prdictives49 5.3.2 Deux chantillons reprsentatifs

    51 Chapitre 6 : Variables alatoires

    51 6.1 Dfinition dune variable alatoire52 6.2 Variables alatoires finies52 6.2.1 Reprsentation dune loi de probabilit finie52 6.2.2 Esprance mathmatique dune variable finie55 6.2.3 Variance et cart-type dune variable finie55 6.2.4 Loi de probabilit produit57 6.2.5 Variables alatoires indpendantes57 6.2.6 Fonction de rpartition58 6.3 Variables infinies dnombrables (hors programme)59 6.4 Variables alatoires continues61 6.5 Extension de la notion de variable alatoire

  • Sommaire

    63 Chapitre 7 : Exemples de distributions

    63 7.1 Lois discrtes2011 - 2012 Biostatistique - Carrat, Mallet, Morice 5/179

    63 7.1.1 Loi de Bernoulli63 7.1.2 Loi binomiale66 7.1.3 Loi de Poisson67 7.2 Lois continues67 7.2.1 Loi normale67 7.2.1.1 Dfinition67 7.2.1.2 Proprits70 7.2.2 Loi du 2 (chi-2)70 7.2.2.1 Dfinition71 7.2.2.2 Proprits71 7.2.3 Loi de Student (hors programme)72 7.2.4 Loi exponentielle (hors programme)73 7.3 Application de la Loi de Poisson linterprtation dun risque sanitaire

    possible qui na pas encore t observ73 7.3.1 Introduction73 7.3.2 Le problme direct 74 7.3.3 Problme inverse75 7.3.4 Application numrique75 7.3.5 Remarque

    77 Chapitre 8 : Statistiques descriptives

    77 8.1 Rappels et complments78 8.2 Reprsentation complte dune srie dexpriences78 8.2.1 Cas dune variable qualitative79 8.2.2 Cas dune variable quantitative discrte80 8.2.3 Cas dune variable quantitative continue. Notion dHISTOGRAMME81 8.3 Reprsentation simplifie dune srie dexpriences81 8.3.1 Indicateurs de localisation des valeurs81 8.3.2 Indicateurs de dispersion des valeurs82 8.4 Reformulation de la moyenne et de la variance observes82 8.4.1 Reformulation de la moyenne observe83 8.4.2 Reformulation de la variance observe84 8.5 Cas particulier dune variable deux modalits - Proportion84 8.5.1 Expression de lesprance mathmatique de X84 8.5.2 Expression de la variance de X85 8.5.3 Interprtation de la moyenne observe85 8.6 Conclusion : la variable alatoire moyenne arithmtique87 Rsum du chapitre

  • Sommaire

    89 Chapitre 9 : Fluctuations de la moyenne observe : la variable alatoire moyenne arithmtique6/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    89 9.1 Premire proprit de la variable alatoire moyenne arithmtique89 9.1.1 Un exemple90 9.1.2 Gnralisation91 9.2 Seconde proprit de la variable alatoire moyenne arithmtique : le thorme

    central limite92 9.3 Etude de la distribution normale (rappel)94 9.4 Application du thorme central limite. Intervalle de Pari (I. P.)94 9.4.1 Dfinition de lintervalle de pari (I. P.) dune moyenne observe96 9.4.2 Les facteurs de dpendance de la longueur de lintervalle de pari (IP)97 9.4.3 Lintervalle de pari dune variable alatoire98 Rsum du chapitre

    99 Chapitre 10 : Estimation - Intervalle de confiance

    99 10.1 Introduction100 10.2 Estimation ponctuelle100 10.2.1 Dfinition100 10.2.2 Proprits100 10.2.2.1 Biais101 10.2.2.2 Variance101 10.2.2.3 Erreur quadratique moyenne101 10.2.3 Exemple102 10.3 Estimation par intervalle - Intervalle de confiance102 10.3.1 Exemple dune proportion105 10.3.2 Intervalle de confiance approch dune proportion vraie 105 10.3.3 Intervalle de confiance approch dune moyenne vraie (variable

    continue)106 10.3.4 Applications106 10.3.4.1 Prcision dun sondage107 10.3.4.2 Prcision dune moyenne

    109 Chapitre 11 : Les tests dhypothses. Principes

    109 11.1 Un exemple concret (emprunt Schwartz)112 11.2 Principe gnral des tests dhypothses112 11.2.1 Les tapes de mises en uvre114 11.2.2 Justification de la rgle de dcision. Choix de 114 11.2.2.1 Interprtation de 114 11.2.2.2 Effet dun changement de valeur de 115 11.2.3 Justification des conclusions du test. Puissance dun test118 11.2.4 Amlioration de linterprtation du rejet de H0118 11.2.4.1 Notion de degr de signification

  • Sommaire

    119 11.2.4.2 Orientation du rejet120 11.3 Rappels et prcisions122 Rsum du chapitre2011 - 2012 Biostatistique - Carrat, Mallet, Morice 7/179

    123 Chapitre 12 : Quelques tests usuels

    123 12.1 Tests concernant des variables de Bernoulli123 12.1.1 Test dgalit dune proportion vraie une valeur donne (ou test de

    comparaison dune proportion observe une valeur donne)123 12.1.1.1 Mise en place du test124 12.1.1.2 Autre interprtation du paramtre z125 12.1.1.3 Nombre de sujets ncessaires125 12.1.2 Test dgalit de deux proportions vraies (ou test de comparaison de deux

    proportions observes)125 12.1.2.1 Mise en place du test127 12.1.2.2 Nombre de sujets ncessaires127 12.2 Tests concernant des variables quantitatives127 12.2.1 Tests impliquant une valeur donne128 12.2.1.1 Test dgalit dune moyenne vraie une valeur donne (ou test de

    comparaison dune moyenne observe une valeur donne)129 12.2.1.2 Test de symtrie dune variable (X) par rapport une valeur donne (0) :

    test de Wilcoxon130 12.2.2 Tests de comparaison de variables quantitatives130 12.2.2.1 Test dgalit de deux moyennes vraies (ou test de comparaison de

    deux moyennes observes)131 12.2.2.2 Test dgalit de deux distributions (ou test de comparaison de deux

    distributions observes) : test de Mann-Whitney-Wilcoxon133 12.2.3 Cas des sries apparies133 12.2.3.1 Test de comparaison de deux moyennes observes sur sries apparies134 12.2.3.2 Test de symtrie de la distribution des diffrences135 Rsum du chapitre

    137 Chapitre 13 : Tests concernant des variables qualitatives

    137 13.1 Comparaison dune rpartition observe une rpartition donne ou test du 2 dajustement

    138 13.1.1 Les tapes de mise en uvre142 13.1.2 Cas particulier : variable deux modalits143 13.2 Comparaison de plusieurs rpartitions observes ou test du 2 dhomognit146 13.3 Test dindpendance entre deux variables qualitatives150 Rsum du chapitre

  • Sommaire

    151 Chapitre 14 : Liaison entre deux variables continues : notion de corrlation8/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    151 14.1 Introduction152 14.2 Abord du problme154 14.3 Un indicateur de covariation : le coefficient de corrlation158 14.4 Le coefficient de corrlation vrai 159 14.5 Test dgalit du coefficient de corrlation vrai 0161 Rsum du chapitre

    163 Chapitre 15 : Mthodologie des tudes pidmiologiques

    163 15.1 La causalit164 15.2 Dmarche exprimentale et dmarche dobservation165 15.3 Les essais randomiss165 15.3.1 Dfinition165 15.3.2 Comment limiter les biais dans le droulement dun essai thrapeutique

    randomis ? Aveugle et placebo166 15.3.3 Comment limiter les biais dans lanalyse dun essai thrapeutique

    randomis ? Intention de traiter167 15.4 Les tudes dobservation167 15.4.1 Cohortes - Cas-tmoins et tudes transversales168 15.4.2 Etudes prospectives et rtrospectives168 15.4.3 Donnes longitudinales169 15.4.4 En pratique169 15.5 Mesures dassociation utilises en pidmiologie171 Rsum du chapitre

    173 Annexe A : Tables statistiques

    174 A.1 TABLE DE LA VARIABLE NORMALE REDUITE Z175 A.2 TABLE DU TEST DE WILCOXON176 A.3 TABLE DU TEST DE MANN-WHITNEY-WILCOXON177 A.4 TABLE DE 2178 A.5 TABLE DU COEFFICIENT DE CORRELATION179 A.6 TABLE DU t DE STUDENT

  • Avant-propos

    Avant-propos2011 - 2012 Biostatistique - Carrat, Mallet, Morice 9/179

    Ce polycopi contient le cours de biostatistique de la PACES - UE4 - de la Facult de MdecinePierre et Marie Curie (Paris VI).On pourra trouver des complments dans le livre de A. J. Valleron :

    A.J. Valleron. UE4 : valuation des mthodes danalyse appliques aux sciences de la vie et de lasant . Elsevier-Masson (collection PassSant)

  • Avant-propos10/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

  • Introduction

    Introduction2011 - 2012 Biostatistique - Carrat, Mallet, Morice 11/179

    La statistique constitue, en mdecine, loutil permettant de rpondre de nombreuses questions quise posent en permanence au mdecin :

    1. Quelle est la valeur normale dune grandeur biologique, taille, poids, glycmie ?2. Quelle est la fiabilit dun examen complmentaire ?3. Quel est le risque de complication dun tat pathologique, et quel est le risque dun

    traitement ?4. Le traitement A est-il plus efficace que le traitement B ?

    1 La variabilit et lincertain

    Toutes ces questions, proprement mdicales, refltent une proprit fondamentale des systmesbiologiques qui est leur variabilit. Cette variabilit est la somme dune variabilit exprimentale(lie au protocole de mesure) et dune variabilit proprement biologique. On peut ainsi dcomposerla variabilit dune grandeur mesure en deux grandes composantes :

    variabilit totale = variabilit biologique + variabilit mtrologique

    La variabilit biologique peut tre elle-mme dcompose en deux termes : dune part la va-riabilit intra-individuelle, qui fait que la mme grandeur mesure chez un sujet donn peuttre soumise des variations alatoires ; et dautre part la variabilit inter-individuelle qui faitque cette mme grandeur varie dun individu lautre.

    variabilit biologique = variabilit intra-individuelle + variabilit inter-individuelle

    La variabilit intra-individuelle peut tre observe lors de la mesure de la performance dunathlte qui nest pas capable des mmes performances chaque essai, mais qui se diffrenciedes autres athltes (variabilit inter-individuelle). En gnral, la variabilit intra est moindreque la variabilit inter.

    La variabilit mtrologique peut tre elle aussi dcompose en deux termes : dune part lesconditions exprimentales dont les variations entranent un facteur dalas ; et dautre part leserreurs induites par lappareil de mesure utilis.

    variabilit mtrologique = variabilit exprimentale + variabilit appareil de mesure

    La mesure de la pression artrielle peut grandement varier sur un individu donn suivant lesconditions de cette mesure ; il est ainsi recommand de la mesurer aprs un repos dau moins15 minutes, allong, en mettant le patient dans des conditions de calme maximal. Cette recom-mandation vise minimiser la variabilit due aux conditions exprimentales. La prcision delappareil de mesure est une donne intrinsque de lappareil, et est fournie par le construc-teur.

  • Introduction

    2 La mesure dune grandeur12/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    2.1 Units et quations aux dimensions

    Les grandeurs mesures possdent la plupart du temps une unit. La distance entre Paris et Mar-seille se mesurera par exemple en kilomtres, lpaisseur dun cheveu en microns, le poids duneorange en grammes. Dans quelle mesure ces grandeurs peuvent-elles tre compares ? La distanceentre Paris et Marseille, et lpaisseur dun cheveu sont deux longueurs ; leur comparaison est pos-sible si on les mesure avec une unit commune, par exemple le mtre. En revanche, le poids delorange nest pas comparable aux longueurs prcdentes.Deux grandeurs qui peuvent tre compares sont dites possder la mme dimension. Elles peuventtre caractrises par leur dimension : on parlera par exemple de longueur. Les dimensions detoutes les grandeurs physiques peuvent sexprimer en fonction de sept dimensions de base : la lon-gueur note L, la masse M, le temps T, lintensit lectrique I, la temprature , lintensitlumineuse J, et la quantit de matire N.Par exemple une vitesse est une longueur divise par un temps. On dira que sa dimension est LT-1.Plus prcisment, de lquation donnant la vitesse v en fonction de la distance d parcourue pendantle temps t , v=d/t , on dduit la relation entre les dimensions (notes entre crochets) des deuxmembres de lquation [v] = [d]/[t] = LT-1. Cette relation est appele quation aux dimensions.Une quation aux dimensions permet donc dexprimer la dimension de nimporte quelle grandeuren fonction des dimensions lmentaires, condition de connatre les relations entre elles. Elle per-met aussi une premire validation dune relation entre grandeurs physiques : les dimensions de lapartie gauche et de la partie droite de la relation doivent tre identiques.Dterminons par exemple la dimension dune nergie ou dun travail, partir de la formule w = f.l(un travail est le produit dune force par une longueur). Une force est le produit dune masse parune acclration (f = m.) et une acclration est une longueur divise par le carr dun temps.Donc [w] = [f][l] = [m][l]t -2][l] = ML2T-2.Un autre intrt des quations aux dimensions concerne les units des grandeurs mesures. On d-finit un systme dunits en imposant des units aux 7 dimensions de base, les autres units de d-finissant laide des quations aux dimensions. Le systme dunits le plus utilis est le SystmeInternational, ou SI, dans lequel une longueur est mesure en mtres (m), une masse en kilo-grammes (kg), un temps en secondes (s), une intensit lectrique en ampres (A), une tempra-ture en degrs Kelvin (K), une intensit lumineuse en candelas (cd), et une quantit de matire enmoles (mol).Dans le systme international, certaines units drives sont videntes : une surface sexprime enmtres carrs. Dautres le sont moins. Citons lhertz pour une frquence, le pascal pour une pres-sion, le joule pour une nergie ou un travail, le watt pour une puissance, le newton pour une force,le coulomb pour une charge lectrique, le volt pour une diffrence de potentiel, lohm pour unersistance, etc.Il existe des grandeurs sans dimension, calcules comme le rapport de deux grandeurs de mmedimension, mais qui possdent pourtant une unit. Un angle est une grandeur sans dimension me-sure en radians dans le systme international.

  • Introduction

    2.2 Erreurs de mesure2011 - 2012 Biostatistique - Carrat, Mallet, Morice 13/179

    La mesure dune grandeur ne peut conduire une valeur exacte. En premier lieu, linstrument demesure possde ncessairement une prcision limite : une rgle gradue millimtre par millimtrene peut donner une meilleure prcision quun demi millimtre. En second lieu, la grandeur me-surer peut tre source de variabilit intra-individuelle : la rptition de la mesure avec le mme ins-trument et dans des conditions identiques conduit alors des rsultats diffrents. Enfin,linstrument de mesure peut tre mal talonn ou mal adapt et conduire un biais de mesuresystmatique : les valeurs mesures seront systmatiquement trop leves, ou systmatiquementtrop basses.Pour une grandeur X mesurer, on note X lerreur de mesure. Cette erreur est gnralement fa-cilement connue si elle nest due qu un problme de prcision. Sil existe une variabilit intra-individuelle (raisonnablement faible), on fera intervenir lcart-type des mesures (voir chapitre 10page 99). Si x est la valeur mesure, la vraie valeur est donc comprise entre x-X et x+X .Si une grandeur G nest pas mesure, mais dduite dautres grandeurs X , Y , Z laide dune for-mule, lerreur G sur G doit se dduire des erreurs X , Y , Z sur X , Y, Z .Le plus souvent, on utilise un calcul bas sur la diffrentielle totale exacte de la formule. SiG = f(X , Y , Z) , la diffrentielle totale exacte1 est :

    Lerreur de mesure est alors donne par :

    Supposons par exemple devoir calculer une rsistance R en mesurant lintensit I du courant qui ycircule et la diffrence de potentiel U ses bornes. La formule liant ces grandeurs est R = U/I . Onmesure U = 1000 volts 1 volt prs et I = 1 ampre 10-3 ampre prs.

    La formule donne R = 1000 ohms et lerreur se calcule par

    Le calcul bas sur la diffrentielle totale exacte nest cependant quune approximation (on confondune courbe et sa tangeante). Lorsque des calculs plus exacts sont possibles, ils sont prfrables.Ainsi, supposons avoir trouv 100 avec une prcision de 1 pour la mesure dune grandeur X et nousintresser la grandeur Y = 1/X .La formule de la diffrentielle totale exacte donne , donc une valeur de Y com-prise entre 0,0099 et 0,0101.

    Mais puisque la vraie valeur de X est comprise entre 99 et 101, la vraie valeur de Y est en ralitcomprise entre 1/101 et 1/99, soit entre 0,009901 et 0,010101.

    1. Rappel : calculer la drive partielle dune fonction par rapport lune des variables consiste driver en assimilant les autres variables des constantes.

    fd fX------ XdfY------ Yd

    fZ------ Zd+ +=

    G f fX------ X

    fY------ Y

    fZ------ Z+ += =

    R UI

    --------UI2---- I+ 2= =

    Y XX2------- 10 4= =

  • Introduction

    3 La dcision dans lincertain14/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    Pour prendre une dcision diagnostique ou thrapeutique le mdecin doit avoir des lments luipermettant de prendre en compte cette variabilit naturelle, pour distinguer ce qui est normal de cequi est pathologique (dcision propos dun patient) et pour valuer la qualit dun nouvel examen,ou dune nouvelle thrapeutique (dcision thrapeutique). La comprhension des mthodes statis-tiques, de leur puissance et de leurs limites, est essentielle pour un mdecin de nos jours. Tout r-sultat de recherche mdicale rsulte dune exprimentation (clinique ou biologique) qui sappuiesur une mthodologie statistique rigoureuse, et dont les rsultats sont analyss en termes statis-tiques.De mme la dmarche statistique permet dvaluer les risques (ou les bnfices) dune prescrip-tion, de dterminer dans une situation donne lexamen qui apportera la meilleure information dia-gnostique.Nous voyons donc limportance de la matrise de loutil et de la dmarche statistique :

    Pour permettre les progrs de la connaissance mdicale : cest le domaine de la recherche cli-nique qui ne peut saccomplir convenablement (dfinition de la question, mise en place duprotocole exprimental, analyse des rsultats) quen suivant une mthodologie statistique ri-goureuse.

    Pour mieux connatre ltat de sant dune population, la frquence et la gravit dune pid-mie (penser au SIDA), etc. Cette connaissance se fera partir dchantillons convenablementchoisis et de calculs bass sur les outils de la statistique. Il sera alors possible de rechercherles stratgies de prvention les mieux adaptes, den valuer leur impact. Il sagit l des ap-plications relevant de lpidmiologie et de la sant publique.

    Pour amliorer la pratique mdicale dans ses aspects dcisionnels, savoir choisir le meilleurexamen (clinique ou para-clinique) pour aboutir le plus rapidement et le plus srement au dia-gnostic. Pour optimiser la thrapeutique, choisir le traitement le mieux adapt un patientdonn (choix du mdicament, posologie, etc).

    Lobjectif de ce cours est de vous fournir les bases indispensables permettant de comprendre lesmthodes utilises, dinterprter correctement les rsultats de nouvelles recherches, et dadopter unmode de raisonnement qui soit mme daider la dcision dans lexercice de la mdecine.Plus prcisment nous tudierons successivement :

    1. Les bases de calcul de probabilits, qui sont indispensables la comprhension et lutilisa-tion des mthodes statistiques.

    2. La statistique descriptive qui permet de reprsenter et de quantifier la variabilit dune ou plu-sieurs grandeurs observes.

    3. La statistique inductive qui inclura les tests statistiques permettant de retenir une hypothseA plutt quune hypothse B partir de donnes exprimentales (comme dans le cas de lacomparaison de deux traitements, o lhypothse A est que les deux traitements sont quiva-lents et lhypothse B est quils sont diffrents).

    4. Les applications des mthodes statistiques lpidmiologie, laide la dcision thrapeu-tique et diagnostique, et les applications aux essais thrapeutiques.

  • Statistique(s) et Probabilit(s)

    Chapitre 1 2011 - 2012 Biostatistique - Carrat, Mallet, Morice 15/179

    Statistique(s) et Probabilit(s)Nous commencerons par dfinir les termes et les concepts importants.

    1.1 Statistique

    Le terme statistique dsigne la fois un ensemble de donnes dobservations, et lactivit quiconsiste en leur recueil, leur traitement et leur interprtation. Les termes statistique , oustatistiques (au pluriel) englobent ainsi plusieurs notions distinctes :

    1. Dune part le recensement de grandeurs dintrt comme le nombre dhabitants dun pays, lerevenu moyen par habitant, le nombre de sropositifs dans la population franaise. Nousvoyons que la notion fondamentale qui se dgage de cette numration est celle dePopulation . Une population est un ensemble dobjets, dtres vivants ou dobjets abstraits(ensemble des mains de 5 cartes distribues au bridge...) de mme nature.

    2. La statistique en tant que science sintresse aux proprits des populations naturelles. Plusprcisment elle traite de nombres obtenus en comptant ou en mesurant les proprits dunepopulation. Cette population dobjets doit en outre tre soumise une variabilit, qui est due de trs nombreux facteurs inconnus (pour les populations dobjets biologiques qui nous in-tressent ces facteurs sont les facteurs gntiques et les facteurs environnementaux).

    3. A ces deux acceptions du terme statistiques (au pluriel) il faut ajouter le terme statistique (ausingulier) qui dfinit toute grandeur calcule partir dobservations. Ce peut tre la plusgrande valeur de la srie statistique dintrt, la diffrence entre la plus grande et la plus petite,la valeur de la moyenne arithmtique de ces valeurs, etc.

    1.2 Population et chantillon

    On appelle population P un ensemble gnralement trs grand, voire infini, dindividus ou dobjetsde mme nature. Tous les mdecins de France constituent une population, de mme que lensembledes rsultats possibles du tirage du loto. Une population peut donc tre relle ou fictive.Il est le plus souvent impossible, ou trop coteux, dtudier lensemble des individus constituantune population ; on travaille alors sur une partie de la population que lon appelle chantillon .Pour quun chantillon permette ltude de la variabilit des caractristiques dintrt de la popu-

  • Statistique(s) et Probabilit(s)

    lation, il faut quil soit convenablement slectionn. On parlera dchantillon reprsentatif si lesindividus le constituant ont t tirs au sort1 dans la population. Si par exemple on souhaite dter-miner les caractristiques moyennes du poids et de la taille des prmaturs masculins on tirera16/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    au hasard un certain nombre de sujets parmi les naissances de prmaturs de lanne.Chaque individu, ou unit statistique, appartenant une population est dcrit par un ensemble decaractristiques appeles variables ou caractres . Ces variables peuvent tre quantitatives (num-riques) ou qualitatives (non numriques) :

    quantitativespouvant tre classes en variables continues (taille, poids) ou discrtes (nombre denfantsdans une famille)

    qualitativespouvant tre classes en variables catgorielles (couleurs des yeux) ou ordinales (intensitdune douleur classe en nulle, faible, moyenne, importante).

    1.3 Statistique et probabilit

    La thorie (ou le calcul) des probabilits est une branche des mathmatiques qui permet de mod-liser les phnomnes o le hasard intervient (initialement dveloppe propos des jeux de hasard,puis progressivement tendue lensemble des sciences exprimentales, dont la physique et la bio-logie).Cette thorie permet de construire des modles de ces phnomnes et permet le calcul : cest par-tir dun modle probabiliste dun jeu de hasard comme le jeu de ds que lon peut prdire les fr-quences dapparition dvnements comme le nombre de fois que lon obtient une valeur paire enjetant un d un grand nombre de fois. Les lments de calcul des probabilits indispensables lacomprhension des statistiques seront traits dans la premire partie du cours.Sous jacente la notion de statistiques se trouve la notion de Population dont on souhaite connatreles proprits (plus prcisment les rgularits), permettant en particulier de savoir si deux popu-lations sont identiques ou non. Ce cas est celui du cadre des essais thrapeutiques, o lon considre2 populations (patients traits avec le mdicament A ou avec le mdicament B) dont on souhaitesavoir si elles diffrent ou non (cest le cas le plus simple des essais cliniques). Pour ce faire il estncessaire de modliser les populations, en utilisant des modles probabilistes. Un modle de cetype est par exemple de considrer que la taille des individus suit une distribution gaussienne. Apartir de ce modle on peut calculer les proprits dchantillons ; cest ce quon appelle une d-duction qui va du modle vers lexprience. A linverse, considrant un chantillon dune popula-tion on peut essayer de reconstruire le modle de la population.Cette dmarche est calque sur la dmarche scientifique habituelle. Le scientifique est capable, enutilisant les mathmatiques, de prdire le comportement dun modle donn (cest par exemple une loi de la physique) : cest la dmarche dductive. A linverse, observant des faits exprimen-

    1. Nous reviendrons sur cette mthode permettant dobtenir un chantillon reprsentatif de la population tudie. Cela consiste en gros slectionner les individus sur la base dun tirage analogue celui qui consiste tirer des noms dans une urne qui contiendrait tous les noms possibles.

  • Statistique(s) et Probabilit(s)

    taux il va tenter de dgager des proprits gnrales du phnomne observ quil va en gnral re-prsenter sous forme dun modle (toutes les lois de la physique et de la chimie sont des modlesmathmatiques les plus gnraux possibles des faits exprimentaux) : cest la construction induc-2011 - 2012 Biostatistique - Carrat, Mallet, Morice 17/179

    tive de la thorie. Cette dmarche gnrale va plus loin car le modle permet de prdire des exp-riences non ralises. Si les prdictions ainsi ralises sont contradictoires avec les rsultatsexprimentaux alors on pourra avec certitude rfuter le modle (on dit aussi quon la falsifi) ;dans le cas contraire on garde le modle mais on nest pas certain quil soit vrai . Autrement dit, lissue dun tel test on ne peut avoir de certitude que si on a trouv des lments permettant derfuter le modle. Nous verrons dans la suite que cette approche se transpose exactement dans ladmarche statistique, en particulier dans le domaine des tests.

  • Statistique(s) et Probabilit(s)18/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

  • Rappels mathmatiques

    Chapitre 2 2011 - 2012 Biostatistique - Carrat, Mallet, Morice 19/179

    Rappels mathmatiques

    2.1 Ensembles, lments

    On appelle ensemble , toute liste ou collection dobjets bien dfinis, explicitement ouimplicitement ; on appelle lments ou membres de lensemble les objets appartenant lensembleet on note :

    si p est un lment de lensemble A B est partie de A , ou sous ensemble de A , et lon note ou , si

    On dfinit un ensemble soit en listant ses lments, soit en donnant la dfinition de ses lments :

    A = {1, 2, 3} X = {x : x est un entier positif}

    Notations :

    la ngation de est est lensemble vide E est lensemble universel.

    2.2 Oprations sur les ensembles

    Soient A et B deux ensembles quelconques.

    IntersectionLintersection de A et B , note , est lensemble des lments x tels que et

    . Soit := { x : et }

    Le terme et est employ au sens si x appartient la fois A et B

    p AB A A B x B x A

    x A x A

    A B x Ax BA B x A x B

    x A et B

  • Rappels mathmatiques

    A B20/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    Cas particulier : si , on dit que A et B sont disjoints.Runion

    La runion de A et B , note , est lensemble des lments x tels que ou. Soit := { x : ou }

    Le terme ou est employ au sens si x appartient A , ou B , ou A et B(car signifie et ).

    ComplmentaireLe complmentaire de A est lensemble des lments de E qui nappartiennent pas A .

    DiffrenceLa diffrence entre A et B , ou complmentaire de B relatif A , est lensemble des lmentsde A qui nappartiennent pas B .

    A B

    E

    A B =A B x A

    x BA B x A x B

    x A ou Bx A et B x A x B

    E

    B

    A B

    A

    CA A x : x A{ }= =

    A

    E

    CA

    A B C= AB x : x B et x A{ }=

    E

    A B

    C BA

  • Rappels mathmatiques

    Algbre des ensembles2011 - 2012 Biostatistique - Carrat, Mallet, Morice 21/179

    2.3 Ensembles finis, dnombrables, non dnombrables

    Un ensemble est fini sil est vide () ou sil contient un nombre fini dlments ; sinon, il estinfini :A = {a1, a2, a3} est fini ;I = { } est infini.

    Un ensemble infini est dit dnombrable si on peut faire correspondre de faon unique chaquelment de lensemble un entier naturel et un seul :A = {n : n est un entier pair} est infini dnombrable.

    Un ensemble infini est non dnombrable dans le cas contraire. Dans la pratique, les seuls en-sembles infinis non dnombrables que nous rencontrerons seront des intervalles de :{ } ou des intervalles de 2 : { }.

    2.4 Ensembles produits

    Soient A et B deux ensembles ; lensemble produit de A et de B , not , est lensemble de tousles couples ordonns (a , b), avec et .Exemples :

    ,

    A A A= A A A=A( B ) C A B C( )= A( B ) C A B C( )=

    A B B A= A B B A=A B C( ) A B( ) A C( )= A B C( ) A B( ) A C( )=A A= A E A=A E E= A =A CA E= A CA =CCA A= CE = C E=C A B( ) CA CB= C A B( ) CA CB=

    x 0 1[ , ]

    x a b[ , ] x y,( ) : x a b[ , ] y c d[ , ],

    A Ba A b B

  • Rappels mathmatiques

    A = {a , b , c} ; B = {1, 2}= { (a , 1), (a , 2), (b , 1), (b , 2), (c , 1), (c , 2) }

    est le plan cartsien, chaque lment de tant dfini par son abscisse et sonA B 22/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    ordonne :

    2.5 Familles densembles

    Les lments dun ensemble peuvent eux-mmes tre des ensembles. On dit alors que ces en-sembles font partie de la mme classe ou de la mme famille.

    PartiesSoit un ensemble A quelconque. On appelle famille des parties de A lensemble des sous-ensembles de A .Exemple : A = {1, 2}

    PartitionUne partition dun ensemble A est une subdivision de A en sous-ensembles disjoints dontla runion forme A .

    NotationSoit une famille densembles {Ai} = {A1, A2, ...., An , ....} qui peut tre finie ou non. Onnote :

    2.6 Autres rappels mathmatiques

    2.6.1 Rappel sur les sommes

    Soit {ai} une suite de termes ai . On note .Proprits :

    (a,b)b

    a

    P A( ) 1{ } 2{ } 1 2{ , }, ,{ , }=

    Aii

    A1 A2 ... An ... =Ai

    i A1 A2 ... An ... =

    aii 1=

    n

    a1 a2 ... an+ + +=

  • Rappels mathmatiques

    1.

    2.

    ai bi+( )i

    aii

    bii

    +=kai( ) k ai=2011 - 2012 Biostatistique - Carrat, Mallet, Morice 23/179

    Si k est une constante (indpendante de i), elle peut tre sortie de la somme.

    2.6.2 Rappel sur les intgrales

    DfinitionSoit f une fonction relle. Lintgrale dfinie de cette fonction sur lintervalle [a ,b] estlaire sous la courbe de f sur lintervalle [a ,b].Elle est note .

    Proprits1.

    2.

    3.

    Fonction primitiveSoit f une fonction relle. Laire sous la courbe sur lintervalle varie lorsquon faitvarier x de - +. Cette aire est une fonction F de x , appele fonction primitive de f . Elleest dfinie par :

    Noter lutilisation de la variable dintgration . On peut utiliser nimporte quel nom de va-riable (il sagit dune variable muette), diffrent de la borne dintgration x .

    Proprits1. Si , alors

    Donc F se dduit de f par intgration, et f se dduit de F par drivation.2.

    i i

    f x( ) xdab

    f x( ) xdab

    x

    f x( )

    a b

    f x( ) g x( )+( ) xdab f x( ) xdab g x( ) xdab+=

    kf x( ) xdab k f x( ) xdab=

    f x( ) xdab f x( ) xdac f x( ) xdcb+=

    ]- x],

    F x( ) f ( ) dx=

    F x( ) f ( ) dx= f x( ) dF x( )dx--------------=

    f x( ) xdab F b( ) F a( )=

  • Rappels mathmatiques24/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

  • Elments de calcul des Probabilits

    Chapitre 3 2011 - 2012 Biostatistique - Carrat, Mallet, Morice 25/179

    Elments de calcul des Probabilits

    3.1 Introduction

    Le calcul des probabilits est la thorie mathmatique, donc fonde axiomatiquement, qui permetde modliser des phnomnes alatoires, ou non dterministes.De tels phnomnes sont bien reprsents par les jeux de hasard dont ltude a initi le calcul desprobabilits. Considrons le cas du jeu de ds ; lorsquon jette un d on est certain quil va tombersur la table (phnomne dterministe), mais on nest pas capable de prdire la valeur qui va sortir(phnomne alatoire).Un phnomne dterministe est un phnomne dont on peut prvoir le rsultat ; les lois de la phy-sique classique sont des modles permettant de prdire le rsultat dune exprience donne. La loidOhm permet de prdire la valeur de lintensit du courant connaissant la rsistance et la tensionaux bornes. Les lois de la physique mettent en vidence une rgularit qui permet de prdire lesrsultats dune exprience lorsquon contrle les causes.Les phnomnes alatoires exhibent un autre type de rgularit. Prenons le cas des lois de Mendel.Mendel tait un biologiste qui tudiait les rsultats du croisement de deux espces de plantes ; plusprcisment, il tudiait la transmission de caractres comme la couleur, laspect, etc. Une observa-tion typique de rgularit dun nouveau type est dobserver que, sur une srie suffisamment grandede croisements de deux espces A et B, on observait par exemple, dans 1/4 des cas, les caractresde A, et dans 3/4 des cas, les caractres de B. Une telle rgularit frquentielle a donn lieu cequon appelle les lois de Mendel. Cette rgularit permet de prdire la frquence dapparition dunphnomne, ce qui est plus faible que la prdiction dterministe. Ltude et la modlisation detels phnomnes (la recherche de lois) est le champ dapplication du calcul des probabilits.

  • Elments de calcul des Probabilits

    3.2 Exprience alatoire, ensemble 26/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    fondamental et vnements

    Exprience alatoireOn sintresse ici aux seules expriences dont le rsultat nest pas prvisible, les exp-riences alatoires. Une exprience alatoire est aussi appele une preuve .

    Ensemble fondamentalPour une exprience alatoire donne, lensemble des rsultats possibles est appel len-semble fondamental, que nous noterons E dans la suite du cours. Chaque rsultat dexp-rience est un point de E ou un lment de E .

    EvnementUn vnement A est un sous ensemble de E , cest--dire un ensemble de rsultats.Lvnement {a}, constitu par un seul point de E , donc par un seul rsultat , est ap-pel vnement lmentaire.Lensemble vide ne contient aucun des rsultats possibles : il est appel vnement im-possible.Lensemble E contient tous les rsultats possibles : cest lvnement certain.Si E est fini, ou infini dnombrable, tout sous-ensemble de E est un vnement ; ce nestpas vrai si E est non dnombrable (ceci sort du cadre de ce cours).On note parfois lensemble de tous les vnements.

    Exemples1. On jette un d et on observe le rsultat obtenu. Lensemble fondamental est form par

    les 6 rsultats possibles :E = {1, 2, 3, 4, 5, 6}Lvnement correspondant lapparition dun nombre pair est A = {2, 4, 6}, qui estbien un sous ensemble de E .Lvnement correspondant lapparition dun nombre premier est B = {1, 2, 3, 5},et lvnement correspondant lapparition dun 3 est C = {3}.

    2. Dans lexemple prcdent E tait fini et donc dnombrable ; E peut tre infini dnom-brable comme dans le cas suivant. On jette une pice de monnaie jusqu ce quon ob-tienne pile ; lensemble fondamental correspondant est la suite des nombres entiersE = {1, 2, 3, ..., n , ...} puisquon peut avoir un pile au bout dun jet, de 2 jets, de n jets,n tant aussi grand que lon veut.

    3. On vise avec une flchette une cible suffisamment grande ; si on admet que la flchetteest trs fine, comme le serait un point de la gomtrie, lespace fondamental est la sur-face de la cible qui est constitue de points et donc infinie et non dnombrable.

    a E

  • Elments de calcul des Probabilits

    3.3 Oprations sur les vnements2011 - 2012 Biostatistique - Carrat, Mallet, Morice 27/179

    Les vnements peuvent se combiner entre eux pour former de nouveaux vnements. Si A et Bsont deux vnements, les oprations de combinaison sont :

    1. est lvnement qui se produit si A ou B (ou les deux) est ralis.Il est parfois not ou A ou B .

    2. est lvnement qui se produit si A et B sont raliss tous les deux.Il est parfois not ou A et B .

    3. est lvnement qui se produit quand A nest pas ralis. On lappelle aussi ngation deA .Il est parfois not , ou .

    Evnements incompatiblesQuand deux vnements A et B sont tels que , ils ne peuvent tre raliss si-multanment. On dit quils sexcluent mutuellement, ou quils sont incompatibles.

    Systme complet dvnementsOn dit que les vnements A1, A2, ..., An forment une famille complte si les Ai constituentune partition de E , cest--dire si :

    1. les vnements sont deux deux disjoints : 2. ils couvrent tout lespace :

    ExempleReprenons lexemple prcdent du jeu de ds :E = {1, 2, 3, 4, 5, 6}, A = {2, 4, 6}, B = {1, 2, 3, 5}, C = {3}.

    = apparition dun nombre pair ou premier= apparition dun nombre pair et premier

    = apparition dun nombre autre que 3: A et C sexcluent mutuellement.

    3.4 Rgles du calcul des probabilits

    Soit un ensemble fondamental E . Nous introduisons une fonction Pr qui, tout vnement A , as-socie un nombre rel positif ou nul.Pr est dite fonction de probabilit, et Pr(A) est appele probabilit de lvnement A , si les condi-tions ou rgles suivantes sont satisfaits :

    1. pour tout vnement A : une probabilit est positive ou nulle2. : la probabilit de lvnement certain est 13. : permet le calcul de la probabilit de la

    runion de deux vnements disjoints4. Soit un ensemble dnombrable (fini ou non) dvnements Ai deux deux disjoints

    A BA B+

    A BA B

    CAnon A A

    A B =

    i j( ) Ai Aj =( ),Ai

    i E=

    A B 1 2 3 4 5 6, , , , ,{ }=A B 2{ }=CC 1 2 4 5 6, , , ,{ }=A C =

    Pr A( ) 0Pr E( ) 1=A B =( ) Pr A B( ) Pr A( ) Pr B( )+=( )

  • Elments de calcul des Probabilits

    ( ), alors .

    Cette quatrime condition est proche de la troisime. Elle ne peut cependant pas sen dduire

    Ai Aj = Pr A1 A2 ... ( ) Pr A1( ) Pr A2( ) ...+ +=28/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    dans le cas dun ensemble dvnements infini dnombrable.

    Proprits importantes dduites des quatre conditions prcdentes :

    1.Soit A un vnement quelconque. A et sont videmment disjoints puisque ;donc . Or ; donc . Do

    .2.

    A et son complmentaire sont disjoints, et leur runion forme E , de probabilit 1. Donc. Toute probabilit tant positive ou

    nulle, on obtient bien .3.

    A dmontrer en exercice, en notant que .4. Si , alors .

    A dmontrer en exercice, en notant que .

    5.A dmontrer en exercice, en remarquant que .

    6.A dmontrer en exercice, en remarquant que .

    Pr ( ) 0=A =

    Pr A ( ) Pr A( ) Pr ( )+= A A= Pr A ( ) Pr A( )=Pr ( ) 0=Pr A( ) 1

    CAPr E( ) 1 Pr A CA( ) Pr A( ) Pr CA( )+= = =

    Pr A( ) 1Pr CA( ) 1 Pr A( )=

    E A CA=A B Pr A( ) Pr B( )

    B A CBA=CBA

    BA

    Pr CAB( ) Pr A( ) Pr A B( )=A CAB A B( )=

    CABB

    A

    A B

    Pr A B( ) Pr A( ) Pr B( ) Pr A B( )+=A B( ) CAB B=

    CABB

    A

  • Elments de calcul des Probabilits

    3.5 Remarque2011 - 2012 Biostatistique - Carrat, Mallet, Morice 29/179

    Alors que , il existe des vnements non vides qui peuvent avoir une probabilit nulle.Dans le cas dun ensemble infini non dnombrable, un tel vnement nest pas ncessairementimpossible : il est alors dit presque impossible .

    ExempleConsidrons lexprience qui consiste choisir au hasard un point sur une feuille de papierquadrill avec une pointe de compas infiniment fine. La probabilit de lvnement piquerdans un carr donn a une certaine valeur (par exemple celle du rapport de la surface ducarr avec celle de la feuille de papier) ; en revanche, si on rduit le carr un point (carrinfiniment petit) la probabilit deviendra zro alors que lvnement (piquer dans ce carrsi petit quil est devenu un point) nest pas impossible.

    De mme un vnement de probabilit 1 peut ne pas tre certain. Il est alors qualifi de presquecertain .

    3.6 Illustration de quelques ensembles probabiliss

    3.6.1 Ensemble probabilis fini

    Soit E = {a1, a2, ..., an} un ensemble fondamental fini. On probabilise cet ensemble en attribuant chaque point ai un nombre pi , probabilit de lvnement lmentaire {ai}, tel que :

    1.2.

    La probabilit dun vnement quelconque A est la somme des probabilits des ai quil contient :

    ExempleOn jette 3 pices de monnaie et on compte le nombre de face obtenu. Lensemble fon-damental correspondant cette exprience est E = {0, 1, 2, 3} puisquon peut obtenircomme rsultat de lexprience : 0 fois face (3 fois pile ), 1 fois face (2 fois pile ), 2 fois face , ou 3 fois face .On probabilise cet ensemble fini en donnant une valeur p0, p1, p2 et p3 aux vnements{0}, {1}, {2} et {3} ; comme par exemple p0 = 1/8, p1 = 3/8, p2 = 3/8 et p3 = 1/8.Considrons lvnement A tel quon ait au moins 2 fois face , A = {a2, a3} :Pr(A) = p2 + p3 = 3/8 + 1/8 = 4/8 = 1/2

    Pr ( ) 0=

    pi 0p1 p2 ... pn+ + + 1=

    Pr A( ) piai A=

  • Elments de calcul des Probabilits

    3.6.2 Ensemble fini quiprobable30/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    Cest un ensemble fini probabilis tel que tous les vnements lmentaires ont la mme probabi-lit. On dit aussi quil sagit dun espace probabilis uniforme.E = {a1, a2, ..., an} et Pr({a1}) = p1, Pr({a2}) = p2, ..., Pr({an}) = pnavec p1 = p2 = ... = pn = 1/nLes jeux de hasard - ds, cartes, loto, etc. - entrent prcisment dans cette catgorie :

    jeu de ds : E = {1, 2, 3, 4, 5, 6} ; p1 = p2 = p3 = p4 = p5 = p6 = 1/6 jeu de cartes : E = {ensemble des cartes dun jeu de 52 cartes} ; pi = 1/52

    PropritDans un ensemble fini quiprobable, la probabilit dun vnement A est gale au rapportdu nombre de rsultats tel que A est vrai, sur le nombre dvnements de E .

    RemarqueQuand on dit quon tire au hasard , on sous-entend que lensemble probabilis considrest quiprobable.

    ExempleOn tire au hasard une carte dans un jeu de 52 cartes.Quelle est la probabilit de tirer un trfle ?

    Quelle est la probabilit de tirer un roi ?

    Quelle est la probabilit de tirer un roi de trfle ?

    RemarqueLe cas des ensembles finis quiprobables est le plus simple apprhender. Il faut insistersur le fait que lquiprobabilit nest quun cas particulier des ensembles probabiliss ; cenest (de loin) pas le plus utile en mdecine.

    3.6.3 Ensembles probabiliss infinis

    3.6.3.1 Cas dnombrable

    On a alors un ensemble fondamental de la forme E = {a1, a2, ..., an , ...} comme dans le cas fini.Cet ensemble fondamental est probabilis en affectant chaque lment ai une valeur relle pitelle que :

    Pr tirer un trfle( ) nombre de trflesnombre de cartes------------------------------------------ 13

    52------ 1

    4---= = =

    Pr tirer un roi( ) nombre de roisnombre de cartes----------------------------------------- 4

    52------ 1

    13------= = =

    Pr tirer un roi de trfle( ) 152------=

  • Elments de calcul des Probabilits

    et .pi 0 pii 1=

    1=2011 - 2012 Biostatistique - Carrat, Mallet, Morice 31/179

    La probabilit dun vnement quelconque est alors la somme des pi correspondant ses l-ments.

    Exemple 1A = {a25, a31, a43}Pr(A) = p25 + p31 + p43

    Exemple 2Si on reprend lexprience consistant jeter une pice et compter le nombre de jets jus-qu ce quon obtienne un rsultat pile (cest un espace infini dnombrable), on peutconstruire un espace probabilis en choisissant :

    Remarque :Le choix des pi est arbitraire ; en ralit, il est justifi soit par des considrations a priori(dans le cas de lexprience prcdente on suppose que chaque jet constitue une exp-rience avec Pr(pile) = Pr(face) = 1/2 et que le rsultat dun jet ninflue pas sur le suivant).Il peut tre aussi estim ; cest le problme des statistiques qui, partir de nombreuses ra-lisations de lexprience, permet dapprocher les valeurs pi (ce point sera revu dans la suitedu cours et constitue lobjet de lapproche statistique).

    3.6.3.2 Cas dun ensemble probabilis infini non dnombrable

    Pour illustrer ce cas, on peut prendre lexemple de la chute dun satellite en fin de vie (ce fut le cas,en octobre 1993 pour un gros satellite chinois dont on parla beaucoup dans la presse). Dans ltatactuel des connaissances sur lorbite de ce satellite, on nest pas capable de prdire lendroit de lachute ; lhypothse retenue est alors celle dun espace de probabilit uniforme. Dans ce cas, le sa-tellite a la mme chance de tomber dans nimporte quelle parcelle du monde et on peut calculer laprobabilit quil tombe sur Paris comme le rapport de la surface de Paris sur la surface du globe.Lorsquon se rapprochera de lchance, on pourra avoir des hypothses plus prcises, et on pourraprdire par exemple que le point de chute aura un maximum de probabilit dans une rgion, la pro-babilit autour de cette rgion tant dautant plus petite quon sloigne de ce maximum.Il sagit bien sr dun espace infini non dnombrable puisquon peut rduire (au moins par lesprit)la taille de llment de la rgion considre celle dun point. Des probabilits peuvent donc treassocies chaque rgion de taille non nulle, mais la probabilit dune chute en un point donn estnulle, puisque sa surface est nulle. Nous verrons dans la suite que les probabilits se calculent g-nralement partir dune densit (de probabilit) associe chaque point : lorsque les points dunergion ont une densit leve, la probabilit de chute dans cette rgion est leve.

    p112---= p2

    14---= ... pn

    12n-----= ... p 0=, , , , ,

  • Elments de calcul des Probabilits32/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

  • Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    Chapitre 4 2011 - 2012 Biostatistique - Carrat, Mallet, Morice 33/179

    Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    4.1 Probabilit conditionnelle

    Soient A et B deux vnements quelconques dun ensemble fondamental E muni dune loi de pro-babilit Pr . On sintresse ce que devient la probabilit de A lorsquon apprend que B est djralis, cest--dire lorsquon restreint lensemble des rsultats possibles E B .La probabilit conditionnelle de A , sachant que lvnement B est ralis, est note Pr(A / B) et estdfinie par la relation suivante :

    Equation 1 : probabilit conditionnelle

    Dans cette quation, les probabilits des vnements et B doivent tre calcules sur toutlensemble fondamental E , comme si on ne savait pas que B sest dj ralis. Sinon, on obtientvidemment Pr(B) = 1.

    Figure 1 : probabilit conditionnelle

    Cette relation gnrale pour tout espace probabilis sinterprte facilement dans le cas o E est un

    Pr A B( ) Pr A B( )Pr B( )--------------------------=

    A B

    A B

    A B

  • Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    espace quiprobable (mais cette relation est vraie pour un espace non-quiprobable !). En notant le nombre dlments de A :A34/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    Pr(A/ B) traduit le rapport de la surface de sur la surface de B dans la figure 1.Toujours dans le cas o E est quiprobable, on a

    Cette interprtation de la probabilit conditionnelle, facile apprhender dans le cas dquiproba-bilit, est la dfinition gnrale de la probabilit conditionnelle quon doit utiliser telle quelle, sanschercher une interprtation frquentiste dans tous les cas.

    ExempleOn jette une paire de ds bien quilibrs (espace quiprobable). On observe une ralisationde lvnement {somme des ds = 6}. Quelle est la probabilit pour quun des deux ds aitdonn le rsultat 2 ?B = {somme des deux ds = 6}A = {au moins un des deux ds donne 2}B = {(2, 4), (4, 2), (1, 5), (5, 1), (3, 3)}Nombre de ralisations de = {(2, 4), (4, 2)} = 2

    Do , alors que ( vrifier).

    4.2 Thorme de la multiplication

    Reprenons lquation 1, dfinition des probabilits conditionnelles :

    On en tire immdiatement

    Equation 2 : thorme de la multiplication

    Lquation 2 peut se gnraliser facilement. Soient A1, ..., An des vnements quelconques dunespace probabilis ; partir de lquation 2, on montre :

    ExempleUne bote contient 10 articles dont 4 sont dfectueux. On tire 3 objets de cette bote. Cal-culer la probabilit pour que ces 3 objets soient dfectueux.Pr(1er dfectueux) = 4/10Pr(2me dfectueux / 1er dfectueux) = 3/9

    Pr A B( ) A BE----------------- Pr B( )BE------ Pr A B( ) A B

    B-----------------=,=,=

    A B

    Pr A B( ) nombre de ralisations possibles de A et B en mme tempsnombre de ralisations de B

    ---------------------------------------------------------------------------------------------------------------------------------------------=

    A BPr A B( ) A B

    B----------------- 2

    5---= = Pr A( ) 11

    36------=

    Pr A B( ) Pr A B( )Pr B( )--------------------------=

    Pr A B( ) Pr A B( )Pr B( ) Pr B A( )Pr A( )= =

    Pr A1 A2 ... An ( ) Pr A1( )Pr A2 A1( )Pr A3 A1 A2( )( )...Pr An A1 A2... An 1( )( )=

  • Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    Pr(3me dfectueux / 1er et 2me dfectueux) = 2/8Pr(1er et 2me et 3me dfectueux) = 4/103/92/8 = 1/30.2011 - 2012 Biostatistique - Carrat, Mallet, Morice 35/179

    4.3 Diagramme en arbre

    On considre une squence finie dexpriences dont chacune dentre elles a un nombre fini de r-sultats possibles. Les probabilits associes aux rsultats possibles dune exprience dpendent dursultat de lexprience prcdente ; il sagit de probabilits conditionnelles. Pour reprsenter cettesquence, on utilise une reprsentation en arbre , le thorme prcdent permettant de calculerla probabilit de chaque feuille de larbre.

    ExempleOn sait que les taux de russite au concours dans les trois CHU Piti, Saint Antoine etBroussais (luniversit Pierre et Marie Curie a longtemps comport ces 3 CHU) taient res-pectivement (donnes arbitraires) de 0,20 ; 0,15 ; et 0,10 (0,20 = Pr(Russite/Piti)) ; onsait que 1/4 des tudiants de Paris VI taient Saint Antoine, 1/4 Broussais et 1/2 laPiti. Quelle tait la probabilit quun tudiant de Paris VI soit reu au concours ?

    R signifie russite et E chec.

    Pr(R) = 0,151/4 + 0,201/2 + 0,101/4 = 0,1625La probabilit quun chemin particulier de larbre se ralise est, daprs le thorme de lamultiplication, le produit des probabilits de chaque branche du chemin.Les chemins sexcluant mutuellement, la probabilit dtre reu est gale la somme desprobabilits dtre reu pour tout chemin aboutissant un tat R (reu).

    Saint Antoine

    Piti

    Broussais

    1/4

    1/2

    1/4

    0,15

    0,85

    0,20

    0,80

    0,10

    0,90

    R

    E

    R

    E

    R

    E

    Pr R Saint Antoine( ) 0 15, 14---=

    Pr R Piti( ) 0 20, 12---=

    Pr R Broussais( ) 0 10, 14---=

    Pr R( ) Pr R Saint Antoine( ) Pr R Piti( ) Pr R Broussais( )+ +=

  • Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    4.4 Thorme de Bayes36/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    En reprenant lquation 2 page 34 (section 4.2), on obtient la formule de Bayes :

    Equation 3 : formule de Bayes

    Le thorme est une forme dveloppe de cette formule que nous introduisons maintenant.Considrons des vnements A1, ..., An tels quils forment une partition de lensemble fondamen-tal E .Par dfinition, les Ai sexcluent mutuellement et leur union est E :

    Soit B un vnement quelconque

    De et de , on tire .Soit, par distributivit, .En remarquant que les sont exclusifs, puisque les Ai le sont, et en appliquant la 3me rgledu calcul des probabilits on obtient la formule dite des probabilits totales :

    Equation 4 : probabilits totales

    En appliquant le thorme de la multiplication :

    Or, par la forme simple du thorme de Bayes, on a Do le thorme de Bayes :

    Equation 5 : thorme de Bayes

    Pr B A( ) Pr A B( )Pr B( )Pr A( )--------------------------------------=

    i j( ) Ai Aj =( ) ; Aii 1=

    n

    E=,

    A1

    A2

    A3

    B

    E A1 A2 ... An = B E B= B B A1 A2 ... An ( )=B B A 1( ) B A 2( ) ... B A n( ) =B Ai

    Pr B( ) Pr B A1( ) Pr B A2( ) ... Pr B An( )+ + +=

    Pr B( ) Pr B A 1( )Pr A1( ) Pr B A 2( )Pr A2( ) ... Pr B A n( )Pr An( )+ + +=Pr Ai B( )

    Pr B A i( )Pr Ai( )Pr B( )-----------------------------------------=

    Pr Ai B( )Pr B A i( )Pr Ai( )

    Pr B A 1( )Pr A1( ) Pr B A 2( )Pr A2( ) ... Pr B A n( )Pr An( )+ + +----------------------------------------------------------------------------------------------------------------------------------------------------------=

  • Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    Exemple 1Reprenons lexemple des rsultats au concours des tudiants de Paris VI.Comme prcdemment, soit R lvnement un tudiant de Paris VI est reu . On a, en2011 - 2012 Biostatistique - Carrat, Mallet, Morice 37/179

    notant C1, C2, C3 les 3 anciens CHU Saint Antoine, Piti et Broussais respectivement :Pr(R) = Pr(R/C1)Pr(C1) + Pr(R/C2)Pr(C2) + Pr(R/C3)Pr(C3)[noter que cest la mme chose que la somme des probabilits des chemins de larbre, quiconduisent un succs]Le thorme de Bayes permet de rpondre la question duale. Au lieu de chercher la pro-babilit dobtenir un tudiant reu sachant quil venait dun CHU donn, on cherche la pro-babilit quun tudiant ait t inscrit un CHU donn sachant quil a t reu (probabilitdes causes).Calculons la probabilit quun tudiant reu soit issu du CHU Piti-Salptrire.

    Avec Pr(C1) = 0,25 ; Pr(C2) = 0,50 ; Pr(C3) = 0,25 ;et Pr(R/C1) = 0,15 ; Pr(R/C2) = 0,20 ; Pr(R/C3) = 0,10.

    Do

    Ce qui signifie que, dans ce cas, la probabilit quun tudiant appartienne C2, sil est re-u, est plus grande que si lon ne sait rien (probabilit a priori Pr(C2) = 0,50).Cette faon de calculer les probabilits des causes connaissant les effets est essentielle enmdecine. En effet, le problme du diagnostic peut tre pos en ces termes.

    Exemple 2Considrons, pour illustrer notre propos, le problme du diagnostic dune douleur aigu delabdomen. Il sagit dun patient arrivant aux urgences pour un mal au ventre .Si lon ne sait rien dautre sur le patient (on na pas fait dexamen clinique ou complmen-taire), on ne connat que les probabilits davoir tel ou tel diagnostic si on observe une dou-leur.Soient D1, D2 et D3 les 3 diagnostics principaux (il y en a en fait au moins une douzaine)et exclusifs ; par exemple D1 = appendicite, D2 = perforation dulcre, D3 = autres dia-gnostics.Soit un signe s1 pour lequel on connat Pr(s1/D1), Pr(s1/D2), et Pr(s1/D3).Par exemple, s1 serait prsence dune fivre 38,5C ; Pr(s1/D1) = 0,90 ; Pr(s1/D2) = 0,30 ; et Pr(s1/D3) = 0,10.Ces probabilits peuvent tre estimes sur une population de patients en dnombrant lenombre de sujets ayant le diagnostic D1 et prsentant le signe s1. De mme, on peutconnatre Pr(D1), Pr(D2) et Pr(D3).Le problme diagnostique se pose comme celui de choisir par exemple le diagnostic le plusprobable connaissant le signe s1 ; pour ce faire, on calcule Pr(D1/s1), Pr(D2/s1), Pr(D3/s1) et on retient le diagnostic qui a la plus grande probabilit : cest lapplication de lap-proche bayesienne au problme de laide au diagnostic.

    Pr C2 R( )Pr R C2( )Pr C2( )

    Pr R C1( )Pr C1( ) Pr R C2( )Pr C2( ) Pr R C3( )Pr C3( )+ +--------------------------------------------------------------------------------------------------------------------------------------------------=

    Pr C2 R( ) 0 20, 0 50,0 15, 0 25, 0 20, 0 50, 0 10, 0 25,+ +------------------------------------------------------------------------------------------------------- 0 61,= =

  • Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    4.5 Indpendance entre vnements38/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    On dit que deux vnements A et B sont indpendants si la probabilit pour que A soit ralis nestpas modifie par le fait que B se soit produit. On traduit cela par Pr(A / B) = Pr(A).

    Daprs la dfinition dune probabilit conditionnelle, , on tire ladfinition :

    A et B sont indpendants si et seulement si .La symtrie de cette dfinition implique quon a aussi bien Pr(A / B) = Pr(A) (A est indpendantde B) que Pr(B / A) = Pr(B) (B est indpendant de A) : lapparition dun des deux vnementsninflue pas sur lapparition de lautre.

    NoteCe qui est dfini prcdemment est lindpendance de deux vnements. Si on considremaintenant 3 vnements A , B , C , on dira que ces 3 vnements sont indpendants :

    1. sils sont indpendants 2 2 : A indpendant de B ; A indpendant de C ; et B ind-pendant de C

    2. et si . Cette condition nest pas une cons-quence des prcdentes.

    4.6 Indpendance, inclusion et exclusion de deux vnements

    Considrons deux vnements A et B .

    1. Si (A est inclus dans B) : si A est ralis, alors B aussi.

    Alors .

    Do et .

    A et B ne sont pas indpendants.

    Pr A B( ) Pr A B( )Pr B( )--------------------------=

    Pr A B( ) Pr A( )Pr B( )=

    Pr A B C ( ) Pr A( )Pr B( )Pr C( )=

    A B

    B

    A

    Pr A B( ) Pr A( )=Pr B A( ) Pr A B( )

    Pr A( )-------------------------- 1= = Pr A B( )Pr A B( )

    Pr B( )--------------------------Pr A( )Pr B( )---------------= =

  • Probabilit Conditionnelle ; Indpendance et Thorme de Bayes

    2. Si (A et B sont exclusifs) : si A est ralis, B ne peut pas ltre.A B =2011 - 2012 Biostatistique - Carrat, Mallet, Morice 39/179

    Alors .

    Do .

    De mme A et B ne sont pas indpendants.

    B

    A

    Pr A B( ) Pr ( ) 0= =Pr A B( ) Pr A B( )

    Pr B( )--------------------------0

    Pr B( )--------------- 0= = =

  • Probabilit Conditionnelle ; Indpendance et Thorme de Bayes40/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

  • Evaluation de lintrt diagnostique des informations mdicales

    Chapitre 5 2011 - 2012 Biostatistique - Carrat, Mallet, Morice 41/179

    Evaluation de lintrt diagnostique des informations mdicales

    5.1 Introduction

    La tche essentielle des mdecins est de traiter les patients. Pour prescrire un traitement, il faut sa-voir, plus ou moins prcisment selon les cas, ce dont souffre le malade. Pour rsumer en un seulterme un processus physiopathologique complexe, les mdecins ont cr des concepts : les dia-gnostics.La recherche du diagnostic est donc la premire tape de la consultation clinique. Pour parvenirau diagnostic, le mdecin accumule des informations, dont certaines lui sont spontanment livrespar le patient (le motif de la consultation, les symptmes), dautres doivent tre recherches maissont disponibles immdiatement (les signes physiques), dautres enfin sont dobtention plus oumoins difficile et coteuse (les rsultats dexamens complmentaires). De nouvelles procduresdiagnostiques apparaissent frquemment : on a vu, par exemple, lapparition des chographies, dela tomodensitomtrie (scanner), de lIRM, pour ne citer que le domaine de limagerie. Il nest biensr pas question deffectuer tous les examens complmentaires sur tous les malades : il faut doncprciser les indications de ces examens, ce qui repose sur lvaluation de leur intrt diagnostique.Avant daborder la mthodologie de lvaluation, nous reviendrons sur certains concepts utilissdans ce paragraphe.

    5.1.1 Le diagnostic

    On peut dfinir un diagnostic comme un concept rsumant ltat dun individu. Le terme de diagnostic est donc beaucoup moins prcis quon pourrait le penser premire vue : on peut engnral fournir plusieurs diagnostics pour un mme tat physiopathologique, les termes diagnos-tiques utiliss dpendant de laspect privilgi. Parmi ces aspects, on peut citer :

    la symptomatologie

  • Evaluation de lintrt diagnostique des informations mdicales

    la physiopathologie et ltiologie la conduite thrapeutique42/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    En pratique, la prcision du diagnostic dpendra souvent des possibilits thrapeutiques : parexemple, on ne recherchera pas, en gnral, le virus responsable dun syndrome grippal, surtout sion sattend ce que la maladie gurisse spontanment.Dun point de vue statistique, le diagnostic sera souvent considr comme une variable alatoirebinaire : le patient souffre ou ne souffre pas de laffection considre, ou, exprim autrement, lediagnostic est vrai ou faux chez ce patient. Les valeurs possibles de la variable seront notes M et

    (maladie prsente ou absente), ou D et (diagnostic vrai ou faux).

    5.1.2 Les informations mdicales

    On divise lensemble des informations mdicales en signes cliniques et signes complmentaires.Les signes cliniques sont diviss en signes fonctionnels ou symptmes, dcrits par le malade (spon-tanment ou par linterrogatoire) et signes physiques, recherchs par le mdecin. Les signes com-plmentaires peuvent tre biologiques ou radiologiques. Leur intrt peut tre :

    diagnostique (caractre malin ou bnin dune tumeur) thrapeutique (localisation prcise dune tumeur) pronostique (extension ganglionnaire)

    Dun point de vue statistique, ces signes peuvent tre reprsents par des variables binaires (pr-sence ou absence dun nodule sur une image) ou continues (cholestrolmie).Nous considrons ici le seul cas dun signe binaire, prsent (not S) ou absent (not ). Dans lasuite, on considre que la prsence du signe est vocateur de la maladie M .Si linformation est de type continu, on se ramne au cas binaire par lintroduction dun seuil : dunct du seuil, les valeurs sont dites normales, et le signe binaire est absent ; de lautre ct du seuil,les valeurs sont dites pathologiques, et le signe binaire est prsent.

    5.1.3 Situation exprimentale et estimation

    Quand on cherche valuer lintrt diagnostique dun signe pour une affection, on recherche lesigne chez des individus prsentant ou non laffection considre. Deux situations exprimentalessont envisager :

    un chantillon reprsentatif dune population est constitu. On pourra estimer, partir de cetchantillon, toutes les probabilits dvnements par les frquences observes correspon-dantes (cette manire de faire sera revue plus tard, page 78) ;

    deux chantillons sont constitus, lun reprsentatif des individus pour lesquels le diagnosticest vrai, lautre reprsentatif des individus pour lesquels il est faux. Cette manire de procderest souvent la seule possible en pratique, surtout quand la maladie considre est rare. Il fautremarquer, cependant, quon ne peut plus estimer nimporte quelle probabilit par la fr-

    M D

    S

  • Evaluation de lintrt diagnostique des informations mdicales

    quence observe correspondante ; ce point sera dvelopp plus loin dans ce chapitre.

    Remarque : nous utilisons actuellement le mot estimation dans le sens dapproximation de la2011 - 2012 Biostatistique - Carrat, Mallet, Morice 43/179

    vraie valeur. Nous donnerons des dfinitions plus rigoureuses dans le chapitre 10 page 99.

    5.2 Les paramtres de lvaluation

    5.2.1 Sensibilit et spcificit

    La sensibilit dun signe pour une maladie est la probabilit que le signe soit prsent si le sujet estatteint de la maladie considre.Il sagit donc de la probabilit conditionnelle quon peut noter :

    Sensibilit = Se =Pr(S / M)

    Un test diagnostic est donc dautant plus sensible que les sujets atteints de la maladie prsententplus souvent le signe S.

    La spcificit dun signe pour une maladie est la probabilit que le signe soit absent si le sujet nestpas atteint de la maladie.De manire similaire, on a :

    Un test diagnostic est donc dautant plus spcifique que les sujets indemnes de la maladie pr-sentent moins souvent le signe S.

    Pour un examen parfait , cest--dire neffectuant aucune erreur, les valeurs de la sensibilit etde la spcificit sont gales 1.Si la prsence du signe est dfinie par un seuil de positivit , on observe que ces deux paramtresvarient en sens inverse lorsquon fait varier ce seuil. Ceci explique quun seul de ces deux para-mtres ne suffise pas valuer un examen. Supposons par exemple quon sintresse au signe tem-prature vis vis de la grippe. On considre que le signe est prsent si la temprature dpasse uncertain seuil, par exemple 39C. Si on augmente le seuil pour le porter 40C, la probabilit dedpasser le seuil (chez les sujets gripps) va diminuer, donc la sensibilit diminue. En revanche, laprobabilit dtre en dessous du seuil (chez les sujets non gripps) va augmenter, donc la spcificitaugmente.Un test diagnostique de bonne sensibilit conduit un rsultat positif chez presque tous les ma-lades. Il est donc utilisable pour un dpistage. Si le test possde une bonne spcificit, il conduit un rsultat ngatif chez presque tous les non-malades. Il pourrait donc tre utilis en tant quexa-men de confirmation du diagnostic.Ces considrations sont bien sr schmatiques, dautres lments intervenant dans lvaluation,

    Spcificit Sp Pr S M( )= =

  • Evaluation de lintrt diagnostique des informations mdicales

    comme la frquence de la maladie (prvalence), les risques lis la maladie, lexamen, lexis-tence et les performances dautres examens concurrents...44/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    5.2.2 Valeurs prdictives

    En pratique, quand un mdecin reoit le rsultat dun examen complmentaire, positif ou ngatif,il ne sait pas si le patient souffre de laffection quil cherche diagnostiquer ou non, et les proba-bilits qui lintressent sexpriment de la manire suivante : quelle est la probabilit de prsencede la maladie M chez ce patient, sachant que lexamen a donn un rsultat positif (ou ngatif) ? Cesprobabilits sont appeles valeurs prdictives. Plus prcisment, on a :

    la valeur prdictive positive dun signe pour une maladie est la probabilit que le sujet soitatteint de la maladie si le signe est prsent ;

    la valeur prdictive ngative dun signe pour une maladie est la probabilit que le sujet soitindemne de la maladie si le signe est absent.

    On peut noter ces paramtres :

    Comme les sensibilit et spcificit, les valeurs prdictives positive et ngative varient en sens in-verse, et doivent donc tre considres simultanment.

    Les valeurs prdictives peuvent sexprimer en fonction du couple sensibilit - spcificit, et de lafrquence de la maladie dans la population (cette probabilit Pr(M) sappelle la prvalence de lamaladie). Il suffit dutiliser le thorme de Bayes :

    5.2.3 Comparaison des deux couples de paramtres

    En situation clinique, on a vu que les valeurs prdictives correspondent aux proccupations des m-decins, et elles pourraient sembler les meilleurs paramtres dvaluation. Pourtant, en ralit,cest la sensibilit et la spcificit qui sont le plus souvent utilises pour valuer les examens com-

    VPP Pr M S( )=VPN Pr M S( )=

    VPP Pr M S( ) Pr S M( )Pr M( )Pr S M( )P M( ) Pr S M( )Pr M( )+------------------------------------------------------------------------------------

    Se Pr M( )Se Pr M( ) 1 Sp( ) 1 Pr M( )( )+--------------------------------------------------------------------------------------------

    = =

    =

    VPN Pr M S( ) Pr S M( )Pr M( )Pr S M( )P M( ) Pr S M( )Pr M( )+------------------------------------------------------------------------------------

    Sp 1 Pr M( )( )1 Se( ) Pr M( ) Sp 1 Pr M( )( )+--------------------------------------------------------------------------------------------

    = =

    =

  • Evaluation de lintrt diagnostique des informations mdicales

    plmentaires. La raison en est la suivante :

    la sensibilit dun examen pour une affection repose sur la dfinition de la population des2011 - 2012 Biostatistique - Carrat, Mallet, Morice 45/179

    malades , et est donc caractristique de la maladie et du signe. En particulier, elle nest pas sus-ceptible de varier dun centre lautre (dun service hospitalier spcialis une consultation de m-decin gnraliste, par exemple). Le mme raisonnement peut sappliquer la spcificit, si onconsidre quelle repose aussi sur la dfinition de la maladie.

    Les valeurs prdictives, au contraire, sont fonctions des proportions respectives de malades et denon-malades dans la population (de la prvalence de la maladie). Or ces proportions sont dpen-dantes des centres considrs ; les valeurs prdictives des examens varient donc dun centre lautre pour une mme maladie, ce qui explique quelles sont moins utilises comme paramtredvaluation, mme si elles sont intressantes connatre pour un centre donn.

    5.2.4 Choix dun seuil : courbes ROC

    Lorsquun examen fournit des rsultats de type continu, il faut dterminer le meilleur seuil entreles valeurs pathologiques et les valeurs normales. Lidal serait dobtenir une sensibilit et une sp-cificit gales 1. Ce nest gnralement pas possible, et il faut tenter dobtenir les plus fortes va-leurs pour ces deux paramtres, sachant quils varient en sens inverse.On saide pour ce choix dun outil graphique, la courbe ROC (Receiver OperatingCharacteristics). Une courbe ROC est le trac des valeurs de la sensibilit Se en fonction de 1-Sp.

  • Evaluation de lintrt diagnostique des informations mdicales46/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    Cet exemple (tir du livre de A.J. Valleron) montre 3 courbes ROC correspondant 3 examens dif-frents.La courbe A est celle obtenue pour lexemple prcdent de la temprature et de la grippe. Le pointde la courbe le plus proche du coin suprieur gauche du carr contenant la courbe (ici Se = 0,65,Sp = 0,75, et temprature = 39C)) est celui qui permet dobtenir un bon compromis entre sensibi-lit et spcificit (le coin suprieur gauche correspond Se = Sp = 1). En ralit, on ne choisira pastoujours ce point, car il faut aussi tenir compte des cots des erreurs diagnostiques : il peut parexemple tre beaucoup plus grave de ne pas dtecter une maladie, que de traiter tort.La courbe B correspond un examen qui napporte rien au diagnostic, puisque les variables signeet maladie sont ici indpendantes : La courbe C correspond un bon critre diagnostic pour lequel on peut obtenir simultanment desvaleurs leves de sensibilit et de spcificit.

    Se Pr S M( ) 1 Sp Pr S M( )= = =

  • Evaluation de lintrt diagnostique des informations mdicales

    5.3 Estimation des paramtres de lvaluation2011 - 2012 Biostatistique - Carrat, Mallet, Morice 47/179

    5.3.1 Un chantillon reprsentatif

    5.3.1.1 Les donnes

    Quand on a un chantillon reprsentatif dune population, on peut rsumer les donnes de lexp-rience par un tableau de contingence 22, sur lequel sont indiqus les effectifs suivants : VP (Vrais Positifs) : ce sont les individus malades (M) et chez lesquels le signe est prsent

    {S} ; FP (Faux Positifs) : la maladie est absente { } et le signe est prsent {S} ; FN (Faux Ngatifs) : la maladie est prsente {M) et le signe est absent { } ; VN (Vrais Ngatifs) : la maladie est absente { } et le signe est absent { }.

    Tableau 1

    5.3.1.2 Estimation de la sensibilit et de la spcificit

    Par dfinition, sensibilit = Se = Pr(S / M)On estime cette probabilit conditionnelle par le rapport des effectifs correspondants sur le tableaude contingence observ :

    Note : On notera de manire identique, suivant un usage tabli, les paramtres vrais, qui sont desprobabilits conditionnelles, et leurs estimations, qui sont des rapports deffectifs observs.

    Par exemple, calculons les estimateurs de ces paramtres dans le cas o on cherche diagnostiquerun diabte partir dun signe de la forme la glycmie mesure jeun est suprieure ... ). Pourdeux seuils donns S1 et S2, on obtient les tableaux de contingence ci-dessous :

    a. Seuil S1

    M

    S VP FP

    FN VN

    MS

    M S

    M

    S

    Se VPVP FN+---------------------

    Spcificit Sp Pr S M( ) VNVN FP+---------------------= =

  • Evaluation de lintrt diagnostique des informations mdicales

    Tableau 2 48/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    b. Seuil S2

    Tableau 3

    On peut estimer les sensibilits et spcificits correspondant aux deux seuils par :Se1 90 / 100 = 0,90 ; Sp1 300 / 500 = 0,60Se2 50 / 100 = 0,50 ; Sp2 475 / 500 = 0,95.On retrouve ici le fait que sensibilit et spcificit varient en sens inverse.On constate dautre part que le seuil S1 correspond une bonne sensibilit (lexamen est positifchez 90 % des malades), mais une spcifit mdiocre (lexamen est positif chez 40 % des non-malades ) ; il peut donc tre utilis pour un examen de dpistage, le diagnostic devant tre confir-m ultrieurement par un examen plus spcifique.Le seuil S2, en revanche, induit un test dune sensibilit qui pourrait tre juge trop faible pour unexamen de dpistage. En revanche, sa spcificit peut tre acceptable pour un examen de confir-mation.

    5.3.1.3 Estimation des valeurs prdictives

    Les estimations sobtiennent partir du mme tableau des donnes :

    Par exemple, pour les tableaux de contingence vus ci-dessus, on a :VPP1 90 / 290 = 0,31 ; VPN1 300 / 310 = 0,97VPP2 50 / 75 = 0, 67 ; VPN2 475 / 525 = 0,90Ces rsultats peuvent sinterprter ainsi : en affirmant le diagnostic sur la base de la positivit delexamen, on se trompe dans 69 % des cas avec le seuil S1 et 33 % des cas avec le seuil S2 ; et enliminant le diagnostic en constatant la ngativit de lexamen, on se trompe dans 3 % des cas avec

    M

    S 90 200

    10 300

    M

    S 50 25

    50 475

    M

    S

    M

    S

    VPP Pr M S( ) VPVP FP+--------------------=VPN Pr M S( ) VNVN FN+----------------------=

  • Evaluation de lintrt diagnostique des informations mdicales

    le seuil S1 et 10 % des cas avec le seuil S2.2011 - 2012 Biostatistique - Carrat, Mallet, Morice 49/179

    5.3.2 Deux chantillons reprsentatifs

    Linconvnient du schma exprimental ci-dessus (un seul chantillon) est que, si la maladie estpeu frquente ou rare, il faut constituer un chantillon de trs grande taille pour obtenir un nombresuffisant de malades. Les non-malades, au contraire, seront trop nombreux. Cest pourquoi onconstituera souvent, en pratique, deux chantillons, un chantillon de malades et un chantillon denon-malades. On peut encore rsumer les rsultats par un tableau comme celui du tableau 1 page47, mais ce tableau doit tre interprt diffremment, les proportions respectives des malades etnon-malades ne correspondant plus la ralit : le rapport entre le nombre de malades et le nombrede non-malades du tableau dpend des tailles respectives choisies pour les deux chantillons, et naaucun lien avec la frquence de la maladie dans la population (la prvalence).On peut toujours estimer la sensibilit et la spcificit comme ci-dessus. En effet, la sensibilit parexemple est estime uniquement partir de VP et FN, donc de la rpartition des malades entre ceuxqui prsentent le signe et les autres. Or lchantillon des malades respecte cette rpartition.En revanche, lestimation prcdente des valeurs prdictives utilisait la rpartition entre maladeset non malades, que le tableau actuel ne reprsente pas correctement.Lestimation des valeurs prdictives reste cependant possible condition de connatre la prva-lence de la maladie Pr(M). On utilisera les formules introduites section 5.2.2 page 44 :

    On remplacera dans ces formules la sensibilit et la spcificit par leurs estimations.

    VPP Se Pr M( )Se Pr M( ) 1 Sp( ) 1 Pr M( )( )+--------------------------------------------------------------------------------------------=

    VPN Sp 1 Pr M( )( )1 Se( ) Pr M( ) Sp 1 Pr M( )( )+--------------------------------------------------------------------------------------------=

  • Evaluation de lintrt diagnostique des informations mdicales50/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

  • Variables alatoires

    Chapitre 6 2011 - 2012 Biostatistique - Carrat, Mallet, Morice 51/179

    Variables alatoires

    6.1 Dfinition dune variable alatoire

    Considrons un ensemble fondamental E correspondant une certaine exprience. Les lmentsde E , rsultats possibles de lexprience, ne sont gnralement pas des nombres. Il est cependantutile de faire correspondre un nombre chaque lment de E , en vue de faire ensuite des calculs.Pour un jet de d, il semble naturel de faire correspondre la face obtenue par le jet, le nombre depoints quelle porte, mais ce nest pas une obligation. Si on jette 2 ds, on sintressera par exemple la somme des points obtenus. Pour une carte jouer, il faut convenir dune valeur pour chaquecarte.Une variable alatoire X , sur un ensemble fondamental E , est une application de E dans : toutrsultat possible de lexprience ( tout lment de E), la variable alatoire X fait correspondre unnombre.Lorsque E est fini ou infini dnombrable, toute application de E dans est une variable alatoire.Lorsque E est non dnombrable, il existe certaines applications de E dans qui ne sont pas desvariables alatoires. En effet, la dfinition rigoureuse dune variable alatoire X impose que toutintervalle de soit limage dun vnement de E par lapplication X . Cette condition est vrifiepour toute application X si E est fini ou dnombrable, puisque toute partie de E est un vnement.Ce nest plus vrai si E est non dnombrable. Heureusement, les applications choisies naturellementsont des variables alatoires.On parle de variable alatoire discrte lorsque la variable est une application de E dans un sous-ensemble discret de , le plus souvent N ou une partie de N. On parle sinon de variable alatoirecontinue.

    Pour un nombre rel a donn, lvnement constitu de tous les rsultats dexprience tels queX() = a est not [X() = a], ou, en abrg, X = a .Pour deux nombres rels a et b (a b), lvnement constitu de tous les rsultats dexpriencetels que a X() b est not [a X() b] ou, en abrg, a X b .Si X et Y sont des variables alatoires dfinies sur le mme ensemble fondamental E , et si k estune constante, on peut montrer que les fonctions suivantes sont aussi des variables alatoires :(X + Y)() = X() + Y() (X + k)() = X() + k(kX)() = kX() (XY)() = X() Y()pour tout lment de E .

  • Variables alatoires

    6.2 Variables alatoires finies52/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    Considrons maintenant le cas le plus simple dune variable alatoire finie, que nous gnralise-rons dans un second temps une variable alatoire infinie dnombrable, puis continue.Soit X une variable alatoire sur un ensemble fondamental E valeurs finies :X(E) = {x1, x2, ..., xn}.X(E) devient un ensemble probabilis si lon dfinit la probabilit Pr(X = xi) pour chaque xi , quelon note pi . Lensemble des valeurs pi = Pr(X = xi) est appel distribution ou loi de probabilit deX .Puisque les pi sont des probabilits sur les vnements {X=x1, X=x2, ..., X=xn}, on a :

    et .

    6.2.1 Reprsentation dune loi de probabilit finie

    On peut reprsenter la loi de probabilit pi par une table :

    Ou par un diagramme en btons :

    o la hauteur du bton positionn en xi a pour valeur pi .

    6.2.2 Esprance mathmatique dune variable finie

    Lesprance mathmatique cherche traduire la tendance centrale de la variable alatoire. Il sagitdune moyenne o chacune des valeurs xi intervient dautant plus que sa probabilit est importante,cest--dire dun barycentre ou dun centre de gravit. On dfinit alors la moyenne thorique (par-fois aussi appele vraie), ou esprance mathmatique dune variable X par

    .

    x1 x2 ........ xn

    p1 p2 ........ pn

    i( ) pi, 0 pii 1=

    n

    1=

    pi

    xixnx1 x2 x3 x4

    X E X( ) xii 1=

    n

    pi x1 p1 x2 p2 ... xn pn+ + += = =

  • Variables alatoires

    X peut tre note sil ny a pas de confusion possible.Exemple2011 - 2012 Biostatistique - Carrat, Mallet, Morice 53/179

    On considre lexprience qui consiste jeter deux ds parfaitement quilibrs. Lespacefondamental est constitu par lensemble des couples ordonnsE = {(1, 1), (1, 2), (1, 3), ..., (6, 6)}Cest un espace quiprobable (tous les couples rsultats lmentaires du tirage sont qui-probables).Considrons la variable alatoire dfinie comme suit : soit r = (a , b) un lment quel-conque de E ; on pose X(r) = X(a , b) = max(a , b)(la valeur de X(r) est gale a si a > b et b dans le cas contraire).X est une variable alatoire sur E avec X(E) = {1, 2, 3, 4, 5, 6},et la loi de probabilitp1 = Pr(X = 1) = Pr({(1, 1)}) = 1/36 ;p2 = Pr(X = 2) = Pr({(1, 2), (2, 1), (2, 2)}) = 3/36 ;p3 = 5/36 ; p4 = 7/36 ; p5 = 9/36 ; p6 = 11/36.Soit :

    E(X) = 1/36 + 6/36 + 15/36 + 28/36 + 45/36 + 66/36 = 161/36 4,47

    Thormes1. Soit X une variable alatoire et k une constante relle. On a :

    E(kX) = kE(X)E(X + k) = E(X) + k

    2. Soient X et Y deux variables alatoires dfinies sur le mme espace fondamental E .On a :E(X + Y) = E(X) + E(Y)

    xi 1 2 3 4 5 6

    pi 1/36 3/36 5/36 7/36 9/36 11/36

    E(X)1 2 3 4 5 6

    pi

    xi

  • Variables alatoires

    On en dduit que pour n variables alatoires Xi , dfinies sur le mme espacefondamental :

    n n54/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    (lesprance de la somme est la somme des esprances).

    ExempleConsidrons lexprience du jeu de ds o E = {1, 2, 3, 4, 5, 6} uniforme (quiprobable).Soit X(E) une premire variable alatoire dfinie parX(E) = {1, 2, 3, 4, 5, 6}et pX1 = pX2 = pX3 = pX4 = pX5 = pX6 = 1/6E(X) = (1 + 2 + 3 + 4 + 5 + 6) / 6 = 21/6

    Soit Y(E) une seconde variable alatoire telle queY(E) = 1 si le chiffre tir est impairY(E) = 2 si le chiffre tir est pair.Donc Y(E) = {1, 2}pY1 = Pr({1, 3, 5}) = 1/2pY2 = Pr({2, 4, 6}) = 1/2E(Y) = 1/2 + 1 = 1,5

    Calculons maintenant la loi de (X + Y)(E)(X + Y)(r) = X(r) + Y(r)Pour r = 1, (X + Y)(1) = X(1) + Y(1) = 1 + 1 = 2Pour r = 2, (X + Y)(2) = X(2) + Y(2) = 2 + 2 = 4Pour r = 3, (X + Y)(3) = X(3) + Y(3) = 3 + 1 = 4Pour r = 4, (X + Y)(4) = X(4) + Y(4) = 4 + 2 = 6Pour r = 5, (X + Y)(5) = X(5) + Y(5) = 5 + 1 = 6Pour r = 6, (X + Y)(6) = X(6) + Y(6) = 6 + 2 = 8On a donc (X + Y)(E) = {2, 4, 6, 8} etPr((X + Y) = 2) = 1/6, Pr((X + Y) = 4) = 2/6, Pr((X + Y) = 6) = 2/6, Pr((X + Y) = 8) = 1/6E(X + Y) = 2/6 + 8/6 + 12/6 + 8/6 = 30/6Or on retrouve bien ce rsultat en utilisant E(X) + E(Y) = 21/6 + 3/2 = 30/6.

    RemarqueLorsquon doit calculer lesprance dune fonction g(X), il faut tudier la variable Y = g(X)dont les valeurs sont y1 = g(x1), y2 = g(x2), ..., yn = g(xn). Alors :Pr(Y = yi) = Pr[g(X) = g(xi)]Si g est une fonction monotone, on a g(X) = g(xi) X = xiDo Pr(Y = yi) = Pr(X = xi) = piDonc :

    On montre que ce rsultat reste valide, mme si g nest pas monotone.Par exemple, si lon doit calculer E(X2), on considre la variable Y = X2 dont les valeurssont y1 = x12, y2 = x22, ..., yn = xn2. Alors :

    E Xii 1=

    E Xi( )i 1==

    E g X( )( ) E Y( ) yiPr Y yi=( )i 1=

    n

    g xi( )pii 1=

    n

    = = =

  • Variables alatoires

    E X2( ) E Y( ) yiPr Y yi=( )i 1=

    n

    xi2pii 1=

    n

    = = =2011 - 2012 Biostatistique - Carrat, Mallet, Morice 55/179

    On constate que pour calculer lesprance dun carr, il faut lever les valeurs x i au carr,mais pas les probabilits pi associes.

    6.2.3 Variance et cart-type dune variable finie

    Aprs avoir traduit la tendance centrale par lesprance, il est intressant de traduire la dispersionautour de lesprance par une valeur (la variance ou lcart-type).La variance (vraie ou thorique) de X , note var(X) ou , est dfinie par :

    Lcart-type de X , not ou , est dfini par .X peut tre note sil ny a pas de confusion possible.Remarques :

    1. On dmontre facilement que En effet :

    2. , par dfinition

    3. Soit X une variable alatoire de moyenne et de variance 2.On dfinit la variable centre rduite par .

    On peut montrer facilement (faites lexercice) que E(Y) = 0 et var(Y) = E(Y2) = 1.4. Si a est une constante, on montre que var(X + a) = var(X) et var(aX) = a2var(X).

    6.2.4 Loi de probabilit produit

    Soient X et Y deux variables alatoires finies sur le mme espace fondamental E ayant pour imagerespective :X(E) = {x1, x2, ..., xn}

    X2

    X2 var X( ) E X X( )2( ) o X E X( )== = X( ) X X( ) X var X( )= =

    var X( ) E X2( ) X2=E X X( )2( ) xi X( )2pi

    i 1=

    n

    xi2 2Xxi X2+( )pii 1=

    n

    = =E X X( )2( ) xi2pi 2X xi

    i 1=

    n

    pi X2 pii 1=

    n

    +i 1=

    n

    =E X X( )2( ) xi2pi 2X2 X2+

    i 1=

    n

    E X2( ) X2= =X2 0

    Y X -------------=

  • Variables alatoires

    Y(E) = {y1, y2, ..., ym}.Considrons lensemble produitX(E)Y(E) = {(x1, y1), (x1, y2), ..., (xn , ym)}56/179 Biostatistique - Carrat, Mallet, Morice 2011 - 2012

    (ensemble des couples (xi , yj) pour i = 1, ..., n et j = 1, ..., m)Cet ensemble produit peut tre transform en ensemble probabilis si on dfinit la probabilit ducouple ordonn (xi , yj) par que lon note pxi ,yj. Cette loi de probabilitde X , Y est appele distribution jointe de X et Y .

    Les probabilits et

    sont souvent appeles lois de probabilit marginales de X et de Y . Il sagit simplement de leurs dis-tributions.La loi de probabilit pxi ,yj possde, bien entendu, les proprits dune loi :

    1.

    2.

    Soient X et Y les esprances de X et de Y , X et Y leurs cart-types. On montre facilement quevar(X + Y) = X2 + Y2 + 2cov(X , Y), o cov(X , Y) reprsente la covariance de X et Y et est d-finie par :

    De mme que pour la variance (voir section 6.2.3), on a :cov(X , Y) = E(X Y) - XYLa covariance de X et Y se note aussi XY.Une notion drive de la covariance est celle de corrlation entre X et Y , dfinie par :

    x1 x2 x3 ..... xn

    y1 px1,y1 px2,y1 py1

    y2 px1,y2 py2

    .....

    ym px1,ym

    px1 px2 1

    Pr X xi=[ ] Y yj=[ ]( )

    XY

    xii 1 n,=

    yjj 1 m,=

    pxi pxi yj,j 1=

    m

    = pyj pxi yj,i 1=

    n

    =

    pxi yj, 0 i j,,pxi yj,

    j 1=

    m

    i 1=

    n

    1=

    cov X Y,( ) E X X( ) Y Y( )[ ]= xi X( ) yj Y( )pxi yj,j 1=

    m

    i 1=

    n

    =

    X Y,( ) cov X Y,( )XY------------------------=

  • Variables alatoires

    On peut vrifier que(X , Y) = (Y , X)2011 - 2012 Biostatistique - Carrat, Mallet, Morice 57/179

    (X , X) = 1(aX + b , cY + d) = (X , Y) si a et c non nuls

    6.2.5 Variables alatoires indpendantes

    Soient X et Y deux variables alatoires sur un mme espace fondamental E . X et Y sont indpen-dantes si tous les vnements X = xi et Y = yj sont indpendants :

    pour tous les couples (i , j).Autrement dit, si pxi et pyj sont les distributions respectives de X et Y , les variable