Polycop Biostat Tome 1 Methodes Statistiques

download Polycop Biostat Tome 1 Methodes Statistiques

of 118

Transcript of Polycop Biostat Tome 1 Methodes Statistiques

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    1/118

    Bio-Statistique1re partie

    Discipline : Bio-statistique, Bio-mathmatique et Sciences

    de lInformation

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    2/118

    OBJECTIFS PEDAGOGIQUES

    Raliser limportance du problme de la variabilit inhrente aux donnes mdicales,

    comprendre les principaux concepts qui permettent de la grer et ainsi de pouvoir faire leschoix ncessaires la prise en charge des malades avec le minimum derreur.

    OBJECTIFS TERMINAUX

    1. Enumrer les principales sources de variabilit biologique (les mettre en vidence sur un

    exemple simple).

    2. Expliquer les concepts dchantillon, de population, de reprsentativit.

    3. Comprendre et utiliser les concepts dintervalle de confiance et de test de comparaison.

    4. Savoir expliquer ce que reprsente les risques et .

    5. Expliquer clairement les phrases : La diffrence observe est significative x% , ou

    La diffrence nest pas significative , appliques un exemple concret.

    6. Savoir expliquer les concepts de :

    - jugement de signification

    - jugement de causalit.

    7. Savoir interprter une enqute pidmiologique, expliquer les concepts de biais, de facteur

    de confusion, de risque relatif : RR, (ou odd ratio : OR), de risque attribuable : RA.

    OBJECTIFS CONTRIBUTIFS

    1. Reconnatre les diffrents types de variables et expliquer comment lon peut

    ventuellement passer dun type lautre.

    2. Reconnatre la loi normale, citer les autres lois de probabilit.

    3. Dcrire un chantillon par quelques techniques lmentaires : histogramme, fractiles,

    calculer une moyenne, une variance, un cart-type, une mdiane, et expliquer la

    signification des paramtres prcdents.

    4. Estimer une moyenne ou une frquence thorique.

    5. Comparer une moyenne observe et une moyenne thorique, deux moyennes observes.6. Comparer une frquence observe une frquence thorique. Comparer deux ou plusieurs

    frquences observes (comparaison de %, de Chi2 (2).

    7. Lire correctement les tables usuelles : , z, u, t, 2, r.)

    8. Reconnatre si deux sries dobservations sont apparies et les comparer.

    9. Mesurer le degr de liaison entre deux variables quantitatives par le coefficient de

    corrlation linaire. Tester la signification de celui-ci

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    3/118

    10.Discuter lintrt respectif de la comparaison de moyennes et du coefficient de corrlation

    linaire dans le cas de sries apparies (double mesure sur un individu).

    11.Connatre les conditions dapplication de ces calculs.

    12.Interprter correctement , et p.

    RECHERCHE CLINIQUE ET EPIDEMIOLOGIE

    Objectif gnral : tre capable de dfinir les concepts et les mthode lmentaires ncessaires

    pour aborder les problmes mdicaux quil sagisse de clinique ou dpidmiologie.

    1. Dfinir lpidmiologie. Citer et dfinir ses branches principales.

    2. Dfinir les domaines de recherche clinique ncessaires la prise en charge des malades et

    indiquer leurs diffrences et leurs liens avec lpidmiologie.

    3. Dfinir et distinguer enqute descriptive, enqute tiologique, enqute dintervention :

    situation exprimentale et situation dobservation.

    4. Dfinir ce quest un registre de population, en donner les avantages et les difficults.

    5. Dfinir et calculer un taux brut de mortalit et un taux de mortalit spcifique.

    6. Dfinir et calculer un taux dincidence et un taux de prvalence. Indiquer leur intrt en

    Sant Publique.

    7. Comprendre les principes de la standardisation par tranche dge appliqus aux taux

    prcdents (taux standardiss).

    8. Parmi les enqutes pidmiologiques, dfinir et distinguer enqute de cohorte et enqute

    cas/tmoins. Indiquer les avantages et inconvnients respectifs. Dfinir enqute

    transversale et enqute longitudinale.

    9. Dfinir ce quest un facteur de risque. Indiquer les arguments qui plaident en faveur du

    caractre causal dun facteur de risque.

    10.Dfinir, calculer et interprter le risque relatif et le risque attribuable dans un exemple

    simple.

    11.Connatre les diffrentes phases de lexprimentation thrapeutique et leur stratgie

    respective.

    12.Citer et dfinir les principaux facteurs qui doivent ou peuvent tre pris en compte dans le

    protocole dun essai thrapeutique (choix des facteurs comparer, notion de placebo,

    critres de choix ou dexclusion des sujets, moyen dassurer la comparabilit des groupes,

    simple ou double aveugle, facteurs intervenant dans la dtermination du nombre de sujet

    ncessaire, critres de jugement, rgles dthique et de confidentialit (lois).

    13.Evaluer un signe, un examen, une dcision mdicale en calculant leur sensibilit et leurspcificit, leurs valeurs prdictives positives et ngatives.

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    4/118

    SOMMAIRE

    INTRODUCTION A LA METHODE STATISTIQUEEN RECHERCHE CLINIQUEET EPIDEMIOLOGIQUE ....................................................................................................1

    I. La finalit ..............................................................................................................................1

    II. La valeur des Chiffres ..........................................................................................................2

    III. La biostatistique..................................................................................................................5

    IV. Solutions statistiques ..........................................................................................................7

    V. La causalit ..........................................................................................................................9VI. Conclusions ........................................................................................................................9

    Bibliographie de base .............................................................................................................10

    CHAPITRE I : Buts et principes ........................................................................................11I. La variabilit .......................................................................................................................11

    II. Population, Echantillon......................................................................................................13

    III. Variable alatoire..............................................................................................................14

    IV. Fluctuations dchantillonnage.........................................................................................15

    V. Les lois de la probabilit....................................................................................................17

    VI. Quelques dfinitions et exemples.....................................................................................22

    Rsum ...................................................................................................................................28

    CHAPITRE II : Intervalle de fluctuation dun paramtre ..............................................29I. Introduction .........................................................................................................................29

    II. Intervalle de fluctuation dun pourcentage ........................................................................31

    III. Intervalle de fluctuation dune moyenne..........................................................................32

    Rsum ...................................................................................................................................35

    CHAPITRE III : Estimation Intervalle de confiance dun paramtre.........................36I. Introduction .........................................................................................................................36

    II. Dfinition et proprits dun estimateur ............................................................................36II.1. Dfinition ...................................................................................................................36II.2. Proprits dun estimateur..........................................................................................37

    III. Estimation dune moyenne...............................................................................................37III.1. Estimation ponctuelle ...............................................................................................37III.2. Estimation par intervalle de confiance......................................................................37

    IV. Estimation dun pourcentage............................................................................................39IV.1. Estimation ponctuelle ...............................................................................................39IV.2. Estimation par intervalle de confiance .....................................................................39

    Rsum ...................................................................................................................................42

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    5/118

    CHAPITRE IV : Principe des tests dhypothse risques derreur puissance

    et nombre de sujet ncessaire ..............................................................................................43I. Estimation & test : 2 problmes diffrents..........................................................................43

    II. Principes des tests statistiques ...........................................................................................44II.1. Formuler lhypothse nulle H0 et lhypothse alternative H1 ....................................45II.2. Dterminer ce que devraient tre les observations si H

    0tait vraie...........................46

    II.3. Vrifier si les observations sont conformes aux valeurs attenduessous lhypothse nulle........................................................................................................46II.4. Choisir la rgle de dcision ........................................................................................47

    III. Le risque = risque de premire espce = seuil de signification ....................................48IV. Le degr de signification ..................................................................................................49

    V. Le risque et la puissance dun test statistique.................................................................51

    VI. Application au calcul du nombre de sujets ncessaire .....................................................52

    VII. Test unilatral ou test bilatral ........................................................................................54

    Rfrences bibliographiques ..................................................................................................57

    CHAPITRE V : Variables qualitatives : Comparaison de pourcentages

    Test du Chi Deux ..................................................................................................................58I. Comparaison de deux pourcentages Test de lcart rduit...............................................58

    I.1. Comparaison dun pourcentage observ un pourcentage thorique.........................58I.2. Comparaison de deux pourcentages observs.............................................................61

    II. Test du Chi deux en sries indpendantes .........................................................................64II.1. Introduction................................................................................................................64II.2. Comparaison dune distribution observe une distribution thorique.....................64

    II.3. Comparaison de plusieurs distributions observes ....................................................70Rsum ...................................................................................................................................76

    CHAPITRE VI : Variables quantitatives Comparaison de moyennes............................77I. Comparaison dune moyenne observe une valeur thorique ..........................................77

    I.1. Rappel : la moyenne dun chantillon randomis est une variable alatoire ..............78I.2. Les 2 hypothses : nulle et alternative.........................................................................79I.3. Principe des calculs .....................................................................................................80I.4. En pratique...................................................................................................................81

    I.5. Lire la table de student ................................................................................................82I.6. Exemples .....................................................................................................................83

    II. Comparaison de deux moyennes observes sur des chantillons indpendants................84II.1. Les 2 hypothses : nulle et alternative .......................................................................84II.2. Principe des calculs....................................................................................................85

    III. Comparaison de deux moyennes sur des chantillons apparis .......................................89III.1. Hypothses nulle et alternative .................................................................................90III.2. Principe des calculs...................................................................................................90III.3. Exemple ....................................................................................................................91

    IV. Comparaison de plusieurs moyennes : introduction lanalyse de variance...................92Rfrences bibliographiques ..................................................................................................95

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    6/118

    CHAPITRE VII : Analyse de la liaison entre deux variables

    quantitatives la corrlation ..................................................................................................96Introduction ............................................................................................................................96

    I. Principe de dtermination de R ...........................................................................................96

    I.1. Principales proprits du coefficient de corrlation ....................................................99II. Test de la liaison entre 2 variables...................................................................................101

    II.1. Test dindpendance (ou test du coefficient de corrlation) : ..................................101II.2. Interprtation de R....................................................................................................103

    III. Intervalle de confiance et statistiques infrentielles .......................................................104III.1. Comparaison de r la valeur thorique p ...............................................................105III.2. Estimation dun coefficient thorique p : Intervalle de confiance de r...................105III.3. Comparaison de 2 coefficients de corrlation observs..........................................106

    IV. Corrlation et rgression linaires..................................................................................106IV.1. Cas o les 2 variables tudies sont entirement alatoires par leur nature et leurdistribution.......................................................................................................................106IV.2. Cas o les 2 variables jouent un rle dissymtrique...............................................107

    V. Conditions de validit non respectes..............................................................................107V.1. Principe de la corrlation non paramtrique ............................................................107

    Rsum .................................................................................................................................108

    Annexe : Tables statistiques ..............................................................................................109

    Table de Student ...................................................................................................................110

    Table du Chi Deux................................................................................................................111Table du coefficient de corrlation.......................................................................................112

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    7/118

    Polycopi de Bio-statistique 1Facult de Mdecine de Montpellier-Nmes

    INTRODUCTION

    A LA METHODE STATISTIQUE

    EN RECHERCHE CLINIQUE ET

    EPIDEMIOLOGIQUE

    I. LA FINALITE

    La suppression de la maladie est la finalit de toute recherche dans le domaine mdical.

    La finalit spcifique la recherche clinique et lpidmiologie cest destimer si, auniveau de lhomme, les hypothses sur les mcanismes pathologiques et les moyens

    daction qui en dcoulent ont un rel impact sur la maladie.

    On peut vouloir agir pendant la maladie : la gurir, ou avant la maladie : la prvenir.

    Lorsque la maladie est prsente, laction commence au diagnostic que lon va chercher

    rendre plus sensible afin quil soit le plus prcoce possible, ce qui peut permettre un

    traitement plus efficace et moins lourd ; on peut aussi vouloir rendre le diagnostic plus

    spcifique, afin den minimiser les erreurs. Sensibilit et spcificit dun examen

    diagnostique peuvent tre values : ainsi le frottis cervical dans le dpistage des cancers

    du col de lutrus a une sensibilit de 40% et une spcificit de 98%. Ce qui veut dire que

    sur 100 patientes ayant un cancer du col asymptomatique, un 1 er frottis cervical ne sera

    positif que 40 fois, par contre lorsque le frottis est positif, la patiente est porteuse dun

    cancer du col 98 fois sur 100. La rptition des frottis permet lamlioration de la

    sensibilit.

    Un 2me type de recherche va tendre amliorer les rsultats thrapeutiques en optimisant

    les traitements existants ou en en inventant de nouveaux ; la dtermination de groupe

    pronostic diffrent permettra dadapter le traitement lvolution de la maladie.

    Par exemple ladjonction dune chimiothrapie au traitement loco-rgional dans les cancers

    du sein survenant avant la mnopause, amliore la survie denviron 10% 5 ans, pour les

    femmes prsentant beaucoup de ganglions envahis, cette amlioration est de 15% ; alors

    quelle napparat pas lorsque les ganglions sont indemnes.

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    8/118

    Polycopi de Bio-statistique 2Facult de Mdecine de Montpellier-Nmes

    Un 3me objectif peut tre dempcher la maladie dapparatre, pour cela il faut en

    connatre la ou les causes, ou dfaut les facteurs de risque, ainsi on connat les causes de

    nombreuses maladies infectieuses, par contre pour dautres affections comme les cancers

    ou les maladies cardio-vasculaires, on ne connat que les facteurs qui favorisent

    lapparition de la maladie. On value ainsi que la prise dstrognes la mnopausemultiplie par 6 ou 8 le risque de faire ultrieurement un cancer de lendomtre. Mais

    connatre causes ou facteurs de risque ne suffit pas, encore faut-il avoir les moyens de les

    supprimer : les vaccinations nont pas supprim toutes les maladies infectieuses et que

    faire pour empcher les gens de fumer ?

    Ce rapide survol des objectifs de la recherche clinique permet den prciser les

    caractristiques :

    les recherches seffectuant sur lhomme, le respect de lthique domine lensemble des

    travaux et le recueil des donnes se fait dans un contexte mdicalis.

    il sagit de recherches pluridisciplinaires ncessitant une troite collaboration entre

    fondamentalistes, cliniciens et biologistes qui devront effectuer une dmarche

    scientifique commune.

    les rsultats sont bass sur des observations dont la stratgie dobtention dune part, et

    lanalyse dautre part, doivent permettent linterprtation et lextrapolation dautres

    sujets.

    II. LA VALEUR DES CHIFFRES

    Nous avons vu, dans les exemples cits plus hauts, que les rsultats des diverses recherches

    se rsument par des chiffres, ou par des comparaisons de chiffres : un taux de sensibilit,

    un taux de survie, un risque, etc Il parat donc indispensable que les chiffres sur

    lesquels vont tre bases des dcisions ne soient pas le fruit du hasard, voire le

    rsultat dun biais. Il faut donc que la faon dobtenir ces rsultats (stratgie) et

    lexactitude de leur valeur (statistique) puissent garantir la justesse des conclusions.

    Ainsi apparaissent deux domaines complmentaires : dune part celui de la planification

    des tudes, dautre part celui de linterprtation des valeurs observes.

    Prenons un exemple : soit deux traitements A et B dune maladie M ; A donne 50% de

    gurison et B 60% ; peut-on dire que B et suprieur A ?

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    9/118

    Polycopi de Bio-statistique 3Facult de Mdecine de Montpellier-Nmes

    Les conditions pour conclure B > A sont :

    - 1) Que la diffrence observe ne soit pas due au hasard, en effet si ces pourcentages de

    gurison ont t calculs partir de 10 malades, cela veut dire quen fait A donne 50% de

    gurison 30% et B 60% 50%, cest dire que si lon faisait une 2me tude on pourrait

    trouver A = 60% et B = 50%. On dit que la diffrence observe est le fait du hasard. Par

    contre si lon a trouv ces mmes pourcentages de gurison sur 400 malades, cela veut dire

    que A donne 50% 5% de succs et B 60% 5% et lon peut conclure (en faisant un

    calcul dont nous parlerons ultrieurement) que les rsultats du groupe B sont suprieurs

    ceux du groupe A. On dit que la diffrence est significative .

    De telles conclusions impliquent donc lutilisation dune mthodologie adquate

    permettant de porter des conclusions en minimisant les risques derreur dinterprtation :cette mthodologie est la biostatistique.

    - 2) Que la diffrence significative observe entre A et B (=10%) soit la consquence

    relle de lapplication de deux traitements diffrents.

    Supposons que les malades auxquels on a donn A soient plus gravement atteints que ceux

    auxquels on a donn B, la diffrence est alors due une gravit diffrente et non un

    traitement diffrent.

    Par exemple : les malades traits par radiothrapie compars ceux traits par chirurgie

    pour un cancer de la mme localisation et de mme stade, auront toujours une survie plus

    basse, car la chirurgie slectionne les bons cas : les oprables .

    Une tude de recherche clinique ou dpidmiologie ncessite

    donc :

    1) une hypothse vrifier,

    2) une stratgie ou un plan dtude,

    3) le recueil de donnes,

    4) lanalyse de ces donnes.

    5) linterprtation des rsultats.

    - Le choix de la stratgie qui recueillera des informations interprtables, avec le minimum

    de biais est le point de dpart essentiel de toute recherche. Les mthodes mathmatiques ne

    viennent quensuite et nont de sens que si le problme a dabord t circonscrit et la bonnesolution pour y rpondre choisie.

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    10/118

    Polycopi de Bio-statistique 4Facult de Mdecine de Montpellier-Nmes

    - Le recueil et la validation des donnes : une analyse mathmatique sophistique ne

    permettra pas de rendre de la valeur des donnes fausses ou incompltes. La mise la

    disposition des cliniciens dun outil informatique est un phnomne inluctable et

    souhaitable, mais il faut tre conscient des avantages et des inconvnients de ces moyens.

    Certes lordinateur facilite le recueil et permet de mieux matriser les informationsmdicales. Il donne aux mdecins la possibilit de pratiquer des bilans sur des grands

    nombres, mais cet avantage est assorti dun effort quant lacquisition dun nouveau mode

    de travail et la ncessit denregistrer des donnes de qualit : on ne peut ressortir que ce

    que lon a entr. Au moins 3 types dinconvnients, certes vitables, peuvent tre cits :

    dordre technique : la duplication du recueil des donnes par plusieurs cliniciens peut tre

    source derreurs dun fichier lautre.

    dordre psychologique : augmentation de la tendance au sparatisme chacun ayant son

    fichier alors que la multi-disciplinarit est srement plus fructueuse.

    dordre scientifique : lanalyse statistique devient disponible par touche interpose ce

    qui peut donner une pseudo-apparence scientifique des donnes fausses

    - Lanalyse des donnes ncessite comme nous lavons vu le recours une mthodologie

    adquate, qui permettra dinterprter les rsultats observs en estimant les risques derreur

    et donc le degr de confiance que lon pourra accorder aux conclusions de ltude. Ainsi

    lorsque les rsultats dune tude sont obtenus, on doit sinterroger pour savoir si les

    rsultats observs sont alatoires , cest dire quon les a obtenus par hasard (si on

    recommenait ltude on en trouverait dautres), ou au contraires significatifs cest

    dire consquence relle du phnomne tudi.

    Prenons lexemple dun hypnotique dont on tudie lactivit en mesurant la dure pendant

    laquelle il fait dormir. Sur un premier sujet, on observe une dure de sommeil de 5 heures.

    Peut-on dire que lhypnotique fait dormir 5 heures ? Certes non, car si lon traite un 2me

    sujet, puis un 3me on observera des temps de sommeil variables, par exemple : 1 heure ou

    8 heures. Que dire alors de lactivit de lhypnotique ?

    Autres exemples :

    Si lon dsire connatre la valeur dun enzyme, par exemple la gt, comme test

    diagnostique de lalcoolisme, on mesurera la gt dans un groupe de sujets normaux et

    dans un groupe dalcooliques. On pourra observer que certains sujets alcooliques ont

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    11/118

    Polycopi de Bio-statistique 5Facult de Mdecine de Montpellier-Nmes

    des taux plus bas que certains sujets normaux . Que conclure sur la perturbation de la

    gt par lalcool ?

    Si on veut dterminer le pourcentage normal de lymphocytes sanguins, cest dire le

    pourcentage que lon doit retrouver chez tout sujet sain, en faisant la mesure sur 10

    sujets nous trouverons presque 10 valeurs diffrentes, alors comment dterminer une

    norme ? Quand pourra-t-on dire quun sujet est pathologique ?

    III. LA BIOSTATISTIQUE

    La conclusion de ces exemples, cest que touts les paramtres que nous voulons tudier ont

    comme caractristique commune dtre spontanment variables dun individu

    lautre, ou dun groupe lautre, cest ce quon appelle des variations alatoires. Il en estde mme pour lapparition des maladies, leur volution, la rponse aux traitements o les

    valeurs observes mlangent des variations alatoires et des variations provoques qui

    sont celles qui en fait nous intressent. Il faudrait donc dissocier ce qui est variations

    alatoires de ce qui est variations provoques, pour cela il est ncessaire dutiliser une

    mthode de raisonnement qui nous permette de conclure malgr cette variabilit alatoire

    et cette mthode est linterprtation statistique.

    On saperoit ainsi que la statistique (fminin singulier) na rien voir avec les statistiques(fminin pluriel) qui, elles, ne sont que des dnombrements type recensement et ne

    permettent aucune extrapolation quant leurs conclusions : ainsi le calcul du nombre de

    veuves passes sur le Pont Neuf en 1860 qui est de 13198 et une douteuse, est un simple

    dnombrement ! (Rf.D.Schwartz et E.Labiche ...).

    Que va faire la statistique ?

    Reprenons lexemple de lhypnotique. Si on continue exprimenter le produit sur

    dautres sujets, on peut reprsenter les rsultats observs sur un graphique avec en

    ordonne le temps de sommeil et en abscisse le nombre de cas, on obtient ainsi un

    histogramme dont laspect se modifie au fur et mesure que le nombre de sujets augmente

    puis se stabilise mme si on continue augmenter le nombre de sujets (figure 1). Cest

    dire quaprs avoir observ suffisamment de cas, la courbe obtenue reprsente

    pratiquement lensemble des rsultats que lon peut observer avec un tel hypnotique, donc

    on a mis en vidence une certaine constante reprsente par cette courbe. Comment peut-

    on rsumer cette courbe ?

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    12/118

    Polycopi de Bio-statistique 6Facult de Mdecine de Montpellier-Nmes

    figure 1

    Le premier indice auquel on pense est la moyenne (x/n), mais cette moyenne

    (ici 5 heures) ne rsume pas totalement linformation : supposons un autre hypnotique B

    qui donne la courbe B (figure 2). La valeur de la moyenne est la mme que pour A, et

    pourtant la forme de la courbe nest pas la mme : plus de sujets sous B que sous A, sont

    loin de la moyenne : il y a une plus grande variabilit avec B quavec A. Il faut donc crer

    un indice rsumant cette variabilit. Cet indice sappelle la variance et mesure

    lcartement des valeurs observes par rapport la moyenne (ou dispersion), ainsi

    lhypnotique A a une variance plus petite que lhypnotique B.

    figure 2

    Le calcul statistique va donc permettre de dfinir les caractristiques (moyenne, variance)de la rpartition (ou distribution) du paramtre tudi, on pourra ensuite comparer ces

    caractristiques dun groupe lautre.

    Deux points importants sont noter demble :

    1)Les rsultats sont rsums partir dun groupe, ils ne sont donc extrapolables qu

    un groupe : ainsi, si je dis que lhypnotique A procure en moyenne 5 heures de sommeil,

    ce rsultat peut sappliquer lensemble des gens qui vont utiliser ce produit, mais pas un

    individu donn de ce groupe qui, lui, peut dormir 2 heures ou 8 heures ! Il est cependant

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    13/118

    Polycopi de Bio-statistique 7Facult de Mdecine de Montpellier-Nmes

    possible de calculer, pour cet individu, un intervalle probable de sommeil (3 7 heures par

    exemple ici), cest ce quon appelle un intervalle de confiance.

    Prenons un autre exemple : lorsquon dit que le tabac multiplie par 20 le risque de cancer

    du poumon, ceci sapplique lensemble dune population, mais pour un fumeur

    particulier ce risque peut-tre infrieur ou suprieur, et se situe dans un intervalle

    galement estimable.

    2) Les rsultats sexpriment en probabilit et non en certitude.

    Ainsi si lon donne lhypnotique A un 2me groupe de sujets, il est probable que ces sujets

    dorment en moyenne 5 heures, mais ceci nest pas une certitude, en particulier ce 2me

    groupe peut, par hasard, tre constitu dinsomniaques chroniques moins sensibles, donc

    dormir en moyenne moins longtemps.Nous avons crit plus haut que lon pouvait calculer lintervalle de la dure de sommeil

    dun individu soumis lhypnotique, certes, mais il est cependant possible, bien que peu

    probable, que le sujet dorme plus ou moins longtemps que lintervalle prvu. Cet intervalle

    ne reprsente donc quune probabilit de dure de sommeil sous lhypnotique A.

    Ce raisonnement de type probabiliste est li la nature variable des paramtres tudis

    dont les courbes de dispersion tendent vers linfini, et explique bien des rsultats

    contradictoires rencontrs dans la littrature, lorsque lon ne tient pas compte de ce

    phnomne universel.

    IV. SOLUTIONS STATISTIQUES

    Aprs avoir dfini pour la variable tudie, dune part sa moyenne dautre part sa

    dispersion (par le calcul de la variance), il va tre possible de rpondre aux diverses

    questions abordes en recherche clinique, que lon peut classer en 3 types :

    1) Dfinir les valeurs dites normales .

    De nombreux paramtres biologiques sont utiliss en mdecine et, afin de dfinir des tats

    pathologiques, il est tout dabord ncessaire de dfinir des normes hors desquelles les

    valeurs seront considres comme anormales . Ceci consiste tablir la courbe de

    dispersion du paramtre tudi sur un chantillon de sujets considrs comme normaux,

    puis de dfinir lintervalle autour de la moyenne (ou du taux) dans lequel se situera 95% de

    la population. En dehors de cet intervalle, les valeurs seront considres comme

    pathologiques . Nous voyons demble quen agissant ainsi 5% des sujets, bien que

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    14/118

    Polycopi de Bio-statistique 8Facult de Mdecine de Montpellier-Nmes

    normaux, seront considrs comme pathologiques (figure 3), mais la prise en compte de

    100% des sujets normaux nest pas possible car cela reviendrait prendre en compte toutes

    les valeurs possibles jusqu linfini et on ne pourrait plus dfinir dtat normal ou dtat

    pathologique.

    figure 3 : intervalle 95 %

    2) Estimer ces valeurs avec une certaine prcision.

    Si lon dsire connatre le taux de gurison obtenu avec un traitement, il est raisonnable de

    fixer lavance lintervalle de prcision que lon dsire obtenir. Ainsi si jobtiens, par

    exemple, 60% de succs, il est prfrable que lintervalle de confiance de ce taux soit petit,

    5%, plutt que grand ( 20%) afin de massurer que, lorsque jappliquerai ce traitement

    dautres malades, les rsultats soient proches de 60% et non de 40% comme ils pourraientltre avec un rsultat peu prcis (cest dire avec un grand intervalle de confiance).

    3) Comparer des paramtres dun groupe un autre afin de conclure si un groupe est

    identique un autre : cest le problme le plus frquent en recherche clinique.

    Par exemple : est-ce que les rsultats obtenus avec le traitement A sont les mmes quavec

    le traitement B ? Est-ce quun groupe de sujets vaccins fait moins souvent la maladie que

    les sujets non vaccins ? Est-ce que les taux de leucocytes sont modifis en cas dinfectionvirale ? Est-ce que les malades porteuses de cancer du sein et prsentant des rcepteurs aux

    strognes positifs ont une meilleure survie ? Est-ce que le tabac diminue la fertilit ?

    Le principe consiste galement calculer pour les 2 groupes les indicateurs rsumant la

    rpartition des valeurs des paramtres tudis (taux ou moyennes, variances) et de

    comparer ces indices dans les 2 groupes afin de juger si la diffrence observe est

    compatible avec de simples variations alatoires ou au contraire significative, cest dire

    que les valeurs observes dans les 2 groupes tudis diffrent trop pour tre compatiblesavec des variations alatoires (figure 4).

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    15/118

    Polycopi de Bio-statistique 9Facult de Mdecine de Montpellier-Nmes

    Figure 4

    V. LA CAUSALITE

    Pour pouvoir conclure, il restera encore examiner le problme de la causalit : quelle est

    la cause relle de la diffrence observe ? et ces relations causales ne pourront tre tablies

    quen fonction de la stratgie utilise pour ltude.

    Ainsi, en thrapeutique, une relation causale entre traitement et rsultat pourra tre tablie

    si la stratgie dtude permet de nattribuerquau seul traitement la diffrence observe.

    Cette situation est ralise dans le cas dessais thrapeutiques avec tirage au sort des

    traitements comparer, car il sagit alors dune situation exprimentale o les diffrents

    paramtres sont contrls.

    Par contre, dans la plupart des autres tudes, et en particulier en pidmiologie, la relation

    causale pourra exceptionnellement tre tablie car il sagit toujours de situation

    dobservation, o de nombreux facteurs peuvent tre la cause des diffrences observes :

    ainsi si lon trouve que les sujets atteints dinfarctus du myocarde ont un taux de

    cholestrol plus lev que la normale, on ne peut pas dire que le cholestrol soit la cause de

    linfarctus du myocarde, bien dautres facteurs intervenant.

    VI. CONCLUSIONS

    Pour conclure, nous estimerons notre premier but atteint si nous vous avons fait

    comprendre les points suivants : une tude de recherche clinique, pour tre valable,

    ncessite :

    davoir un but clairement dfini : les enregistrements systmatiques type pche laligne ne servent rien.

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    16/118

    Polycopi de Bio-statistique 10Facult de Mdecine de Montpellier-Nmes

    de suivre une stratgie qui permettra de rpondre au problme pos : nimporte quelle

    enqute ne peut rpondre nimporte quelle question.

    de recueillir des donnes de qualit, valides.

    danalyser les donnes en tenant compte de leur variabilit : la mthode statistique nest

    pas lart daligner des chiffres, voire de les manipuler, mais de les interprter.

    dinterprter les rsultats, sans oublier le bon sens clinique : une diffrence statistiquement

    significative na pas forcment un intrt clinique.

    BIBLIOGRAPHIE DE BASE

    D.SCHWARTZ Mthodes statistiques lusage des mdecins et des biologistes.,

    Flammarion Ed 1963

    A.LAPLANCHE, C. COM NOUGUE, R. FLAMANT. Mthodes statistiques appliques

    la recherche clinique., Flammarion Ed 1986

    E.ESCHWEGE, G.BONNEROT, F.DOYON, A.LACROIX Essais thrapeutiques, mode

    demploi., Le Quotidien du Mdecin, INSERM 1990

    M.GOLDBERG LEpidmiologie sans peine., Collection prsente par Ed Mdicales

    ROLAND BETTEX 1985.

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    17/118

    Polycopi de bio-statistique 11Facult de Mdecine de Montpellier-Nmes

    CHAPITRE I

    BUTS ET PRINCIPES

    I. LA VARIABILITE

    La caractristique essentielle des donnes, dans le domaine du vivant, est la variabilit.

    Bien que celle-ci soit, aux yeux de tous, une vidence, on en donnera 4 exemples, dabord

    pour dfinir quelques termes et ensuite parce que la force de cette vidence na dgale

    que la facult de loublier chaque instant.

    Ces 4 exemples concernent la variabilit du nombre de loges capsulaires dans le fruit du

    coquelicot (figure 1), le temps dincubation dune maladie virale du tabac (figure 2), la

    couleur des cheveux (tableau 1) et la survenue dun cancer bronchique chez les fumeurs

    (tableau 2).

    20

    15

    10

    5

    1,00 1,20 1,40 1,60

    Figure 3 : Distribution des glycmies jeun observe sur 74mesures conscutives effectues chez un sujetdiabtique au cours dune priode de 2 ansconsidre comme stable(D. Schwartz, Donnes non publies)

    Glycmie en grammes/litre

    Nombredexam

    ens

    80

    70

    60

    50

    40

    30

    20

    10

    015 20 25 30

    Figure 2 : Distribution du temps de latence de lamosaque du tabac observesur 355 plants de tabac inoculs avec levirus de la mosaque(D. Schwartz, Donnes non publies)

    Temps de latence en jours

    Nombredeplants

    300

    250

    200

    150

    100

    50

    06 7 8 9 1011 12 13 14 15 16 17 18 19 20

    Figure 1 : Distribution du nombre de loges capsulairesobserve sur 1905 coquelicots (Biometrika,Vol 2, 1902)

    Nombre de loges

    Nombredecoquelicots

    Couleur de cheveux Blond Brun Noir Roux Total

    Nombre de sujetsprsentant cette couleur

    2 829 2 635 1 223 116 6 800

    Tableau 1 : Couleur des cheveux Dnombrement portant sur 6 800 sujets.(Daprs Ammon,, Zur Anthropologie Der Badener)

    Eventualit Pas de cancerdu poumon

    Cancer duPoumon

    Total

    Nombre de sujet 3 078 22 3 100

    Tableau 2: Cancer du poumonDnombrement portant sur 3 100 sujets de sexe masculin de 50 69 ans, fumant aumoins 40 cigarettes par jour, suivis pendant 44 mois.

    (Daprs Hammond et Horn)

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    18/118

    Polycopi de bio-statistique 12Facult de Mdecine de Montpellier-Nmes

    Les deux premiers caractres mesurables, sont dit quantitatifs, leur variabilit est

    reprsente par un diagramme en btons ou histogramme ; celui-ci est fait de traits spars

    pour le nombre des loges capsulaires, qui est une variable discontinue, et de rectangles

    jointifs pour le temps dincubation de la maladie, qui est continu. Le deux derniers

    caractres sont dits qualitatifs, ils ne donnent pas lieu histogramme parce quils ne sontpas logiquement ordonnables sur laxe des abscisses ; le 4e caractres, qualitatif 2 classes,

    est le plus simple de tous les caractres ; il traduit aussi la forme la plus simple de la

    variabilit : travers des diffrences daspect, ces 4 exemples traduisent le mme fait : une

    trs grande variabilit ( cf. Dfinitions 6).

    Cette variabilit peut tre rduite par des procds exprimentaux, mais non supprime ;

    ainsi, dans lexemple des plants de tabac, linoculation avait t faite dans des conditions

    particulirement standardises : suspension de virus parfaitement homogne inocule desplants de tabac gntiquement semblables, sur une feuille de mme rang entre des nervures

    de rang donn : le temps de latence a quand mme vari de 13 34 jours.

    La variabilit ne se rduit aucunement lerreur de mesure (le nombre de loges capsulaires

    dans le fruit du coquelicot est parfaitement mesur), elle la comporte certes dans de

    nombreux cas, mais pour lessentiel la variabilit traduit la fluctuation biologique. Elle

    porte sur la morphologie (au sens large), la prdisposition une maladie, le temps que

    celle-ci met apparatre, son volution, en fait sur la quasi totalit des caractristiques dun

    sujet.

    On doit aborder les sciences du vivant pntr de lide que la variabilit est, non

    lexception, mais la rgle.

    Cette rgle est constamment oublie. Cet Anglais nous faire rire qui, voyant une femme

    rousse en dbarquant Calais, conclut : Tiens, les Franaises sont rousses . Il nignorait

    certes pas que la couleur des cheveux varie dune femme lautre, et pourtant Et si nous

    rions de son erreur, chacun de nous la commet sans cesse. Untel, dcouvrant 8 quartiers

    dans un fruit de coquelicot, conclura automatiquement : le fruit du coquelicot contient 8

    quartiers. Plus grave, ce biologiste qui testera les effets nocifs dune drogue sur 1 singe, sur

    5 dans le meilleur des cas. Si vous vous tonnez de ce faible effectif, il voquera dabord le

    prix du singe, puis il ajoutera que cette recherche est effectue avec une extrme prcision,

    grce au microscope lectronique, oubliant que lessentiel de la variabilit est dordre

    biologique : si le produit est dangereux pour 1 singe sur 10, ce qui serait dj norme, il

    risque fort de ne rien voir avec un si faible effectif. (* daprs D.Schwartz)

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    19/118

    Polycopi de bio-statistique 13Facult de Mdecine de Montpellier-Nmes

    Compte tenu de la variabilit de ses caractres infiniment nombreux, un individu ne

    ressemble jamais un autre. Cette diversit est dabord dordre gntique. Notre identit

    est faonne par des gnes innombrables donc chacun a plusieurs variantes (allles). Il en

    rsulte, au moment de la reproduction, qui redistribue les gnes, un nombre quasi infini de

    combinaisons possibles. De sorte quexception faite des vrais jumeaux (et encore ) unindividu na pas, na jamais eu et naura jamais son double, lindividu est unique.

    Aux diffrences entre les individus, sajoutent les diffrences dans lenvironnement, dans

    les hasard de la vie, qui font que certains caractres (pas tous, mais beaucoup) varient dun

    moment lautre, cest le cas notamment pour les rsultats dexamens biologiques (cf par

    exemple fig.3 : la glycmie dun sujet jeun). A la variabilit inter-individuelle se

    superpose donc une variabilit intra-individuelle (encore plus souvent oublie que la

    premire). Et lindividu diffre de lui-mme dun moment lautre.

    II. POPULATION, ECHANTILLON

    II.1. UNE POPULATION est un ensemble dunits sur lesquelles une caractristique peut

    tre releve. Le plus souvent, en pidmiologie, les units sont des personnes (ou des

    animaux en exprimentation animale). Mais cela peut tre aussi un groupe de personnes

    (par exemple la population des familles dont on compte le nombre denfants), ou encore

    des entits biologiques (comme des cellules dont on relve le caractre cancreux ou non).

    Trs souvent, la population est de grande taille ; dans de nombreux cas, les modles

    statistiques que nous verrons supposent quelle est de taille infinie. Les questions que lon

    se pose, les hypothses que lon formule concerne la population.

    II.2. UN ECHANTILLON est une partie de la population. Il est habituellement de taille

    suffisamment petite pour que la caractristique laquelle on sintresse puisse

    effectivement tre mesure sur tous les sujets qui le composent. Les observations que lonfait sur un chantillon servent rpondre aux questions que lon sest pos au niveau de la

    population. Il est donc important que lchantillon soit constitu de telle sorte quil puisse

    remplir ce rle. Cest notamment le cas lorsquil sagit dchantillon reprsentatif, cest

    dire un chantillon dont la composition est conforme celle de la population. La faon la

    plus simple de constituer un chantillon reprsentatif est de tirer au sort les sujets de

    lchantillon au sein de la population.

    Dans ltablissement idal du protocole dune enqute pidmiologique, on devrait dfinirsuccessivement la population cible et lchantillon. Il arrive cependant que lchantillon

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    20/118

    Polycopi de bio-statistique 14Facult de Mdecine de Montpellier-Nmes

    soit constitu en fonction de diverses contraintes pratiques et que la population soit

    reconstruite a posteriori en partant de lchantillon (Schwartz 1994). Il est, par exemple,

    frquent de raliser des enqutes sur un chantillon de sujets traits dans quelques services

    hospitaliers avec lesquels on collabore. Cet chantillon na pas t extrait dune population

    dfinie au dpart, mais constitu ainsi pour des raisons de commodits telles que lacollaboration possible avec tel ou tel service. La population correspondante peut tre, selon

    le problme que lon tudie, celle de lensemble des malades hospitaliss quel que soit le

    service, ou lensemble, fictif, des sujets qui, sils taient malades, seraient hospitaliss

    dans lun des services participant lenqute. Lchantillon est alors, par construction,

    reprsentatif de la population ainsi dfinie. Cest elle que les observations faites sur

    lchantillon peuvent tre gnralises. Il importe donc dans la prsentation et

    linterprtation des rsultats de bien dcrire cette population (rpartition par ge, par sexe,par catgories professionnelles ).

    III. VARIABLE ALEATOIRE

    Une variable alatoire associe une valeur chaque sujet de la population. Cette valeur peut

    tre numrique : taille, ou ne pas ltre : malade/non malade, groupe sanguin

    Le terme alatoire signifie quon ne peut pas prdire avec certitude, avant la mesure ou

    lobservation, la valeur de la variable pour un sujet. La seule information dont on dispose

    pour chaque valeur de la variable est la probabilit de trouver un sujet qui ait cette valeur.

    Soit, par exemple, la variable X malade/non malade . Pour un sujet dont on ne connat

    que le nom, on peut ne pas savoir si X a la valeur malade ou la valeur non malade

    avant davoir interrog le sujet ou quil ait t examin par un mdecin. Si lon sait, par

    exemple, quil y a 25% de malades dans la population, on peut cependant affirmer que la

    probabilit que X = malade est 25% et X = non malade est 75%. Une variable donnant une

    caractristique au niveau des sujets (poids, taille, malade/non malade) sera note avec

    une lettre majuscule (X) et la valeur prise sur un sujet par une lettre minuscule (x).

    On parle aussi de variable alatoire au niveau dun chantillon. Par exemple, la moyenne

    ou le pourcentage sont des variables alatoires, puisquelles associent chaque

    chantillon une valeur (qui est la moyenne ou le pourcentage observ sur cet chantillon).

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    21/118

    Polycopi de bio-statistique 15Facult de Mdecine de Montpellier-Nmes

    IV. FLUCTUATIONS DECHANTILLONNAGE

    Un chantillon est un sous-ensemble, plus ou moins grand, des sujets de la population. Une

    des consquences de la variabilit individuelle est une variabilit au niveau des

    chantillons, cest--dire que la composition de deux chantillons tirs de la mme

    population nest, en gnral, pas la mme. Ce phnomne, qualifi de fluctuation

    dchantillonnage, est important comprendre, car, dans le domaine biomdical, il est

    extrmement frquent de travailler sur des chantillons, linclusion dans une enqute de

    tous les sujets dune population tant, la plupart du temps, impossible. Pour le prsenter,

    prenons lexemple dune population compose de 30% de malades et dans laquelle on

    prend des chantillons successifs.

    Considrons 10 000 chantillons de 20 sujets dans cette population et comptons le nombre

    de malades observ dans chacun dentre eux. Les rsultats obtenus sont illustrs par

    lhistogramme de la figure 4. Ce dernier indique que 8 chantillons ne comprennent aucun

    malade, que 60 en comprennent 1, etc On observe, par ailleurs, quaucun chantillon ne

    comprend plus de 15 malades.

    Ces rsultats ne sont quun exemple. Une autre srie de 10 000 chantillons ne conduirait

    pas exactement au mme histogramme. Par exemple, il est possible quun chantillon

    comprenne jusqu 20 malades, ce qui ne sest pas produit dans la srie que nous

    prsentons. Cependant, les conclusions seraient de mme nature : la variabilit individuelle

    cest dire ici le fait que les sujets ne sont pas tous malades ou tous non malades

    conduit ce que le pourcentage de malades observ varie dun chantillon lautre.

    Figure 4 : Histogramme des nombres de malades observes sur 10 000 chantillons de 20 sujets

    tirs d'une population o le pourcentage vrai de malades est 30 %

    860

    288

    720

    1249

    18631940

    1626

    1120

    680

    267

    11545 13 5 1

    0

    500

    1000

    1500

    2000

    2500

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

    Nombre de malades par chantillon

    Nombresd'chantillons

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    22/118

    Polycopi de bio-statistique 16Facult de Mdecine de Montpellier-Nmes

    On constate notamment que, bien que la valeur du pourcentage de malades soit 30% dans

    lensemble de la population, seuls 1940 parmi les 10 000 chantillons ont un pourcentage

    observ de malades exactement gal 30%. Cest certes le cas le plus frquent, mais

    dautres valeurs sont observes avec une frquence voisine. De plus, certaines valeurs

    sloignent notablement de 30% : cest ainsi quun des chantillons comprend 15 malades,soit 75% de malades.

    Il nest donc pas possible de rsumer lensemble des observations par le seul pourcentage

    de malades dans la population. Il faut indiquer comment les observations sont disperses.

    On peut, par exemple, nous y reviendrons plus loin, donner les limites dans lesquels se

    trouvent la plupart des chantillons. Ici on observe que 356 chantillons comprennent

    moins de 3 malades et que 179 en comprennent plus de 10. Le pourcentage de malades est

    donc compris entre 15% et 50% (bornes incluses) pour prs de 95% des chantillons.

    Lallure de lhistogramme et lampleur des fluctuations dchantillonnage dpendent bien

    sr de la valeur du pourcentage de malades dans la population, mais elles dpendent aussi

    de la taille des chantillons prlevs dans la population. Si, par exemple, on prend des

    chantillons de 100 sujets, au lieu de 20, lhistogramme devient celui de la figure 5. Il est

    moins dispers : on constate, en particulier, que les limites entre lesquelles se situe le

    pourcentage de malades observ pour 95% des chantillons sont cette fois 21% - 39%.

    Elles sont donc plus resserres que celles de lhistogramme prcdent (15% - 50%). Cela

    correspond bien lintuition : lobservation faite sur un chantillon est dautant plus

    proche de la vraie valeur que la taille de lchantillon est grande.

    Figure 5 : Histogramme des nombres de malades observs sur 10 000 chantillons de 100 sujets

    tirs d'une population o le pourcentage de malades est 30 %

    1125

    1091

    3395

    3803

    1389

    183

    130

    500

    1000

    1500

    2000

    2500

    3000

    3500

    4000

    10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49

    Nombre de malades par chantillon

    Nombred'chantillons

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    23/118

    Polycopi de bio-statistique 17Facult de Mdecine de Montpellier-Nmes

    V. LES LOIS DE LA PROBABILITE

    V.1. LE CONCEPT DE PROBABILITE a t un pas considrable pour lintroduction de

    la rigueur dans le domaine de lincertain. Le calcul des probabilits, qui est une branche

    particulire des mathmatiques, permet dtablir des lois de probabilit. Une loi de

    probabilit indique la probabilit pour quune variable prenne une valeur donne, par

    exemple que sur 100 lancers de pices la variable nombre de pile gale 40, ou quune

    variable soit comprise dans un intervalle donn, par exemple que sur 100 lancers le nombre

    de pile soit compris entre 20 et 30. Un exemple particulirement utilis est celui

    dintervalles symtriques autour de la valeur moyenne , par exemple la probabilit pour

    que sur 100 lancers, le nombre de pile tombe dans lintervalle allant de 40 60. Le calcul

    montre quil y a 95 chances sur 100 de tomber dans cet intervalle dont 5 chances sur 100de tomber lextrieur. Cest l un rsultat intressant, parce qualors que le hasard est

    capable de tous les caprices, je peux quand mme faire un pronostic condition daccepter

    certains risques derreur : ainsi je peux admettre que le nombre de pile sur 100 lancers sera

    compris entre 40 et 60, je ne risque que 5 fois sur 100 de me tromper. Telles sont les lois

    du hasard , association de deux mots apparemment incompatibles : ce ne sont pas des lois

    de certitude, je ne peux pas affirmer quon trouvera entre 40 et 60 fois pile, mais je peux

    presque laffirmer avec un risque derreur faible.

    V.2. DISTRIBUTION DE PROBABILITE

    La dfinition prcdente nest pas trs oprationnelle pour faire des calculs car elle

    demande des simulations chaque fois : si on voulait, par exemple, savoir quelle est la

    probabilit que sur 100 tirages de ds il y ait 20 fois le chiffre 4, il faudrait rpter de trs

    nombreuses fois 100 tirages de ds pour avoir une valeur assez prcise. En outre, elle

    sapplique mal des populations de taille infinie. Il est donc ncessaire de disposer de

    formules pour faire le calcul. Pour reprsenter (on dit aussi modliser ) les

    distributions observes et permettre les calculs statistiques, on a besoin de lois de

    probabilit. Leur rle est dassocier une probabilit de survenue chaque vnement

    possible.

    Il y a plusieurs lois de probabilit permettant de sadapter aux diffrentes situations que

    lon rencontre selon la variable tudie et selon la population concerne. Il faut distinguer

    variables qualitatives et quantitative car la faon de dcrire leurs lois de probabilit est

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    24/118

    Polycopi de bio-statistique 18Facult de Mdecine de Montpellier-Nmes

    assez diffrente. De faon plus prcise, on va considrer dune part les variables discrtes,

    englobant sous ce terme les variables qualitatives et continues discrtes, dautres part les

    variables continues (cf. Dfinitions VI).

    V.2.1.LOIS DE PROBABILITE DISCRETES

    Une variable qualitative ou une variable quantitative discrte prend des valeurs que lon

    peut numrer : x1, xk Dfinir sa distribution de probabilit consiste donner les

    probabilits p1, pkde chacune des valeurs possibles. Les pi peuvent avoir des valeurs

    quelconques condition de respecter : 0 pi1 (une probabilit doit tre comprise entre 0

    et 1) et pi =1 (cest dire que la probabilit que la variable prenne lune quelconque des

    valeurs possibles est 100%).

    Exemples :

    Le cas le plus simple est celui dune variable dichotomique comme malade/non malade.

    Ses deux valeurs sont souvent codes x0 = 0 pour les non malades et x1=1 pour les

    malades. Les probabilits correspondantes sont p0 et p1, avec p0+ p1 = 1 ; p1 est souvent

    not p ; p0=1- p1 est alors not q.

    Considrons le nombre X dobservations prsentant une certaine caractristique (par

    exemple le nombre de malades) dans un chantillon de n sujets. X peut prendre les valeurs

    entires de 0 n. La loi de probabilit de X sappelle la loi binomiale, ( 5.3.1).

    Lorsque la taille de lchantillon est trs grande, X peut prendre de nombreuses valeurs.

    Lutilisation de la loi binomiale devient alors laborieuse et on lui prfre la loi de Poisson

    dfinie dans le paragraphe 5.3.2.

    V.2.2.LOIS DE PROBABILITE CONTINUES, DENSITE DE PROBABILITE

    Une variable quantitative continue a une infinit non dnombrable de valeurs possibles. On

    ne peut plus dfinir sa distribution de probabilit en donnant la liste des valeurs des

    probabilits pi dobserver chacune des valeurs.

    La distribution de probabilit pour une variable quantitative continue peut tre dcrite par

    une fonction f appele densit de probabilit. La loi normale est la loi la plus utilise pour

    les variables continues ( 5.3.3.)

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    25/118

    Polycopi de bio-statistique 19Facult de Mdecine de Montpellier-Nmes

    V.3. PRINCIPALES LOIS DE PROBABILITE

    V.3.1.LA LOI BINOMIALE

    - Dfinition de la loi binomiale

    Soit X la variable dont la valeur est le nombre de malade k dans un chantillon n de sujets

    tirs au sort dans une population o le pourcentage de malade est P.

    X suit une loi binomiale dont la distribution est dfinie par :

    La loi binomiale est caractrise par deux paramtres : le nombre de sujets dans

    lchantillon (n) et la probabilit de maladie dans lensemble de la population (P). Elle est

    souvent noteB(n,P)

    Exemple :

    Considrons une population o le pourcentage de malades est P = 0,30 dou on extrait des

    chantillon de taille n = 20. La probabilit dobserver k = 6 malades est :

    146 7,03,0

    !14!6

    !20)6( ==XP

    Soit : P(X=6) = 38 760 x 0,000729 x 0,00678 = 0,1916. Cest dire que sur 10 000

    chantillons, on sattend en observer 1 916 comprenant 6 malades.

    - Tables de la loi binomiale

    Comme on le voit, le calcul des probabilits de la loi binomiale est assez laborieux, surtout

    lorsque n est grand. Il existe des tables donnant les valeurs de P(X=k). Si n est assez grand

    ( 30) on peut recourir lapproximation par la loi normale qui conduit des calculs

    beaucoup moins lourds.

    - Moyenne et variance de la loi binomiale

    Si X suit une loi binomiale de paramtres n et P, on montre que :

    )!kn(!k

    !navecC)P1(PC)kX(P kn

    knkkn

    ===

    E(X) = nP et var(X) = nPQ

    o E(X) est lesprance mathmatique de X, ou moyenneet var(X) est la variance de X

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    26/118

    Polycopi de bio-statistique 20Facult de Mdecine de Montpellier-Nmes

    - Application la distribution dun pourcentage.

    Plutt que sintresser au nombre X de malades dun chantillon, il est beaucoup plus

    frquent de considrer le pourcentage po de malades. En effet, linterprtation de po ne

    dpend pas de la taille de lchantillon.

    po et X tant lis parn

    Xp =0 , la distributionde po se dduit directement de celle de X. On

    a notamment :

    V.3.2.LA LOI DE POISSON

    Comme pour la loi binomiale, nous prenons lexemple dune variable dont les deux

    modalits sont malade et non malade , et nous intressons au nombre X de malades

    dans un chantillon de taille n. Lorsque n est trs grand, X peut prendre de nombreuses

    valeurs et lutilisation de la loi binomiale devient trs laborieuse, notamment cause du

    calcul de knC

    Pour dcrire la distribution de X, on utilise alors la loi de Poisson dfinie par :

    Moyenne et variance de la loi de Poisson

    Si X suit une loi de Poisson de paramtre , on montre que E(X) = et var(X) =

    V.3.3.LA LOI NORMALE

    - Dfinition

    La loi normale (ou loi de Gauss, ou encore loi de Laplace-Gauss) est la loi de probabilit la

    plus utilise en statistique pour les variables continues. Elle est dfinie par sa densit de

    probabilit :

    Pn

    XEpE ==

    )()( 0 et n

    PQ)Xvar(

    n

    1)pvar(

    20==

    k

    k

    ekXP

    !

    )(== ou est une constante

    =2

    2

    2

    )(exp

    2

    1)(

    xxf

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    27/118

    Polycopi de bio-statistique 21Facult de Mdecine de Montpellier-Nmes

    Le graphe de cette fonction est une courbe en cloche (figure 4)

    Figure 6 : Densit de probabilit et fonction de rpartition de la loi normale.

    La loi normale dpend de deux paramtres et 2. On montre que est sa moyenne et 2sa variance.

    - Table de la loi normale

    Le calcul des probabilits associes la loi normale nest pratiquement pas possible avec

    des moyens simples tels quune calculette de poche. Par exemple, le calcul de P(Xa)

    demande celui de lintgrale .2

    )(exp

    2

    12

    2

    dxx

    a

    Cest pourquoi il est ncessaire

    de recourir des tables.

    Il nest cependant pas envisageable de construire une table pour chaque valeur de et 2

    On se ramne au cas o = 0 et 2 = 1 par changement de variable. Si X suit une loi

    normale de moyenne et de variance 2 , alors

    =

    xZ suit une loi normale de

    moyenne 0 et de variance 1, dite loi normale centre rduite.

    Exemples

    Le poids de naissance des nouveaux-ns est distribu (approximativement) selon une loi

    normale de moyenne = 3,3 kg et dcart type = 0,5 kg.

    La probabilit quun nouveau-n ait un poids X infrieur 2,5 kg est P(X2,5). Pour la

    calculer, on se ramne une loi centre rduite en considrant5,0

    3,3=

    XZ

    On a alors : )6,1()5,0

    3,35,2()5,2( =

    = ZPZPXP

    densit de probabilit

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    0 1 2 3 4 5 6

    x

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    28/118

    Polycopi de bio-statistique 22Facult de Mdecine de Montpellier-Nmes

    La table 1 de la loi normale centre rduite indique que P(Z > -1,6) = 0,945. La

    probabilit cherche est donc gale (1 0,945) = 0,055.

    V.4. INDEPENDANCE ENTRE DEUX VARIABLES ALEATOIRES

    La notion dindpendance entre deux variables est trs utilise en statistique. Sa dfinition

    prcise ncessite lexpos de notions de probabilit que nous ne prsentons pas ici .Nous

    nous contenterons dune dfinition intuitive : deux variables sont indpendantes si la

    distribution de lune ne dpend pas des valeurs de lautre. Par exemple le poids et la

    tension artrielle seraient indpendants si la distribution de la tension artrielle est la mme

    quel que soit le poids. Dun point de vue pratique, cela signifie que si lon regroupait les

    sujets dune population en sous-populations de sujets de mme poids, la distribution de la

    tension artrielle serait la mme dans toutes ces sous-populations. Ce nest videmment

    pas le cas, ce qui signifie que ces variables ne sont pas indpendantes.

    VI. QUELQUES DEFINITIONS ET EXEMPLES

    VI.1. DEFINITION DES VARIABLES

    VI.1.1.VARIABLES QUALITATIVES NON MESURABLES.

    On peut les classer selon leur proprit.Ex : sexe, couleur des cheveux, prsence ou non dune maladie.

    VI.1.2. VARIABLES QUANTITATIVES MESURABLES.

    Il existe un ordre naturel de lensemble des valeurs possibles.

    Ex : poids, taux de cholestrol, nombre denfants.

    - Continues : elles peuvent prendre toutes les valeurs situes dans un intervalle : taux de

    cholestrol/poids.

    - Discontinues ou discrtes : elles ne peuvent prendre quun nombre limit de valeurs

    (souvent entires)

    Ex : nombre denfants.

    VI.1.3.VARIABLE ORDINALE OU QUALITATIVE ORDONNEE

    Exemple :

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    29/118

    Polycopi de bio-statistique 23Facult de Mdecine de Montpellier-Nmes

    Etat de malade :

    0 = activit normale

    1 = symptme mais tat ambulatoire

    2 = alit moins de la moiti du temps

    3 = alit plus de la moiti du temps

    4 = clou au lit.

    Plus le code est lev plus ltat du malade est grave.

    VI.1.4.VARIABLE CENSUREE : la survie, variable lie au temps

    Si lon tudie la dure de vie des sujets un moment t donn, la dure de vie des sujets

    vivants t est tronque , ces sujets vivront encore aprs t pendant un temps x inconnu :on dit quil sagit de donnes censures droite (dans notre mode dcriture de gauche

    droite !).

    VI.2. DISTRIBUTION

    VI.2.1. VARIABLE QUALITATIVE. Rpartition des stades de diagnostic chez 125 malades

    atteint de leucmie.

    Stade 0 I II III IV TotalEffectif 22 29 39 21 14 125Proportion 18% 23% 31% 17% 11% 100%

    VI.2.2.VARIABLE QUANTITATIVE DISCRETE

    Rpartition de la taille des mnages sur un chantillon de 1445 mnages tunisiens

    16

    14

    12

    10

    8

    6

    4

    2

    13 1 51 197531

    % m n a g es

    Ta i l le des

    m n a g e s

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    30/118

    Polycopi de bio-statistique 24Facult de Mdecine de Montpellier-Nmes

    VI.2.3.VARIABLES QUANTITATIVES CONTINUES.

    Distribution de la glycmie jeun dans un chantillon de la population du Gouvernorat de

    Tunis.

    Glycmie Effectif % %

    < 6060-7070-8080-9090-100100-110110-120120-130130-140140-150150 et +

    1981541129699236910734181970

    0.52.315.336.528.010.43.01.00.50.52.0.

    0.52.818.154.682.693.096.097.097.598.0100

    Total 3 546 100

    VI.3. CARACTERISTIQUE DE VALEUR CENTRALE

    VI.3.1.LA MOYENNE ARITHMETIQUE :

    sur n observations : x1, x2, .. xi..xh sont les valeurs de la variable, alors n

    x

    m

    i=

    o n est la taille de lchantillon et ix la somme de toutes les valeurs observes.

    Si les observations sont regroupes en classes, alorsn

    xnm

    ii=

    o ni est le nombre de sujets pour la classe xi et xi la valeur centrale de la classe.

    VI.3.2. LA MEDIANE : cest la valeur telle que la moiti des observations lui sont

    infrieures et la moiti lui sont suprieures.

    VI.3.3.LE MODE : cest la valeur de x pour laquelle la frquence est maximale.

    histogramme des frquences

    0,00

    5,00

    10,00

    15,00

    20,00

    25,00

    30,00

    35,00

    40,00

    50 60 70 80 90 100 110 120 130 140 150

    glycmie en mg%

    frquence cumule

    0,0010,00

    20,00

    30,00

    40,00

    50,00

    60,00

    70,00

    80,00

    90,00

    100,00

    50 60 70 80 90 100 110 120 130 140 150

    glycmie en mg%

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    31/118

    Polycopi de bio-statistique 25Facult de Mdecine de Montpellier-Nmes

    VI.3.4.EXEMPLES : Moyenne et mdiane

    1er

    exemple : soit un chantillon o x = 1, 3, 4, 5, 8

    m = 4,2 Med = 4

    2e exemple : soit un chantillon o x = 1, 3, 4, 5, 24

    m = 7,4 Med = 4

    4 des 5 observations sont < x.

    Ici la moyenne nest pas un bon estimateur de la valeur centrale.

    Dans les 2 cas, la mdiane est toujours 4 mme si on ignore la valeur de la plus grande

    observation.

    Avec des distributions dissymtriques, il vaut mieux utiliser la mdiane que la moyenne.

    VI.3.5.EXEMPLE DE VARIABLE QUANTITATIVE DISCRETE

    Histogramme des lymphocytes chez 77 sujets atteints de leucmie

    m1= 123 155

    M1 = 91 908

    Mode : classe 90 000 100 000

    Si lon regroupe les valeurs extrmes en 1 seule classe, on obtient :

    m2 = 117 000

    M2= 91 908

    Nomb re de cas

    Nb Lymphocytes/103

    8

    6

    4

    2

    60 050 040 030 020 010 010

    M 1 m 1

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    32/118

    Polycopi de bio-statistique 26Facult de Mdecine de Montpellier-Nmes

    VI.3.6.COURBE DE SURVIE

    Lorsque lon veut estimer la dure de vie dun groupe o tous les sujets ne sont pas morts

    la moyenne de dure de vie ne peut tre estime car nous navons pas de valeur pour les

    sujets vivants (donnes tronques droite). On estime donc une courbe de survie en

    fonction du temps : variable lie au temps.

    On calcule un taux de survivants chaque fois que se produit un dcs ou dans un

    intervalle de temps dtermin lavance : tous les 3 6 mois

    On peut calculer le temps mdian de survie : temps au bout duquel 50 % des sujets sont

    morts, ici = 250 jours.

    Autre exemple : Dure de 1re rmission et survie chez sujet atteints de polyglobulies

    Temps mdian de rmission = 3 ans et 9 mois. 50% des sujets taient encore en rmission

    au bout de 3 ans et 9 mois.

    Pour la survie on ne peut dterminer la mdiane : survie > 50%.

    20

    40

    60

    80

    100

    Taux de survie

    .Dcsx Vivant

    Jours250 500 750 1000 1250

    X

    XX

    X

    % de malades en rmission

    Rmission

    Survie

    annes1 2 3 4 5 6 7 8 9 10

    20

    10

    100

    90

    80

    70

    60

    50

    40

    30

    Temps mdian de rmission 3 ans et 9 mois.

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    33/118

    Polycopi de bio-statistique 27Facult de Mdecine de Montpellier-Nmes

    VI.4. CARACTERISTIQUE DE DISPERSION : La variance et lcart-type

    Expression de la variance dune variable x observe sur un chantillon (somme des carrs

    des carts la moyenne) :

    2

    22)(

    )( =n

    xxmxi

    Exemple :

    Deux distributions de mme moyenne et dcart type diffrents

    Les valeurs de X loignes de la moyenne sont plus frquentes avec = 1,5 qu avec = 1.

    La population est plus variable avec = 1,5.

    Variance1

    )( 22

    =

    n

    mxs

    i et cart type 2ss =

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    -3 -2 -1 0 1 2 3

    M = 0

    = 1

    fr uenc

    0

    0,1

    0,2

    0,3

    0,4

    0,5

    -3 -2 -1 0 1 2 3

    fr uenc

    M = 0

    = 1,5

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    34/118

    Polycopi de bio-statistique 28Facult de Mdecine de Montpellier-Nmes

    RESUME

    Ltude des sciences du vivant est caractrise par la variabilit entre les individus ; elle

    traduit essentiellement la fluctuation biologique.

    Il est cependant essentiel de faire la part, dans cette variabilit, entre ces fluctuations et deseffets non dus au hasard, comme ceux des traitement par exemple. Lobjectif de la mthode

    statistique est de tirer des conclusions applicables aux populations . Toutefois la taille de

    ces populations est le plus souvent trop leve pour que des tudes exhaustives soient

    ralisables. Cest pourquoi lon travaille sur des chantillons qui doivent tre

    reprsentatifs des populations dont ils sont extraits.

    Une variable alatoire est lensemble des valeurs prises par un caractre donn dans une

    population. La valeur (exprime par une frquence ou une moyenne) dun tel caractredans la population peut tre estim partir de n chantillons tirs de la population : on

    obtient alors n valeurs de ce pourcentage qui sont numriquement diffrentes bien que

    proches : ceci exprime leffet du hasard sur le calcul du pourcentage, encore appel

    fluctuations dchantillonnage .

    Les principaux types de variables alatoires sont les suivants :

    Variable qualitative : caractrise par le pourcentage de survenue des diffrentes

    modalits.

    Variable quantitative : caractrise par sa moyenne, son cart-type, sa mdiane et

    ses percentiles.

    Moyenne :n

    xm

    i= (

    Variance1

    )( 22

    =

    n

    mxs

    i

    Ecart type

    2

    ss = Ces variables quantitatives peuvent tre continues ou transformes en variables discrtes

    par la cration de classes de valeurs.

    Variable ordinale ou qualitative ordonne

    Variable censure

    Les calculs statistiques (que ce soit estimation de paramtres ou test entre des groupes), effectus sur

    les variables tudies dans le domaine de la sant, reposent sur trois grandes lois de probabilits : la

    loi binomiale, la loi de poisson, la loi normale (la plus utilise dans la suite de ce cours). Ces lois

    associent une probabilit de survenue chaque valeur possible du caractre tudi.

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    35/118

    Polycopi de bio-statistique 29Facult de Mdecine de Montpellier-Nm

    CHAPITRE II

    INTERVALLE DE FLUCTUATION DUN

    PARAMETRE

    I. INTRODUCTION

    Ltude dun caractre donn dans une population de sujets est gnralement ralise

    partir dchantillons tirs de cette population. Toutefois il peut arriver que lon se trouve

    dans la situation inverse : on connat la valeur thorique (dans la population) du paramtre

    tudier ; lobjectif est alors de prvoir la valeur de ce paramtre dans un chantillon

    extrait de cette population. Du paramtre thorique de la population on veut dduire leparamtre observ dans un chantillon tir de cette population1.

    Exemple

    On connat la frquence dans la population franaise dune maladie infantile M qui est de

    20 % ; quelle sera la frquence de cette maladie dans un chantillon denfants, tir au

    hasard de cette population ?

    I.1. NOTION DE FLUCTUATIONS DECHANTILLONNAGE

    Soit une population P au sein de laquelle le caractre tudi a pour valeur thorique : A (ce

    caractre peut-tre une variable qualitative ou quantitative).

    Les valeurs observs sur n chantillons tirs au hasard de cette population sont : a1, a2

    .......an .

    1 Les notations diffrent entre valeurs observes et thoriques :moyenne : thorique : observe : m

    variance : thorique :

    2

    observe : s2

    cart-type : thorique : observ : spourcentage : thorique : P observ : p0

    E1 a1

    E2 a2

    En an

    E A

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    36/118

    Polycopi de bio-statistique 30Facult de Mdecine de Montpellier-Nm

    Il existe autant de valeurs de a que dchantillons extraits, mais si tous ces chantillons

    sont de taille suffisante et reprsentatifs de la population, elles sont toutes proches de A et

    les diffrences entre toutes ces valeurs sont faibles : elles tmoignent simplement des

    FLUCTUATIONS DECHANTILLONNAGE cest--dire de leffet du hasard sur le

    rsultat de chaque tirage, cest--dire sur la composition de chaque chantillon 2.

    I.2. DEFINITION DE LINTERVALLE DE FLUCTUATION3

    Donner lintervalle de fluctuation dun paramtre, cest indiquer - partir de la vraie valeur

    de ce paramtre dans la population - dans quel intervalle doit se trouver la valeur observe

    de celui-ci sur un chantillon tir au hasard de cette population.

    A partir de la valeur connue dans la population, lon parie que pour un chantillon donn,

    la valeur observe de ce paramtre si situera lintrieur des bornes de lintervalle.

    Remarque : cet intervalle ne signifie pas que la valeur observe du paramtre est toujours

    lintrieur des bornes mais seulement dans une grande proportion de cas, que lon fixe

    par avance le plus souvent 95 % (elle correspond alors au risque derreur de 5 %

    consenti par lexprimentateur : dans 5% des tirages la valeur sera lextrieur des

    bornes de lintervalle)4.

    Exemple

    Soit une maladie infantile M dont la frquence thorique dans la population est de 20 %.

    Si lon tire au hasard de cette population un chantillon de 100 sujets, la frquence

    observe de M se situera dans 95 % des cas dans lintervalle [12 % ; 28 %]

    Ceci indique autrement dit que dans 5% des cas la frquence observe sera lextrieur

    de lintervalle. Le risque que lon prend en pariant que la frquence de M est situe entre

    12 % et 28 % est donc de 5 %.

    Le calcul de cet intervalle implique que la variable que lon tudie suive une loi normale

    dans la population3. On supposera cette condition vrifie, ds lors que lon travaille sur un

    chantillon suffisamment grand, soit :

    - n 30 si lon cherche lintervalle de fluctuation dune moyenne,

    - nP, nQ 5 sil sagit dun pourcentage P (avec Q = 1 P)

    2 cf. Chapitre 1 Buts et Principes - Lois de probabilit : Urne de Bernouilli3 Encore appel Intervalle de pari 4 cf. Chapitre 3 : Thorie des tests

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    37/118

    Polycopi de bio-statistique 31Facult de Mdecine de Montpellier-Nm

    II. INTERVALLE DE FLUCTUATION DUN

    POURCENTAGE

    Lintervalle de fluctuation dpend de la taille de lchantillon :

    II.1. CAS OU LECHANTILLON EST GRAND

    Soit une population o la frquence dun caractre tudi est P et E un chantillon de taille

    n tir au hasard de cette population. La frquence observe du caractre dans lchantillon

    est p0.

    Si np0 et nq0 5 on peut dire que

    p0 est une variable alatoire qui suit une loi normale de moyenne P et de variance =

    n

    PQ

    donc que

    n

    PQ

    )pp( 0 suit une loi normale centre rduite(0, 1)5

    Cela revient crire selon la table de lcart-rduit que :

    la quantitn

    PQ

    )pp( 0

    se trouve dans lintervalle [-u ; + u] avec une probabilit (1 - )

    Prob (-u H0, soit > 171.33 cm

    Si la moyenne observe dans lchantillon vaut m0=171.60 cm, nous avons dj

    calcul la statistique 0 qui est gale 2.16 (idem que pour un test bilatral); seule va

    changer la rgle de dcision:

    Dans le cas bilatral, la rgle de dcision tait:

    Si u On rejette H0 avec un risque

    Dans le cas unilatral, la rgle de dcision devient:

    Si u On rejette H0 avec un risque /2

    Ou

    Si u2 On rejette H0 avec un risque

    Onconstate donc que pour le mme risque derreur, cest la valeur seuil qui change

    u pour un test bilatral et u2 pour un test unilatral.

    Dans notre exemple,0=2.16; on compare cette valeur la valeur u10% dans la table

    de la loi normale centre rduite, soit 1.645; 2.16 > 1.645: on rejette H0 au risque 5%.

    On constate donc quavec un test unilatral, pour le mme risque derreur , on

    rejette plus souvent H0..

    Le choix dun test bilatral ou unilatral doit toujours tre fait a priori, jamais au vu

    des rsultats. Cest la condition pour que le risque derreur reste effectivement fix

    5% et ne devienne pas gal 10%

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    62/118

    Polycopi de bio-statistique 56Facult de Mdecine de Montpellier-Nmes

    La loi normale centre rduite est tabule et nous permet donc dassocier une valeur

    seuil chaque valeur djusque l, nous avons utilis la table reprsente ci-

    dessous:

    La table donne la probabilit pour que lcart-rduit gale ou dpasse en valeur

    absolue une valeur u (chaque cellule de la table reprsente une valeur u) cest dire

    la probabilit extrieure lintervalle [-u;+u]

    0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.00 2.576 2.326 2.170 2.054 1.96 1.881 1.812 1.751 1.6950.10 1.645 1.598 1.555 1.514 1.476 1.440 1.405 1.372 1.341 1.3110.20 1.282 1.254 1.227 1.200 1.175 1.150 1.126 1.103 1.080 1.0580.30 Etc

    0.40 0.500.600.700.800.90

    Certains auteurs utilisent la table qui donne la probabilit pour que lcart-rduit

    gale ou dpasse une valeur z cest dire la probabilit extrieure de lintervalle [+u;

    +[ ; cette table figure ci-dessous.

    /2/2

    /2/2

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    63/118

    Polycopi de bio-statistique 57Facult de Mdecine de Montpellier-Nmes

    0.00 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 0.05 Etc 0.095

    0.00 2.576 2.326 2.170 2.054 1.960 1.881 1.812 1.751 1.695 1.645 ..0.10 1.282 Etc

    0.20 0.842

    0.30

    0.40

    0.50

    0.60

    0.70

    0.80

    0.90

    La 2me table contient deux fois plus de colonnes car elle permet dobtenir les valeurs

    seuils de 0.5% en 0.5%.

    Remarque: la notation u est utilise pour les valeurs la table bilatrale, la notation zest utilise pour les valeurs de la table unilatrale.

    Ces deux tables figurent intgralement en annexe de ce document.

    La loi centre rduite a servi de base la prsentation dans ce chapitre du principe

    des tests dhypothse, prenant comme exemples la comparaison dune moyenne

    observe une moyenne thorique et la comparaison de deux frquences observes

    dans le cas de grands chantillons; d autres lois prsentes dans le chapitre sur les

    lois de probabilit sont adaptes dautres types de problmes : loi de Student, loi du

    2, loi de Fisher

    Les chapitres suivants vont dtailler les types de test adapts chaque problme

    biostatistique pos; la rsolution de chaque type de problme sappuie sur ce principe

    gnral des tests dhypothse.

    REFERENCES BIBLIOGRAPHIQUES

    Bouyer J.: Mthodes statistiques Mdecine Biologie. Editions INSERM 1996.

    Daurs J.P.: Probabilits et statistiques en Mdecine. Sauramps mdical 1993.

    Falissard B.: Les statistiques dans les sciences de la vie. Masson diteur 1996.

    Valleron A.J.: Introduction la biostatistique. Masson diteur 1998.

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    64/118

    Polycopi de bio-statistique 58Facult de Mdecine de Montpellier-Nmes

    CHAPITRE V

    VARIABLES QUALITATIVES :

    COMPARAISON DE POURCENTAGES

    TEST DU CHI DEUX

    En mdecine, l'analyse de variables qualitatives, en particulier sous la forme d'un caractre

    deux classes (malade ou non, gurit ou non, complication prsente ou absente, dcd ou

    non), est trs frquente.

    Exemples :

    Le pourcentage de patients guris (taux de gurison) aprs administration du traitement A

    est-il meilleur que celui obtenu aprs administration du traitement B ?

    Le pourcentage de complications varie t-il en fonction du mode dintervention

    chirurgicale, clioscopie ou laparotomie, pour une pathologie donne ?

    Comme dans les exemples cits, il s'agit, le plus souvent, de comparer des pourcentages

    observs dans deux ou plusieurs chantillons. Mais, il n'est pas rare d'avoir comparer unpourcentage observ une valeur de rfrence.

    I. COMPARAISON DE DEUX POURCENTAGES - TEST DE

    LECART REDUIT

    I.1. COMPARAISON DUN POURCENTAGE OBSERVE A UN POURCENTAGETHEORIQUE

    Exemple :

    La proportion considre comme habituelle de nouveau-ns prmaturs dans la population

    considre est de 4%. Parmi les 170 femmes de plus de 35 ans ayant accouch dans une

    maternit donne, on observe 16 naissances prmatures (soit 9,4%). Ce chiffre est-il

    diffrent de sa valeur dans la population ?

    Le problme pos est le suivant : On observe un pourcentage p0 (9,4%) sur un chantillon

    et on veut savoir sil diffre dune valeur de rfrence connue dans la population que nous

    noterons PH0 et qui vaut ici 4%.

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    65/118

    Polycopi de bio-statistique 59Facult de Mdecine de Montpellier-Nmes

    Autrement dit, lchantillon est-il reprsentatif de la population de rfrence dans laquelle

    la frquence thorique P du caractre prmatur est gale PH0 ?

    La valeur observe sur lchantillon (9,4%) est-elle compatible avec les

    fluctuations dchantillonnage autour de la valeur PH0 = 4% ou la diffrence entre 9,4% et

    4% est-elle trop leve pour tre due au hasard ?

    Pour rpondre cette question, nous allons effectuer le test de l'cart-rduit.

    Premire tape du test : spcifier lhypothse nulle H0 et lhypothse alternative H1.

    H0:Lchantillon est reprsentatif dune population de rfrence dans laquelle le

    caractre tudi a une frquence thorique P= PH0

    H1:

    9 Test bilatral: P PH0 dans lchantillon le taux de prmatur diffre de celui de la

    population (aucune hypothse particulire ne peut tre faite a priori sur le sens de cette

    diffrence)

    9 Test unilatral: P> PH0 ou P< PH0 (la population des femmes de plus de 35 ans est

    connue pour avoir un taux de prmaturit suprieur ou infrieur la population

    gnrale)

    NB: Les hypothses portent toujours sur la valeur du pourcentage dans la population

    (valeur thorique) et non pas sur une valeur observe.

    Sous H0, si n est assez grand, en pratique si n PH0 et n(1 - PH0) 5, on peut alors

    assimiler :

    la distribution de la variable alatoire P0, pourcentage observ sur un chantillon,

    une loi de Laplace Gauss de moyenne PH0 et dcart typen

    )P1(P 0H0H (p0 peut

    prendre toutes les valeurs entre 0 et 100% mais sera plus frquemment proche

    quloign de PH0) ou encore,

    n

    )P1(P

    Pp

    0H0H

    0H0

    =

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    66/118

    Polycopi de bio-statistique 60Facult de Mdecine de Montpellier-Nmes

    la distribution de la variable centre rduite, appele cart rduit , suit une loi de

    LG(0,1) :

    Sous cette distribution, cette quantit ne dpasse 1,96 en valeur absolue que dans 5% des

    cas.

    Deuxime tape : Vrifier les conditions de validit du test (n PH0 et n(1- PH0) 5).

    Troisime tape : Confronter les valeurs observes aux valeurs attendues sous H0 en

    calculant lcart rduit :

    n

    )P1(P

    Pp

    0H0H

    0H0

    =

    |p0- PH0| est lcart effectivement observ entre le pourcentage observ dans l'chantillon et

    la valeur thorique connue.

    La lecture de la table de la loi de L.G., permet de trouver la probabilit que la valeur soit

    suprieure ou gale la valeur absolue de lcart rduit observ :

    Si cette probabilit est petite, on peut dire que la diffrence |p0- PH0| est un vnement peu

    probable sous lhypothse nulle.

    On ne rejette pas H0 si le degr de signification (probabilit lue dans la table,

    caractristique dun chantillon donn) est suprieur au seuil de probabilit choisi (en

    gnral 5%) et on rejette H0 dans le cas contraire.

    Reprenons lexemple :

    PH0=4% n=170 p0=9,4%

    Hypothses :

    H0: Lchantillon est reprsentatif dune population dans laquelle le caractre tudi

    a une frquence thorique P=0,04

    H1: P0,04 ( test bilatral)

    Probabilit (| |

    n

    )P1(P

    Pp

    0H0H

    0H0

    /H0)

  • 7/30/2019 Polycop Biostat Tome 1 Methodes Statistiques

    67/118

    Polycopi de bio-statistique 61Facult de Mdecine de Montpellier-Nmes

    Conditions de validit :

    1700,04=6,8 et 1700,96=163,2 sont suprieurs ou gaux 5.