Biostatistique 2e éd. revue et corrigée (Leseprobe)
Transcript of Biostatistique 2e éd. revue et corrigée (Leseprobe)
Problème du chapitre
1
Introduction
Que pouvons‑nous apprendre de cette enquête de santé ?
USA Todayaréaliséuneenquêtedesantéquiremplissait3/4depagedansundesesnuméros.Ondemandaitauxlecteursde« prendreunmomentpourrempliretrenvoyerleformulaire ».Leslecteurspouvaientenvoyerleursréponsesparcourrierélectroniqueouparfax.Lapremièrequestiondemandaitcombiendefoisilsvoyaientunmédecinparan.Lasecondelesinterrogeaitsurunbilandesantépourl’annéepasséeincluantgrippe,fièvre,hémorroïdesetverrues.Laplupartdesquestionstraitaientdeconditionsdesanté,d’usagedutabacetdemédicaments.Laquestion17était :« Pouvons-nousvouscontacterpourparticiperàd’autresenquêtesdeUSA Today ? ».Leslecteursquiyrépondaientpositivementdevaientalorsfournirleuradresse,leur(s)numéro(s)detéléphoneetleuradresse-mail.Considéronslafaçondontlesdonnéessontcollectéesdanscetteenquête.Enquoicelaaffecte-t-ilnosconclusionsquantàlapopulationgénéralesionsebasesurlesrésultatsobtenusàpartirdecegenred’enquête?Pouvons-nousutiliserlesnombresdevisiteschezlesmédecinsfournispourestimerlenombredevisitesdanslapopulationgénérale?Lesréponsesàdetellesques-tionssontvitalespourl’évaluationdesrésultatsdetellesenquêtes.Lesujetquiestabordéiciestlepointleplusimportantdetoutcechapitreetcepourraitbienêtrelepointleplusimportantdel’ensembledecelivre.Danscechapitrenousallonsnousintéresseràlavaliditédetellesenquêtes.Nousverronsquenouspouvonssouventtirerdesconclusionsimportantesàpartirdesimplesrèglesdebonsens.Aprèsavoirlucechapitre,vousdevriezêtrecapablesd’identifierlespointsclésquiaffectentlavaliditédel’enquêteprécédenteetvousdevriezavoirunebonnecompréhensiondesméthodesdecollectedesdonnéesengénéral.
L’état des statistiques
Le mot statistiques est dérivé du mot latin status (qui signifie « état »). Des usages très précoces des statistiques se retrouvent dans la compilation de données et de graphiques décrivant divers aspects d’un pays ou d’une région. En 1662, John Graunt a publié des informations statistiques sur les naissances et les décès. Le travail de Graunt fut suivi par des études sur la mortalité, les taux de maladies, les tailles de populations, les revenus et les taux de chômage. Les foyers, les gouvernements et le monde du travail s’appuient fortement sur les statistiques pour se guider. Par exemple, les taux de chômage ou d’infla-tion, les indices de consommation sont soigneusement compilés de façon régulière et les données qui en résultent sont utilisées par les chefs d’entreprise pour prendre des déci-sions qui affectent les achats futurs, les niveaux de production et l’expansion vers de nouveaux marchés.
1
Bioststatistiques-Livre.indb 1 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
2In
trod
uct
ion
I.1 Aperçu généralLeproblèmeintroductifdelapageprécédentemettaitenjeuuneenquêtequiestl’undesnom-breuxoutilsdecollectedesdonnées.Unbutcourantd’uneenquêteestdecollecterdesdonnéesprovenantd’unepetitepartied’unplusgrandgroupedefaçonàapprendrequelquechosesurcegrandgroupe.C’estunobjectifimportantdesstatistiques:connaîtreungrandgroupeenexami-nantlesdonnéesconcernantquelques-unsdesesmembres.Danscecontexte,lestermeséchantillonetpopulationdeviennentimportants.Lesdéfinitionsformellespourcestermesetpourd’autrestoutaussifondamentauxsontdonnéesici.
Lesdonnéessontdesobservations(commedesmesures, lesexe,desréponsesauxenquêtes)quiontétécollectées.Lesstatistiquessontunecollectiondeméthodespourorganiserdesexpériences,pour
obtenirlesdonnéesetlesorganiser,lesrésumer,lesanalyser,lesinterpréterettirerdesconclu-sionsbaséessurcesdonnées.Unepopulationestlacollectioncomplètedetelséléments(scores,personnes,mesures,etc.)àétudier.Lacollectionestcomplètedanslesensoùellecontienttouslessujetsàétudier.Unrecensementestlacollectiondesdonnéesdetouslesmembresdelapopulation.Unéchantillonestunesous-collectiondemembressélectionnésd’unepartiedelapopulation.
Parexemple,unsondageReuters/Zogbyademandéà1 000adultesaméricainss’ilscroyaientquelavieexistaitailleursdansl’univers.Les1 000sujetsconstituentun échantillon,alorsquelapopulationconsisteenlacollectionentièredes202682345adultesaméricains.Tousles10 ans,legouvernementdesÉtats-Unistented’obtenirunrecensementdechaquecitoyenmaiscelaéchoueparcequ’ilestimpossibledecontactertoutlemonde.
Unepréoccupation importantedece livreestdedémontrercommentonpeututiliser lesdonnéesd’échantillonpourtirerdesconclusionssurlespopulations.Nousverronsqu’ilestvitald’obtenirdesdonnéesd’échantillonqui sont représentativesde lapopulationdontelles sontextraites.Aufuretàmesuredecechapitrenousnousfocaliseronssurlesconceptscléssuivants :
–les données d’échantillon doivent être collectées de façon appropriée, par exemple par un procédé de sélection aléatoire ;
– si les données d’échantillon ne sont pas collectées de façon appropriée, les données peuvent être si complètement inutiles qu’aucune torture statistique ne pourra les sauver.
I.2 Types de données
DanslasectionI.1nousavonsdéfinilestermesdepopulationetd’échantillon.Lesdeuxtermessuivantssontutiliséspourdistinguerlescasoùonadesdonnéespourlapopulationentièredeceuxoùonadesdonnéespourl’échantillonseulement.
Unparamètreestunemesurequidécritunecaractéristiqued’unepopulation.
Unestatistiqueestunemesurequidécritunecaractéristiqued’unéchantillon.
ExEmplEs
1.Paramètre :onremplitunlacartificielavec500truitespouruntotalde950 kg.Si on diviselepoidstotalparlenombredetruites,onobtientunemoyennede1,9 kg.
Bioststatistiques-Livre.indb 2 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
3
I.2
Types
de
don
née
s
Sionconsidèrequelacollectiondes500truitesreprésentelapopulationdulac,alors1,9 kgestunparamètre,nonunestatistique.
2.Statistique :àpartird’unéchantillonde877directeursenquêtés,ilapparaîtque45 %d’entreeuxn’embaucheraientpasquelqu’unquifaitunefautetypographiquedanssademanded’em-bauche.Cechiffrede45 %estunestatistiqueparcequ’ilestbasésurunéchantillon,etnonsurlapopulationtotaledetouslesdirecteurs.
Certainesdonnéessontconstituéesdenombres(commedestaillesde168cmou183cm)alorsqued’autressontnonnumériques(commelacouleurdesyeux,bleuoumarron).Lestermesdedonnées quantitativesetdonnées qualitativessontsouventutiliséspourdistinguercestypesdedonnées.
Lesdonnées quantitativessontdesnombresquireprésententdescomptagesoudesmesures.
Les données qualitatives (ou catégorielles) peuvent être réparties en différentescatégoriesquisontrepéréespardescaractéristiquesnonnumériques.
ExEmplE
1.Données quantitatives :lepoidsdesdauphins.
2.Données qualitatives :lesexe(mâle/femelle)desours.
Quandontravailleavecdesdonnéesquantitativesilestimportantd’utiliserlabonneunitédemesurecommeleseuros,lesheures,lesmètres,etc.Ondoitêtreparticulièrementattentifquandonlitdesréférencescomme« touslesmontantssonten milliers d’euros »ou« l’unitéestlekilo-gramme ».Ignorerdetellesunitésdemesurepeutameneràdefaussesconclusions.LaNASAaperdusonmoduleMarsOrbiteretses125millionsdedollarsquandils’estécraséparcequelelogicieldecontrôlegéraitl’accélérationavecdesunitésanglaisesàlaplaced’unitésmétriques.
Onpeutdeplusdécrirelesdonnéesquantitativesendistinguantcellesquisontdetypediscretdecellesquisontdetypecontinu.
Onparlededonnées discrèteslorsquelenombrepossibledevaleursestsoitfinisoitdénombrable(c’est-à-direquelenombredevaleursest0ou1ou2etainsidesuite).
Onparlededonnées continueslorsqu’onaunnombreinfinidevaleurspossiblesquicorrespondentàuneéchellecontinuedevaleursouuneétenduedevaleurssans« trou »,« interruption »ou« saut ».
ExEmplE
1.Données discrètes :lenombred’œufsponduspardespoulesestdiscretparcequ’ilcorrespondàuncomptage.
2.Données continues:lesvolumesdelaitproduitsparlesvachessontcontinusparcequecesontdesmesuresquipeuventprendren’importequellevaleurdansunintervallecontinu.Pendantunintervalledetempsdonné,unevachepeutfournirunequantitédelaitquipeutprendren’im-portequellevaleurentre0et20litres.Ilestpossibled’obtenir2,343 115litresparcequelavachen’estpasrestreinteauxvaleursdiscrètesde0,1,2,3...litres.
Bioststatistiques-Livre.indb 3 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
4In
trod
uct
ion
Uneautrefaçoncourantedeclasserlesdonnéesestd’utiliser4niveauxdemesure:nominal,ordinal,intervalleetrapport.Quandonappliquelesstatistiquesàdesproblèmesréels,lesniveauxdemesuredesdonnéessontunfacteurimportantpourdéterminerquelleprocédureutiliser.Ilyauraquelquesréférencesàcesniveauxdemesuredanscelivremaislepointimportanticisebasesurlebonsens:nefaitespasdecalculsetn’utilisezpasdeméthodesstatistiquesavecdesdonnéesinappropriées.Parexemple,celan’auraitaucunsensdecalculerlamoyennedenumérosdesécu-ritésocialeparcequecesnumérossontdesdonnéesutiliséespourl’identificationetqu’ilsnereprésententpasdesmesuresoudescomptagesdequoiquecesoit.Pourlesmêmesraisons,celan’auraitaucunsensdecalculerlamoyennedesnumérosd’identificationdespigeonsvoyageurs.
Leniveau nominal de mesureestcaractérisépardesdonnéesquiconsistentennoms,labelsoucatégoriesseulement.Lesdonnéesnepeuventpasêtrearrangéessuivantunordre(commeduplusgrandaupluspetit).
ExEmplEs
1. Oui/non/ne sait pas :commelesréponsesàuneenquête.
2. Couleurs :lacouleurdespois(vert,jaune)utilisésdansuneexpériencedegénétique.
Parcequelesdonnéesnominalesn’ontniordrenisignificationnumérique,onnepeutpaslesutiliserpourlescalculs.Onassigneparfoisdesnombresauxdifférentescatégories,maiscesnombresn’ontaucunevaleurcalculatoireetaucunemoyennecalculéeàpartirdecesnombresn’adesens.
Lesdonnéessontauniveau ordinal de mesuresionpeutlesarrangerselonuncertainordre,sousréservequelesdifférencesentrelesvaleurssoientnondéterminéesouqu’ellessoientsanssignification.
ExEmplEs
1. Notes par grade:unenseignantdelycéeutiliselesgradesA,B,C,DouEpournoterlesélèves.Cesgradespeuventêtreordonnésmaisnousnepouvonspasdonnerdevaleurs
auxdifférencesentrelesgrades.Parexemple,noussavonsqueAestplusgrandqueB(doncilyaunordre),maisnousnepouvonspassoustraireBdeA(ainsionnepeutpastrouverdediffé-rence).
2. Rangs :surlabasedeplusieurscritères,unbiologisterangelesoursd’unerégionselonleuragressivité.Lesrangs(premier,deuxième,troisième...)définissentunordre.Cependantlesdiffé-rencesentre lesrangsnesignifientrien.Parexemple,unedifférencede« deuxièmemoinspremier »pourraitfairepenserà2–1=1maiscettedifférencede1n’apasdesensparcequecen’estpasunequantitéexactequipeutêtrecomparéeauxautresdifférencesderangs.Ladifférenceentrel’agressivitéd’unours« premier »etd’unours« deuxième »n’estpasforcémentlamêmequ’entrel’agressivitéd’unours« deuxième »etd’unours« troisième ».
Lesdonnéesordinalesfournissentdesinformationssurleurcomparaisonrelativemaispassurl’amplitudedeleursdifférences.Danslapratique,lesdonnéesordinalesnedoiventpasêtreutili-séesdansdescalculscommelamoyenne.
Bioststatistiques-Livre.indb 4 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
5
I.2
Types
de
don
née
s
Devriez-vous croire à une étude statistique ?
Dans la seconde édition de Statistical Reasoning for Everyday Life, les auteurs Jeff Bennett, William Briggs et Mario Triola listent les 8 points fondamentaux pour évaluer de façon critique une étude statistique : (1) identifier le but de l’étude, la population considérée et le type d’étude ; (2) considérer les sources, en particulier au regard d’une possibilité de biais ; (3) analyser la méthode d’échantillonnage ; (4) chercher les problèmes de définition ou de mesure des variables d’intérêt ; (5) surveiller les variables confondantes qui pourraient invalider les conclusions ; (6) considérer le cadre et la formulation de l’enquête ; (7) vérifier que les graphiques représentent fidèlement les données et que les conclusions sont justifiées ; (8) déterminer si les conclusions répondent au but de l’enquête, si elles ont du sens et si elles ont une signification pratique.
Leniveau intervalle de mesureestsemblableauniveauordinalaveclapropriétésupplémentairequeladifférenceentredeuxvaleursaunsens.Cependant,àceniveau,lesdonnéesn’ontpasdezéronaturelderéférence(pourlequelaucunequantitén’estprésente).
ExEmplEs
1. Températures :lestempératuresducorpshumaincomme36,8 °Cet37,0 °Csontdes exemplesdedonnéesauniveau intervalle.Cesvaleurs sontordonnéesetnous
pouvonsdéterminerqueleurdifférenceestde0,2 °C.Cependantiln’yapasdezéronaturelderéférence.Lavaleurde0 °Cpourraitsemblerêtreunpointderéférencemaisc’estunevaleurarbitraireetcelanereprésentepasl’absencetotaledechaleur.Parceque0 °Cn’estpasunzéronaturelderéférence,ilestfauxdedireque50°Cestdeux foispluschaudque25 °C.
2. Années d’apparition des cigales :lesannées1936,1953,1970,1987et2004(letempsn’apascommencéàl’année0,ainsil’année0estarbitraireaulieud’êtreunzéronaturelderéférencereprésentant« pasdetemps »).
Leniveau rapport de mesureestsemblableauniveauintervalleaveclapropriétésupplémentairequ’ilyaunzéronaturelderéférencepourlequelaucunequantitén’estprésente.Pourlesvaleursàceniveau,lesdifférencesetlesrapportsontunsens.
ExEmplEs
Onnoteral’utilisationdesrapports« deuxfois »et« troisfois ».
1. Poids :lespoids(enkg)desaigles(0kgreprésentel’absencedepoidset4kgestdeuxfoispluslourdque2kg).
2. Âges : lesâges(enjours)desaigles(0représenteunnouveau-nésansâgeetunaiglede60 joursesttroisfoisplusvieuxqu’unaiglede20jours).
Ce niveau de mesure est appelé le niveau rapport parce que la valeur 0 de référence donne un sens aux rapports de valeurs.Parmiles4niveauxdemesure,laplusgrandedifficultéestdedistin-guerlesniveauxintervalleetrapport.Indication :pourfacilitercettedistinction,utilisezunsimple
Bioststatistiques-Livre.indb 5 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
6In
trod
uct
ion
« testderapport ».Considérezdeuxquantitésoùl’uneestledoubledel’autreetdemandez-voussi« deuxfois »peutêtreutilisépourdécrirecorrectementlesquantités.Parceque4kgestdeuxfoispluslourdque2kget50 °Cn’estpasdeuxfoispluschaudque25 °C,lespoidssontauniveaurapportalorsquelestempératuressontauniveauintervalle.Pourunecomparaisonconciseetunevisiongénérale,étudiezletableau1-1pourvisualiserlesdifférencesentreles4 niveauxdemesure.
Tableau 1‑1 Niveauxdemesurededonnées
Niveau Résumé Exemple Remarque
Nominal Catégoriesseulement.Lesdonnéesnepeuventpasêtreordonnées.
Étatsoùonarencontrédesours :5NewYork20Idaho40Wyoming
Catégoriesounomsseulement.
Ordinal Lescatégoriessontordonnéesmaislesdifférencesn’ontpasdesens.
Lesoursselonleuragressivité :5nonagressifs20unpeuagressifs40fortementagressifs
Unordreestdéterminépar« non »,« unpeu »,« fortement ».
Intervalle Lesdifférencesontunsensmaisiln’yapasdezéronaturelderéférenceetlesrapportsn’ontpasdesens.
Latempératuredelatanièredesours :–15 °C–7 °C4 °C
0 °Cnesignifiepas« pasdechaleur ».40 °Cn’estpasdeuxfoispluschaudque20 °C.
Rapport Ilyunzéronaturelderéférenceetlesrapportsontunsens.
Ladistancedemigrationdesours :8km32km64km
60kmestdeuxfoispluslongque30km.
1.2
Ex
erc
ice
s Dans les exercices 1 et 2, déterminez si la valeur donnée est une statistique ou un paramètre.
1. Dansuneétudeducomportementdesoiesprèsd’unaéroport,unéchantillonaléatoired’oiescana-diennesincluait12mâles.
2.Dansuneétudeonattachedesaltimètresindividuelsàdesoiseaux(frégates)etl’altitudemoyenneestde226m.
Dans les exercices 3 et 4, déterminez si les données sont discrètes ou continues.3. Dansuneétudesurdesoiseauxdel’îleBuldirenAlaska,312kittiwakesàpattesrougesadultesont
étébagués.4.Dansuneenquêtesur1 059adultes,ontrouveque39 %d’entreeuxontdesarmesàlamaison(à
partird’uneenquêteGallup).
Dans les exercices 5 à 8, déterminez quel niveau de mesure est le plus approprié.5.Lalongueurdescolibris.6.Latempératurecorporelledesgruesdessables.7.LesgroupessanguinsA,B,ABetO.8.Lenombredelamantinstuésparlesbateauxdansles10dernièresannées.
Dans les exercices 9 et 10, identifiez (a) l’échantillon et (b) la population. Déterminez aussi si l’échan-tillon peut être représentatif de la population.
9.Unebiologistemarincapturedestruitesarc-en-cieldansunfiletetlespèse.10.DansuneenquêteGallupsur1 059adultessélectionnésaléatoirement,39 %ontrépondu« oui »
quandonleurademandé« Avez-vousunearmeàlamaison? ».
Bioststatistiques-Livre.indb 6 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
7
I.3
Pla
ns
d’e
xpér
ien
ces
I.3 Plans d’expériences
Unebonneutilisationdesstatistiquesrequierttypiquementplusdebon sensqued’expertisemathé-matique(malgrélaremarquedeVoltairedisantque« lesenscommunn’estpassicommunquecela »).Commenousdisposonsdecalculatricesetd’ordinateurs,lesapplicationsmodernesdesstatistiquesnenousdemandentplusdemaîtriserdesalgorithmescomplexespour lescalculsmathématiques.Àlaplace,nouspouvonsnousfocalisersurl’interprétationdesdonnéesetdesrésultats.Àproposd’unexempleextrêmementimportantquiillustrelerôledubonsens,consi-dérezladéfinitionsuivante.
Unéchantillon de réponses volontairesestunéchantillondanslequellespersonnesinterrogéesdécidentelles-mêmessiondoitlesincluredansl’étude.
Pourunbonexempled’échantillonderéponsesvolontaires,voyezleproblèmeintroductifdecechapitre.Quanddesindividusdécidenteux-mêmesdeparticiper,ilarrivesouventquelesgensavecde forts intérêtsoudesopinionsmarquées soientplus enclins àparticiper etque lesréponsesnesoientpasreprésentativesdelapopulationgénérale.Celasuggèrequelesenquêtesparcourrier,parfax,surleWebetpartéléphonesontfausséesdanslesensoùonnepeutpastirerdeconclusionssurlapopulationàpartirdetelséchantillonsbiaisés.Pourunéchantillonderéponsesvolontaires,lesseulesconclusionssontcellessurlegroupespécifiquedepersonnesquiontchoisiderépondre,maisunepratiquecouranteestd’énonceroudesous-entendredesconclusionssurunepopulationpluslarge.D’unpointdevuestatistique,unteléchantillonestfaussépardéfinitionetnedevraitpasêtreutilisépourénoncerdesfaitsgénérauxsurunepopu-lationpluslarge.Cetexemplenousamèneàunprincipeplusgénéralquiestabsolumentvitalpourtoutlelivre:si les données de l’échantillon ne sont pas collectées de façon appropriée, les données risquent d’être inutiles au point que nulle torture statistique ne pourra les sauver.
Lesméthodesstatistiquessontdépendantesdesdonnées.Onobtientclassiquementdesdonnéesàpartirdedeuxsourcesdistinctes :lesétudes observationnellesetlesétudes expérimentales.
Dansuneétude observationnelle,onobserveetonmesuredescaractéristiquesspéci-fiquesmaisonn’essaiepasdemodifierlessujetsdel’étude.
Dansuneétude expérimentale,onappliqueuncertaintraitementetonpasseensuiteàl’observationdesoneffetsurlessujets.
Unsondagedel’INSEEestunbonexempled’étudeobservationnelle.Unbonexempled’étudeexpérimentaleestceluid’unessai cliniqueoùuneexpérienceestplanifiéeetorganiséeavecungroupe traitement(danslequelondonneuntraitementspécialauxsujets)etungroupe contrôle(pourlequellessujetsnereçoiventaucuntraitementouunplacebo).DesmédicamentscommeleLipitorsonttestésviadetelsessaiscliniques.Lesondagedel’INSEEestobservationneldanslamesureoùonobserveseulementlesgens(souventpardesinterviews)sanslesmodifierdequelquefaçonquecesoit.Maisl’essaicliniqueduLipitorimpliquedetraiterlespersonnesaveccemédi-cament,donclespersonnestraitéessontmodifiées(etcellesdugroupecontrôlepeuventaussiêtremodifiées).Ilyadifférentstypesd’étudesobservationnellescommelemontrelafigure1.1.Lestermesemployés,souventutilisésdanslesjournauxspécialisés,sontdéfinisci-dessous.
Bioststatistiques-Livre.indb 7 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
8In
trod
uct
ion Dansuneétude transversale,lesdonnéessontobservées,mesuréesetcollectéesàun
instantdonné.
Dansuneétude rétrospective (oucas témoins),lesdonnéessontcollectéesdanslepassé(enrelisantdesexamensmédicaux,desinterviews...).
Dansuneétude prospective(ou longitudinaleoudecohorte), lesdonnéessontcollectéesdansdesgroupesfuturs(nomméscohortes)partageantdesfacteurscommuns.
Essais cliniques contre études observationnelles
Dans un article du New York Times sur une thérapie par hormone pour les femmes, la reporter Denise Grady a écrit un rapport sur les traitements testés dans les essais contrô-lés randomisés. Elle établissait que « de tels essais, dans lesquels on affecte au hasard à un patient un traitement ou un placebo, sont considérés comme le gold standard en recherche médicale. Au contraire, les études observationnelles dans lesquelles les patients décident eux-mêmes de prendre un médicament sont considérées comme moins fiables. Les chercheurs disent que les études observationnelles peuvent avoir donné une image faussement « rose » de l’hormone de remplacement parce que les femmes qui ont opté pour le traitement étaient en meilleure santé et avaient de meilleures habitudes de vie que celles qui ne l’ont pas choisi.
Figure 1.1 Éléments d’études statistiques
Ilyaunedifférenceimportanteentreleséchantillonsobtenusdanslesétudesrétrospectivesetprospectives.Danslesétudesrétrospectives,onrevientdansletempspourcollecterlesdonnéessurlesvariablesd’intérêt.Parexemple,l’étuderétrospectived’unemaladiepeuttravailleràrecu-lonspourdéterminerquellesconditionspourraientêtreliéesàlamaladie.Unetelleétuderequiertdessujetsmaladesetd’autressains,pourqueleseffetspuissentêtreliésauxconditionsantérieures.
Bioststatistiques-Livre.indb 8 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
9
I.3
Pla
ns
d’e
xpér
ien
ces
Dansundeseslivres,DavidSalsburgcitelecasd’uneétuderétrospectivequimontraitquedesédulcorantsartificielsétaientliésaucancerdelavessie.Cependantlaplupartdessujetsmaladesvenaientdesclasseséconomiquementfaiblesalorsquelaplupartdessujetsnonmaladesvenaientdesclasseséconomiquementsupérieures.Enconséquence,lesdeuxgroupesn’étaientpascompa-rablesetcetteétuderétrospectiveétaitfaussée.
Danslesétudesprospectives,nousavançonsdansletempsensuivantdesgroupessoumisàdeseffetsd’unfacteurpotentieletd’autres,nonsoumisàdetelseffets,commeungroupedeconducteursquiutilisentdestéléphonesportablesetungroupequin’enutilisepas.
Lestroisdéfinitionsprécédentess’appliquentauxétudesobservationnelles,maisnousallonsmaintenantnousintéresserauxétudesexpérimentales.Lesrésultatsdesexpériencessontparfoisfausséesàcausedelaconfusion.
Laconfusionsurvientquanddeseffetsdevariablessontmélangésetqueleseffetsindividuelsdesvariablesnepeuventpasêtreidentifiés(c’est-à-direquelaconfusionestfondamentalementlaconfusiondeseffetsdesvariables).
Essayez d’organiser vos expériences afin d’éviter la confusion.
Parexemple,supposonsquenoustraitions1 000personnesavecunvaccinprévupourprévenirlamaladiedeLymecauséeparlestiques.Siunfroidprécocefaithibernerlestiquesetqueles1 000sujetsvaccinésmontrentenconséquenceunefaibleincidencedelamaladiedeLyme,nousnepouvonspassavoirsilabaissedutauxdemaladieestlerésultatdel’actionduvaccinoudelasurvenueprécocedufroid.Laconfusionestapparueparcequeleseffetsdutraitementparlevaccinet leseffetsdufroidsontmélangés.Unemeilleureplanificationexpérimentaledevraitmieuxprendreencomptel’effetduvaccinetl’actiondufroidpourqueleurseffetsrespectifssoientidentifiésetcontrôlés.
Contrôler les effets des variables
Lafigure1.1montrequ’undesélémentsclésdanslaconceptiondesexpériencesestdecontrôlerleseffetsdesvariables.Onpeutobtenircecontrôleavecdestechniquescommel’insu,lesblocs,uneétudecomplètementrandomisée,ouuneétudeexpérimentalerigoureusementcontrôléedontladescriptionsuit.
Insu En1954,uneétudedemassefutorganiséepour tester l’efficacitéduvaccinSalkpourprévenirlapolioquiparalysaitoutuaitdesmilliersd’enfants.Danscetteétude,ungroupetrai-tementreçutlevaccinSalkalorsqu’unsecondgrouperecevaitunplaceboquinecontenaitaucunvaccin.Danslesétudesmettantenjeulesplacebos,ilyasouventuneffet placeboquiapparaîtquandunsujetmontreuneaméliorationdessymptômes(l’améliorationrapportéedanslegroupeplacebopeutêtreréelleouimaginée).Ceteffetplacebopeutêtreminimiséoucomptabiliséàtraverslatechniqued’insu(oud’aveugle),techniqueoùlesujetnesaitpass’ilreçoituntraitementouunplacebo.L’insunouspermetdedéterminersi l’effetdutraitementestsignificativementdifférentdel’effetplacebo.Dansuneétudesimple aveugle,lessujetsnesaventpass’ilsreçoiventuntraitementouunplacebo.L’étudepolioétaitendouble aveugle,cequisignifiequ’ilyavaitdeuxniveauxd’aveuglement:(1)lesenfantsnesavaientpass’ilsrecevaientlevaccinSalkouunplaceboet(2)lesmédecinsquifaisaientlesinjectionsetévaluaientlesrésultatsnelesavaientpaseux-mêmes.
Bioststatistiques-Livre.indb 9 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
10In
trod
uct
ion
Blocs Quandonorganiseuneétudeexpérimentalepourtesterl’efficacitéd’unouplusieurstrai-tements, ilest importantdemettrelessujets(appeléssouventunitésexpérimentales)dansdesgroupesdifférents(oublocs)defaçonàcequecesgroupessoienttrèssimilaires.Unblocestungroupedesujetsquisontconnus(avantl’étude)pourêtresimilairesencequiconcernelerésultatdel’expérimentation.
Quand on mène une expérimentation où on teste un ou plusieurs traitements, il faut former des blocs (ou groupes) de sujets possédant des caractéristiques similaires.
Randomisation
Quandonaffectedessujetsàdestraitements,ilestd’usaged’utiliserunesélectionaléatoire.Uneapprocheestd’utiliserunplan complètement randomiséoùchaquetraitementestassignéauxsujetsà l’aided’unprocessusd’assignationcomplètementaléatoire.Envoiciunexemple :onrépartitdesenfantsdansungroupetraitementoudansungroupeplaceboenfonctiondulancerd’unepiècedemonnaie.Dansuneétude randomisée par blocs,oncommenceparformerdesblocspourquedanschaquebloclessujetsaientdescaractéristiquessimilaireset,ensuite,onappliqueunerandomisationpouraffecterséparémentauxsujetslestraitementsàl’intérieurdechaquebloc.Voiciunexempled’étuderandomiséeparblocs :onformeunblocd’hommesetunblocdefemmes,puispourchaquebloconlanceunepiècepourdéciderdedonnerunvaccinouunplacebo.Uneétudecomplètementrandomiséen’apasderestrictionsurlarandomisation,alorsqu’uneétuderandomiséeparblocsn’apasderestrictionsur larandomisationàl’intérieurdechaquebloc.Silevaccinaffectedifféremmentleshommesetlesfemmes,l’étuderandomiséeparblocsadeplusgrandeschancesd’identifiercettedifférence.
Répétition et taille d’échantillon
Enplusdecontrôlerleseffetsdesvariables,unautreélémentclédesétudesexpérimentalesestla taille des échantillons. Les échantillons devraient être suffisamment grands pour qu’uncomportementerratiquequiestcaractéristiquedespetitséchantillonsnemasquepasleseffetsréelsdesdifférentstraitements.Larépétitiond’uneexpérienceestappeléeréplicationetelleestutiliséeeffectivementquandonaassezdesujetspourdistinguerdesdifférencesentrelesdiverstraitements(dansunautrecontexte,laréplicationcorrespondàlarépétitionouduplicationdel’expériencepourquelesrésultatspuissentêtreconfirmésouvérifiés).Aveclaréplication,lesgrandes taillesd’échantillonaugmentent leschancesdereconnaître leseffetsdesdifférentstraitements.Cependantungrandéchantillonn’estpasforcémentunbonéchantillon.Bienqu’ilsoitimportantd’avoirunéchantillonsuffisammentgrand,ilestplusimportantd’avoirunéchan-tillondans lequel lesdonnéesontétéchoisiesdefaçonappropriée,commeaveclasélectionaléatoire(décriteci-dessous).
Utilisez une taille d’échantillon suffisamment grande pour identifier la vraie nature de n’importe quel effet et obtenez les données avec une méthode appropriée.
Dansl’étudeconçuepourtesterlevaccinSalk,200 000enfantsontreçulevaccinet200 000autresontreçuunplacebo.Parcequel’expérienceautiliséunetailled’échantillonsuffisammentgrande,l’efficacitéduvaccinaputêtremiseenévidence.Néanmoins,mêmesilesgroupestrai-tementetplaceboavaientétésuffisammentgrands,l’étudeauraitétéunéchecsilessujetsn’avaientpasétéaffectésàcesdeuxgroupesdefaçonstatistiquementrigoureuse.
Bioststatistiques-Livre.indb 10 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
11
I.3
Pla
ns
d’e
xpér
ien
ces
Randomisation et autres stratégies d’échantillonnage
Enstatistiques,unedespireserreursestdecollecterdesdonnéesdefaçoninappropriée.Onnepeutpastropinsistersurlepointsuivant:si les données d’échantillon sont collectées de façon inappropriée, elles risquent d’être inutiles au point que nulle torture statistique ne pourra les sauver.
Plustôtdanscettesection,nousavonsvuqu’unéchantillonderéponsesvolontairesestceluipourlequellessujetsdécidenteux-mêmess’ilsdoiventrépondre.Detelséchantillonssontcourants,maisleursrésultatssontengénéraldépourvusdesenspourtirerdesinférencesvalidessuruneplusgrandepopulation.
Nousdéfinissonsmaintenantquelques-unesdesméthodescourantesd’échantillonnage.
Dansunéchantillon aléatoire, lesmembresd’unepopulationsontsélectionnésdetellesortequechaquemembre individuelalamêmechanced’êtresélectionné.
Unéchantillon aléatoire simpleden sujetsestchoiside telle façonquechaque échantillon possible de taillenaitlamêmechanced’êtrechoisi.
ExEmplE Échantillon aléatoire et échantillon aléatoire simple.Prenezuneclasseavec36 étudiantsdisposésen6rangéesde6étudiantschacune.Supposezqueleprofesseursélectionne6étudiantsparlelancerd’undéetensélectionnantlarangéecorrespondantaurésultatdutirage.Est-ceunéchantillonaléatoire?unéchantillonaléatoiresimple ?
solutionL’échantillonestunéchantillonaléatoireparcequechaqueétudiantalamêmechance(unesursix)d’êtresélectionné.
Cependantcen’estpasunéchantillonaléatoiresimpleparcequetousleséchantillonsdetaille6n’ontpaslamêmechanced’êtrechoisis.L’utilisationdudépoursélectionnerunerangéerendimpossibledesélectionner6étudiantsdansdesrangéesdifférentes.Ilyaunechancesursixdechoisirlesétudiantsdelapremièrerangéemaisiln’yaaucunechancedechoisirles6 étudiantsassisaupremiersiègedechaquerangée.
Important : dans tout le livre, nous utiliserons de nombreuses procédures statistiques et un pré‑requis sera d’avoir unéchantillon aléatoire simplecomme défini ci‑dessus.Avecl’échantillonnagealéatoirenousnousattendonsàcequetouteslescomposantesdelapopulationsoient(approximativement)représentéesproportionnellement.Leséchantillonsaléatoirespeuventêtresélectionnésavecdiversesméthodes,ycomprisvialetiragedenombresaléatoiresparordi-nateur(avantlesordinateurs,onutilisaitsouventdestablesdenombresaléatoires).Aucontrairedeséchantillonnagespeusoignésou« hasardeux », l’échantillonnagealéatoiredemandeuneorganisationetuneexécutionrigoureuses.
Enplusdel’échantillonnagealéatoire,ilyad’autrestechniquesd’échantillonnageenusageetnousdécrivonslespluscourantesici.Voyezlafigure1.2pouruneillustrationdesdifférentesapprochesd’échantillonnage.Gardezàl’espritqueseulsl’échantillonnagealéatoireet l’échan-tillonnagealéatoiresimpleserontutilisésdanslerestedecelivre.
Bioststatistiques-Livre.indb 11 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
12In
trod
uct
ion Dansl’échantillonnage systématique,onchoisitaléatoirementunpointdedépartet
onsélectionnechaquek-ième(parexemplechaque50e)élémentdelapopulation.
Pourunéchantillonnage opportun,oncollectesimplement les résultatsquisontfacilesàobtenir.
Avecl’échantillonnage stratifié,onsubdiviselapopulationenaumoinsdeuxsous-groupesdifférents(oustrates)quipartagentlesmêmescaractéristiques(commelesexe,laclassed’âge)etontireunéchantillondanschaquesous-groupe.
Pour l’échantillonnage en grappes, on commence par diviser la population en sections(ou grappes)etonsélectionnealéatoirementdesgrappes,puisonprendtouslesmembresdesgrappessélectionnées.
Ilestfaciledeconfondrel’échantillonnagestratifiéetl’échantillonnageengrappesparcequelesdeuximpliquentlacréationdesous-groupes.Maisl’échantillonnageengrappesutilisetouslesmembresd’unéchantillondegrappes,alorsquel’échantillonnagestratifiéutiliseunéchantillondemembresdetouteslesstrates.
Unexempled’échantillonnageengrappespeutêtreillustréparuneenquêtepré-électoraledanslaquelleonsélectionnealéatoirement30communesdansungrandnombredecommunesetoùoninterrogetouteslespersonnesdecescommunes.Cetteprocédureestbeaucoupplusrapideetbeaucoupmoinscoûteusequedesélectionnerunepersonnedechaquecommune.
Lesrésultatsd’échantillonnagesstratifiésouengrappessontsouventajustésoupondéréspourcorrigertoutedisproportiondereprésentativitédesgroupes.
Pourunetailled’échantillonfixée,sivouschoisissezaléatoirementdessujetsdesdifférentesstrates,vousrisquezd’obtenirdesrésultatsplusconsistants(etmoinsvariables)qu’ensélectionnantsimplementdefaçonaléatoiretoutelapopulation.Pourcetteraison,l’échantillonnagestratifiéestsouventutilisépourréduirelavariabilitédesrésultats.Plusieursdesméthodesdiscutéesunpeuplusloindanscelivrerequièrentquelesdonnéessoientissuesd’unéchantillonnage aléatoire simpleetnil’échantillonnagestratifiénil’échantillonnageengrappesnesatisfontcepré-requis.
Lafigure1.2illustrelescinqméthodesusuellesd’échantillonnage.Lesprofessionnelscollec-tentsouvent lesdonnéesà l’aided’unecombinaisondecescinqméthodes.Voiciunexempletypiquedecequ’onappelleunschéma d’échantillonnage multistages :d’abord,sélectionnezaléatoirementunéchantillondedépartements,puischoisissezaléatoirementdesvillesetdescommunesdanscesdépartements,puischoisissezaléatoirementdeszonesrésidentiellesdanschacunedecesvillesoucescommunes,puischoisissezaléatoirementunemaisondanschaquezoneet,enfin,choisissezaléatoirementunepersonnedanschaquemaison.Nousn’utiliseronspasuntelschémad’échantillonnagedanscelivre.Nousinsistonsànouveausurlefaitquelesméthodesdecelivreexigenttypiquementqu’ondisposed’unéchantillon aléatoire simple.
Erreurs d’échantillonnage
Quellequesoitlaqualitédelapréparationetdel’exécutiondevotreprocédédecollecte,ilyauratoujoursquelquesvariationsdanslesrésultats.Parexemple,sélectionnezaléatoirement1 000adultes,demandez-leurs’ilsontlebacetenregistrezlepourcentagederéponses« oui ».Sivoussélectionnezaléatoirement1 000autresadultes,ilestprobablequevousobtiendrezunpourcentagedifférent.
Bioststatistiques-Livre.indb 12 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
13
I.3
Pla
ns
d’e
xpér
ien
ces
Figure 1.2 Méthodes usuelles d’échantillonnage
Uneerreurd’échantillonnageestladifférenceentreunrésultatd’échantillonnageetlevrairésultatdelapopulation;unetelleerreurrésultedesfluctuationsdetiragedel’échantillon.
Uneerreur non liée à l’échantillonnagesurvientlorsquelesdonnéesd’échantillonsontincor-rectementcollectées,enregistréesouanalysées(commeensélectionnantunéchantillonbiaisé,enutilisantuninstrumentdemesuredéfectueuxouenenregistrantincorrectementlesdonnées).
Bioststatistiques-Livre.indb 13 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola
14In
trod
uct
ion
Sinouscollectonssoigneusementunéchantillonquiestreprésentatifdelapopulation,nouspouvonsutiliserlesméthodesdéveloppéesdanscelivrepouranalyserl’erreurd’échantillonnage,maisilfautêtreextrêmementsoigneuxpourqueleserreursnonliéesàl’échantillonnagesoientminimisées.
Aprèsavoirlutoutecettesection,ilestfaciled’êtreunpeuperdupartoutescesdéfinitions.Maissouvenez-vousdupointprincipal: laméthodepourcollecterlesdonnéesestabsolumentvitaleetondoitsavoirquel’aspect aléatoireestparticulièrementimportant.
1.3
Ex
erc
ice
s Dans les exercices 1 et 2, déterminez si la description fournie correspond à une étude observationnelle ou à une étude expérimentale.
1.Test de médicamentOndonneàdespatientsduLipitorpourdéterminersicemédicamentacommeeffetlabaissedutauxdecholestérol.
2. Contrôle qualitéL’Administrationfédéraleaméricainedesmédicamentssélectionnealéatoirementunéchantillondeplaquettesd’aspirineBayer.Onmesureletauxd’aspirinedanschaqueplaquettepourentesterl’exactitude.
Dans les exercices 3 et 4, identifiez le type d’étude observationnelle (transversale, rétrospective, pros-pective).
3.Recherche médicale Unchercheurdel’écoledemédecinedel’universitédeNewYorkobtientdesdonnéesconcernantdesblessuresàlatêteenexaminantdesdossiersmédicauxdel’hôpitaldescinqdernièresannées.
4. Incidence de grippeLecentredecontrôledesépidémiesobtientdesdonnéesensondantcemois-ci3 000personnes.
Dans les exercices 5 à 10, identifiez quel type d’échantillonnage est utilisé : aléatoire, systématique, opportun, stratifié ou en grappes.
5. Utilisation de l’aspirineUneétudianteenmédecineétudielaprévalencedel’aspirineeninterrogeanttouslespatientsquientrentsefairesoignerdanssaclinique.
6. Sondages téléphoniquesDansunsondageSOFRESde1 059adultes,lessujetsinterviewésétaientsélectionnésparunordinateurquigénéraitautomatiquementlesnumérosdetéléphoneàappeler.
7. Consommation étudiante d’alcool Motivépar ledécèsd’unétudiantsuiteàuneconsommationexcessived’alcool, lecollègedeNewportmèneuneenquête sur laconsommationd’alcoolpar lesétudiantsensélectionnantaléatoirement10classesdifférenteseteninterviewanttouslesétudiantsdechacunedesclassessélectionnées.
8. AlcootestUndesauteursaobservéuncontrôleautoroutierd’alcoolémieoùonarrêtaitunconducteurtoutesles5voitures.
9. Éducation et santéUnchercheurétudiel’effetdel’éducationsurlasantéetmèneuneenquêtesur150 travailleurssélectionnésaléatoirementpourchacunedecescatégories:avantlaterminale,niveauterminale,aprèslaterminale.
10. Recherche médicaleUnchercheurdel’universitéJohnHopkinsétudietouslespatientscardiaquesdanschacundes30hôpitauxsélectionnésaléatoirement.
Bioststatistiques-Livre.indb 14 10/10/12 14:35
© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola