Biostatistique 2e éd. revue et corrigée (Leseprobe)

14
Problème du chapitre 1 Introduction Que pouvons‑nous apprendre de cette enquête de santé ? USA Today a réalisé une enquête de santé qui remplissait 3/4 de page dans un de ses numéros. On demandait aux lecteurs de « prendre un moment pour remplir et renvoyer le formulaire ». Les lecteurs pouvaient envoyer leurs réponses par courrier électronique ou par fax. La première question demandait combien de fois ils voyaient un médecin par an. La seconde les interrogeait sur un bilan de santé pour l’année passée incluant grippe, fièvre, hémorroïdes et verrues. La plupart des questions traitaient de conditions de santé, d’usage du tabac et de médicaments. La question 17 était : « Pouvons-nous vous contacter pour participer à d’autres enquêtes de USA Today ? ». Les lecteurs qui y répondaient positivement devaient alors fournir leur adresse, leur(s) numéro(s) de téléphone et leur adresse-mail. Considérons la façon dont les données sont collectées dans cette enquête. En quoi cela affecte- t-il nos conclusions quant à la population générale si on se base sur les résultats obtenus à partir de ce genre d’enquête ? Pouvons-nous utiliser les nombres de visites chez les médecins fournis pour estimer le nombre de visites dans la population générale ? Les réponses à de telles ques- tions sont vitales pour l’évaluation des résultats de telles enquêtes. Le sujet qui est abordé ici est le point le plus important de tout ce chapitre et ce pourrait bien être le point le plus important de l’ensemble de ce livre. Dans ce chapitre nous allons nous intéresser à la validité de telles enquêtes. Nous verrons que nous pouvons souvent tirer des conclusions importantes à partir de simples règles de bon sens. Après avoir lu ce chapitre, vous devriez être capables d’identifier les points clés qui affectent la validité de l’enquête précédente et vous devriez avoir une bonne compréhension des méthodes de collecte des données en général. L’état des statistiques Le mot statistiques est dérivé du mot latin status (qui signifie « état »). Des usages très précoces des statistiques se retrouvent dans la compilation de données et de graphiques décrivant divers aspects d’un pays ou d’une région. En 1662, John Graunt a publié des informations statistiques sur les naissances et les décès. Le travail de Graunt fut suivi par des études sur la mortalité, les taux de maladies, les tailles de populations, les revenus et les taux de chômage. Les foyers, les gouvernements et le monde du travail s’appuient fortement sur les statistiques pour se guider. Par exemple, les taux de chômage ou d’infla- tion, les indices de consommation sont soigneusement compilés de façon régulière et les données qui en résultent sont utilisées par les chefs d’entreprise pour prendre des déci- sions qui affectent les achats futurs, les niveaux de production et l’expansion vers de nouveaux marchés. 1 © 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Transcript of Biostatistique 2e éd. revue et corrigée (Leseprobe)

Page 1: Biostatistique 2e éd. revue et corrigée (Leseprobe)

Problème du chapitre

1

Introduction

Que pouvons‑nous apprendre de cette enquête de santé ?

USA Todayaréaliséuneenquêtedesantéquiremplissait3/4depagedansundesesnuméros.Ondemandaitauxlecteursde« prendreunmomentpourrempliretrenvoyerleformulaire ».Leslecteurspouvaientenvoyerleursréponsesparcourrierélectroniqueouparfax.Lapremièrequestiondemandaitcombiendefoisilsvoyaientunmédecinparan.Lasecondelesinterrogeaitsurunbilandesantépourl’annéepasséeincluantgrippe,fièvre,hémorroïdesetverrues.Laplupartdesquestionstraitaientdeconditionsdesanté,d’usagedutabacetdemédicaments.Laquestion17était :« Pouvons-nousvouscontacterpourparticiperàd’autresenquêtesdeUSA Today ? ».Leslecteursquiyrépondaientpositivementdevaientalorsfournirleuradresse,leur(s)numéro(s)detéléphoneetleuradresse-mail.Considéronslafaçondontlesdonnéessontcollectéesdanscetteenquête.Enquoicelaaffecte-t-ilnosconclusionsquantàlapopulationgénéralesionsebasesurlesrésultatsobtenusàpartirdecegenred’enquête?Pouvons-nousutiliserlesnombresdevisiteschezlesmédecinsfournispourestimerlenombredevisitesdanslapopulationgénérale?Lesréponsesàdetellesques-tionssontvitalespourl’évaluationdesrésultatsdetellesenquêtes.Lesujetquiestabordéiciestlepointleplusimportantdetoutcechapitreetcepourraitbienêtrelepointleplusimportantdel’ensembledecelivre.Danscechapitrenousallonsnousintéresseràlavaliditédetellesenquêtes.Nousverronsquenouspouvonssouventtirerdesconclusionsimportantesàpartirdesimplesrèglesdebonsens.Aprèsavoirlucechapitre,vousdevriezêtrecapablesd’identifierlespointsclésquiaffectentlavaliditédel’enquêteprécédenteetvousdevriezavoirunebonnecompréhensiondesméthodesdecollectedesdonnéesengénéral.

L’état des statistiques

Le mot statistiques est dérivé du mot latin status (qui signifie « état »). Des usages très précoces des statistiques se retrouvent dans la compilation de données et de graphiques décrivant divers aspects d’un pays ou d’une région. En 1662, John Graunt a publié des informations statistiques sur les naissances et les décès. Le travail de Graunt fut suivi par des études sur la mortalité, les taux de maladies, les tailles de populations, les revenus et les taux de chômage. Les foyers, les gouvernements et le monde du travail s’appuient fortement sur les statistiques pour se guider. Par exemple, les taux de chômage ou d’infla-tion, les indices de consommation sont soigneusement compilés de façon régulière et les données qui en résultent sont utilisées par les chefs d’entreprise pour prendre des déci-sions qui affectent les achats futurs, les niveaux de production et l’expansion vers de nouveaux marchés.

1

Bioststatistiques-Livre.indb 1 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 2: Biostatistique 2e éd. revue et corrigée (Leseprobe)

2In

trod

uct

ion

I.1 Aperçu généralLeproblèmeintroductifdelapageprécédentemettaitenjeuuneenquêtequiestl’undesnom-breuxoutilsdecollectedesdonnées.Unbutcourantd’uneenquêteestdecollecterdesdonnéesprovenantd’unepetitepartied’unplusgrandgroupedefaçonàapprendrequelquechosesurcegrandgroupe.C’estunobjectifimportantdesstatistiques:connaîtreungrandgroupeenexami-nantlesdonnéesconcernantquelques-unsdesesmembres.Danscecontexte,lestermeséchantillonetpopulationdeviennentimportants.Lesdéfinitionsformellespourcestermesetpourd’autrestoutaussifondamentauxsontdonnéesici.

Lesdonnéessontdesobservations(commedesmesures, lesexe,desréponsesauxenquêtes)quiontétécollectées.Lesstatistiquessontunecollectiondeméthodespourorganiserdesexpériences,pour

obtenirlesdonnéesetlesorganiser,lesrésumer,lesanalyser,lesinterpréterettirerdesconclu-sionsbaséessurcesdonnées.Unepopulationestlacollectioncomplètedetelséléments(scores,personnes,mesures,etc.)àétudier.Lacollectionestcomplètedanslesensoùellecontienttouslessujetsàétudier.Unrecensementestlacollectiondesdonnéesdetouslesmembresdelapopulation.Unéchantillonestunesous-collectiondemembressélectionnésd’unepartiedelapopulation.

Parexemple,unsondageReuters/Zogbyademandéà1 000adultesaméricainss’ilscroyaientquelavieexistaitailleursdansl’univers.Les1 000sujetsconstituentun échantillon,alorsquelapopulationconsisteenlacollectionentièredes202682345adultesaméricains.Tousles10 ans,legouvernementdesÉtats-Unistented’obtenirunrecensementdechaquecitoyenmaiscelaéchoueparcequ’ilestimpossibledecontactertoutlemonde.

Unepréoccupation importantedece livreestdedémontrercommentonpeututiliser lesdonnéesd’échantillonpourtirerdesconclusionssurlespopulations.Nousverronsqu’ilestvitald’obtenirdesdonnéesd’échantillonqui sont représentativesde lapopulationdontelles sontextraites.Aufuretàmesuredecechapitrenousnousfocaliseronssurlesconceptscléssuivants :

–les données d’échantillon doivent être collectées de façon appropriée, par exemple par un procédé de sélection aléatoire ;

– si les données d’échantillon ne sont pas collectées de façon appropriée, les données peuvent être si complètement inutiles qu’aucune torture statistique ne pourra les sauver.

I.2 Types de données

DanslasectionI.1nousavonsdéfinilestermesdepopulationetd’échantillon.Lesdeuxtermessuivantssontutiliséspourdistinguerlescasoùonadesdonnéespourlapopulationentièredeceuxoùonadesdonnéespourl’échantillonseulement.

Unparamètreestunemesurequidécritunecaractéristiqued’unepopulation.

Unestatistiqueestunemesurequidécritunecaractéristiqued’unéchantillon.

ExEmplEs

1.Paramètre :onremplitunlacartificielavec500truitespouruntotalde950 kg.Si on diviselepoidstotalparlenombredetruites,onobtientunemoyennede1,9 kg.

Bioststatistiques-Livre.indb 2 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 3: Biostatistique 2e éd. revue et corrigée (Leseprobe)

3

I.2

Types

de

don

née

s

Sionconsidèrequelacollectiondes500truitesreprésentelapopulationdulac,alors1,9 kgestunparamètre,nonunestatistique.

2.Statistique :àpartird’unéchantillonde877directeursenquêtés,ilapparaîtque45 %d’entreeuxn’embaucheraientpasquelqu’unquifaitunefautetypographiquedanssademanded’em-bauche.Cechiffrede45 %estunestatistiqueparcequ’ilestbasésurunéchantillon,etnonsurlapopulationtotaledetouslesdirecteurs.

Certainesdonnéessontconstituéesdenombres(commedestaillesde168cmou183cm)alorsqued’autressontnonnumériques(commelacouleurdesyeux,bleuoumarron).Lestermesdedonnées quantitativesetdonnées qualitativessontsouventutiliséspourdistinguercestypesdedonnées.

Lesdonnées quantitativessontdesnombresquireprésententdescomptagesoudesmesures.

Les données qualitatives (ou catégorielles) peuvent être réparties en différentescatégoriesquisontrepéréespardescaractéristiquesnonnumériques.

ExEmplE

1.Données quantitatives :lepoidsdesdauphins.

2.Données qualitatives :lesexe(mâle/femelle)desours.

Quandontravailleavecdesdonnéesquantitativesilestimportantd’utiliserlabonneunitédemesurecommeleseuros,lesheures,lesmètres,etc.Ondoitêtreparticulièrementattentifquandonlitdesréférencescomme« touslesmontantssonten milliers d’euros »ou« l’unitéestlekilo-gramme ».Ignorerdetellesunitésdemesurepeutameneràdefaussesconclusions.LaNASAaperdusonmoduleMarsOrbiteretses125millionsdedollarsquandils’estécraséparcequelelogicieldecontrôlegéraitl’accélérationavecdesunitésanglaisesàlaplaced’unitésmétriques.

Onpeutdeplusdécrirelesdonnéesquantitativesendistinguantcellesquisontdetypediscretdecellesquisontdetypecontinu.

Onparlededonnées discrèteslorsquelenombrepossibledevaleursestsoitfinisoitdénombrable(c’est-à-direquelenombredevaleursest0ou1ou2etainsidesuite).

Onparlededonnées continueslorsqu’onaunnombreinfinidevaleurspossiblesquicorrespondentàuneéchellecontinuedevaleursouuneétenduedevaleurssans«  trou »,« interruption »ou« saut ».

ExEmplE

1.Données discrètes :lenombred’œufsponduspardespoulesestdiscretparcequ’ilcorrespondàuncomptage.

2.Données continues:lesvolumesdelaitproduitsparlesvachessontcontinusparcequecesontdesmesuresquipeuventprendren’importequellevaleurdansunintervallecontinu.Pendantunintervalledetempsdonné,unevachepeutfournirunequantitédelaitquipeutprendren’im-portequellevaleurentre0et20litres.Ilestpossibled’obtenir2,343 115litresparcequelavachen’estpasrestreinteauxvaleursdiscrètesde0,1,2,3...litres.

Bioststatistiques-Livre.indb 3 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 4: Biostatistique 2e éd. revue et corrigée (Leseprobe)

4In

trod

uct

ion

Uneautrefaçoncourantedeclasserlesdonnéesestd’utiliser4niveauxdemesure:nominal,ordinal,intervalleetrapport.Quandonappliquelesstatistiquesàdesproblèmesréels,lesniveauxdemesuredesdonnéessontunfacteurimportantpourdéterminerquelleprocédureutiliser.Ilyauraquelquesréférencesàcesniveauxdemesuredanscelivremaislepointimportanticisebasesurlebonsens:nefaitespasdecalculsetn’utilisezpasdeméthodesstatistiquesavecdesdonnéesinappropriées.Parexemple,celan’auraitaucunsensdecalculerlamoyennedenumérosdesécu-ritésocialeparcequecesnumérossontdesdonnéesutiliséespourl’identificationetqu’ilsnereprésententpasdesmesuresoudescomptagesdequoiquecesoit.Pourlesmêmesraisons,celan’auraitaucunsensdecalculerlamoyennedesnumérosd’identificationdespigeonsvoyageurs.

Leniveau nominal de mesureestcaractérisépardesdonnéesquiconsistentennoms,labelsoucatégoriesseulement.Lesdonnéesnepeuventpasêtrearrangéessuivantunordre(commeduplusgrandaupluspetit).

ExEmplEs

1. Oui/non/ne sait pas :commelesréponsesàuneenquête.

2. Couleurs :lacouleurdespois(vert,jaune)utilisésdansuneexpériencedegénétique.

Parcequelesdonnéesnominalesn’ontniordrenisignificationnumérique,onnepeutpaslesutiliserpourlescalculs.Onassigneparfoisdesnombresauxdifférentescatégories,maiscesnombresn’ontaucunevaleurcalculatoireetaucunemoyennecalculéeàpartirdecesnombresn’adesens.

Lesdonnéessontauniveau ordinal de mesuresionpeutlesarrangerselonuncertainordre,sousréservequelesdifférencesentrelesvaleurssoientnondéterminéesouqu’ellessoientsanssignification.

ExEmplEs

1. Notes par grade:unenseignantdelycéeutiliselesgradesA,B,C,DouEpournoterlesélèves.Cesgradespeuventêtreordonnésmaisnousnepouvonspasdonnerdevaleurs

auxdifférencesentrelesgrades.Parexemple,noussavonsqueAestplusgrandqueB(doncilyaunordre),maisnousnepouvonspassoustraireBdeA(ainsionnepeutpastrouverdediffé-rence).

2. Rangs :surlabasedeplusieurscritères,unbiologisterangelesoursd’unerégionselonleuragressivité.Lesrangs(premier,deuxième,troisième...)définissentunordre.Cependantlesdiffé-rencesentre lesrangsnesignifientrien.Parexemple,unedifférencede« deuxièmemoinspremier »pourraitfairepenserà2–1=1maiscettedifférencede1n’apasdesensparcequecen’estpasunequantitéexactequipeutêtrecomparéeauxautresdifférencesderangs.Ladifférenceentrel’agressivitéd’unours« premier »etd’unours« deuxième »n’estpasforcémentlamêmequ’entrel’agressivitéd’unours« deuxième »etd’unours« troisième ».

Lesdonnéesordinalesfournissentdesinformationssurleurcomparaisonrelativemaispassurl’amplitudedeleursdifférences.Danslapratique,lesdonnéesordinalesnedoiventpasêtreutili-séesdansdescalculscommelamoyenne.

Bioststatistiques-Livre.indb 4 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 5: Biostatistique 2e éd. revue et corrigée (Leseprobe)

5

I.2

Types

de

don

née

s

Devriez-vous croire à une étude statistique ?

Dans la seconde édition de Statistical Reasoning for Everyday Life, les auteurs Jeff Bennett, William Briggs et Mario Triola listent les 8 points fondamentaux pour évaluer de façon critique une étude statistique : (1) identifier le but de l’étude, la population considérée et le type d’étude ; (2) considérer les sources, en particulier au regard d’une possibilité de biais ; (3) analyser la méthode d’échantillonnage ; (4) chercher les problèmes de définition ou de mesure des variables d’intérêt ; (5) surveiller les variables confondantes qui pourraient invalider les conclusions ; (6) considérer le cadre et la formulation de l’enquête ; (7) vérifier que les graphiques représentent fidèlement les données et que les conclusions sont justifiées ; (8) déterminer si les conclusions répondent au but de l’enquête, si elles ont du sens et si elles ont une signification pratique.

Leniveau intervalle de mesureestsemblableauniveauordinalaveclapropriétésupplémentairequeladifférenceentredeuxvaleursaunsens.Cependant,àceniveau,lesdonnéesn’ontpasdezéronaturelderéférence(pourlequelaucunequantitén’estprésente).

ExEmplEs

1. Températures :lestempératuresducorpshumaincomme36,8 °Cet37,0 °Csontdes exemplesdedonnéesauniveau intervalle.Cesvaleurs sontordonnéesetnous

pouvonsdéterminerqueleurdifférenceestde0,2 °C.Cependantiln’yapasdezéronaturelderéférence.Lavaleurde0 °Cpourraitsemblerêtreunpointderéférencemaisc’estunevaleurarbitraireetcelanereprésentepasl’absencetotaledechaleur.Parceque0 °Cn’estpasunzéronaturelderéférence,ilestfauxdedireque50°Cestdeux foispluschaudque25 °C.

2. Années d’apparition des cigales :lesannées1936,1953,1970,1987et2004(letempsn’apascommencéàl’année0,ainsil’année0estarbitraireaulieud’êtreunzéronaturelderéférencereprésentant« pasdetemps »).

Leniveau rapport de mesureestsemblableauniveauintervalleaveclapropriétésupplémentairequ’ilyaunzéronaturelderéférencepourlequelaucunequantitén’estprésente.Pourlesvaleursàceniveau,lesdifférencesetlesrapportsontunsens.

ExEmplEs

Onnoteral’utilisationdesrapports« deuxfois »et« troisfois ».

1. Poids :lespoids(enkg)desaigles(0kgreprésentel’absencedepoidset4kgestdeuxfoispluslourdque2kg).

2. Âges  : lesâges(enjours)desaigles(0représenteunnouveau-nésansâgeetunaiglede60 joursesttroisfoisplusvieuxqu’unaiglede20jours).

Ce niveau de mesure est appelé le niveau rapport parce que la valeur 0 de référence donne un sens aux rapports de valeurs.Parmiles4niveauxdemesure,laplusgrandedifficultéestdedistin-guerlesniveauxintervalleetrapport.Indication :pourfacilitercettedistinction,utilisezunsimple

Bioststatistiques-Livre.indb 5 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 6: Biostatistique 2e éd. revue et corrigée (Leseprobe)

6In

trod

uct

ion

« testderapport ».Considérezdeuxquantitésoùl’uneestledoubledel’autreetdemandez-voussi« deuxfois »peutêtreutilisépourdécrirecorrectementlesquantités.Parceque4kgestdeuxfoispluslourdque2kget50 °Cn’estpasdeuxfoispluschaudque25 °C,lespoidssontauniveaurapportalorsquelestempératuressontauniveauintervalle.Pourunecomparaisonconciseetunevisiongénérale,étudiezletableau1-1pourvisualiserlesdifférencesentreles4 niveauxdemesure.

Tableau 1‑1 Niveauxdemesurededonnées

Niveau Résumé Exemple Remarque

Nominal Catégoriesseulement.Lesdonnéesnepeuventpasêtreordonnées.

Étatsoùonarencontrédesours :5NewYork20Idaho40Wyoming

Catégoriesounomsseulement.

Ordinal Lescatégoriessontordonnéesmaislesdifférencesn’ontpasdesens.

Lesoursselonleuragressivité :5nonagressifs20unpeuagressifs40fortementagressifs

Unordreestdéterminépar« non »,« unpeu »,« fortement ».

Intervalle Lesdifférencesontunsensmaisiln’yapasdezéronaturelderéférenceetlesrapportsn’ontpasdesens.

Latempératuredelatanièredesours :–15 °C–7 °C4 °C

0 °Cnesignifiepas« pasdechaleur ».40 °Cn’estpasdeuxfoispluschaudque20 °C.

Rapport Ilyunzéronaturelderéférenceetlesrapportsontunsens.

Ladistancedemigrationdesours :8km32km64km

60kmestdeuxfoispluslongque30km.

1.2

Ex

erc

ice

s Dans les exercices 1 et 2, déterminez si la valeur donnée est une statistique ou un paramètre.

1. Dansuneétudeducomportementdesoiesprèsd’unaéroport,unéchantillonaléatoired’oiescana-diennesincluait12mâles.

2.Dansuneétudeonattachedesaltimètresindividuelsàdesoiseaux(frégates)etl’altitudemoyenneestde226m.

Dans les exercices 3 et 4, déterminez si les données sont discrètes ou continues.3. Dansuneétudesurdesoiseauxdel’îleBuldirenAlaska,312kittiwakesàpattesrougesadultesont

étébagués.4.Dansuneenquêtesur1 059adultes,ontrouveque39 %d’entreeuxontdesarmesàlamaison(à

partird’uneenquêteGallup).

Dans les exercices 5 à 8, déterminez quel niveau de mesure est le plus approprié.5.Lalongueurdescolibris.6.Latempératurecorporelledesgruesdessables.7.LesgroupessanguinsA,B,ABetO.8.Lenombredelamantinstuésparlesbateauxdansles10dernièresannées.

Dans les exercices 9 et 10, identifiez (a) l’échantillon et (b) la population. Déterminez aussi si l’échan-tillon peut être représentatif de la population.

9.Unebiologistemarincapturedestruitesarc-en-cieldansunfiletetlespèse.10.DansuneenquêteGallupsur1 059adultessélectionnésaléatoirement,39 %ontrépondu« oui »

quandonleurademandé« Avez-vousunearmeàlamaison? ».

Bioststatistiques-Livre.indb 6 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 7: Biostatistique 2e éd. revue et corrigée (Leseprobe)

7

I.3

Pla

ns

d’e

xpér

ien

ces

I.3 Plans d’expériences

Unebonneutilisationdesstatistiquesrequierttypiquementplusdebon sensqued’expertisemathé-matique(malgrélaremarquedeVoltairedisantque« lesenscommunn’estpassicommunquecela »).Commenousdisposonsdecalculatricesetd’ordinateurs,lesapplicationsmodernesdesstatistiquesnenousdemandentplusdemaîtriserdesalgorithmescomplexespour lescalculsmathématiques.Àlaplace,nouspouvonsnousfocalisersurl’interprétationdesdonnéesetdesrésultats.Àproposd’unexempleextrêmementimportantquiillustrelerôledubonsens,consi-dérezladéfinitionsuivante.

Unéchantillon de réponses volontairesestunéchantillondanslequellespersonnesinterrogéesdécidentelles-mêmessiondoitlesincluredansl’étude.

Pourunbonexempled’échantillonderéponsesvolontaires,voyezleproblèmeintroductifdecechapitre.Quanddesindividusdécidenteux-mêmesdeparticiper,ilarrivesouventquelesgensavecde forts intérêtsoudesopinionsmarquées soientplus enclins àparticiper etque lesréponsesnesoientpasreprésentativesdelapopulationgénérale.Celasuggèrequelesenquêtesparcourrier,parfax,surleWebetpartéléphonesontfausséesdanslesensoùonnepeutpastirerdeconclusionssurlapopulationàpartirdetelséchantillonsbiaisés.Pourunéchantillonderéponsesvolontaires,lesseulesconclusionssontcellessurlegroupespécifiquedepersonnesquiontchoisiderépondre,maisunepratiquecouranteestd’énonceroudesous-entendredesconclusionssurunepopulationpluslarge.D’unpointdevuestatistique,unteléchantillonestfaussépardéfinitionetnedevraitpasêtreutilisépourénoncerdesfaitsgénérauxsurunepopu-lationpluslarge.Cetexemplenousamèneàunprincipeplusgénéralquiestabsolumentvitalpourtoutlelivre:si les données de l’échantillon ne sont pas collectées de façon appropriée, les données risquent d’être inutiles au point que nulle torture statistique ne pourra les sauver.

Lesméthodesstatistiquessontdépendantesdesdonnées.Onobtientclassiquementdesdonnéesàpartirdedeuxsourcesdistinctes :lesétudes observationnellesetlesétudes expérimentales.

Dansuneétude observationnelle,onobserveetonmesuredescaractéristiquesspéci-fiquesmaisonn’essaiepasdemodifierlessujetsdel’étude.

Dansuneétude expérimentale,onappliqueuncertaintraitementetonpasseensuiteàl’observationdesoneffetsurlessujets.

Unsondagedel’INSEEestunbonexempled’étudeobservationnelle.Unbonexempled’étudeexpérimentaleestceluid’unessai cliniqueoùuneexpérienceestplanifiéeetorganiséeavecungroupe traitement(danslequelondonneuntraitementspécialauxsujets)etungroupe contrôle(pourlequellessujetsnereçoiventaucuntraitementouunplacebo).DesmédicamentscommeleLipitorsonttestésviadetelsessaiscliniques.Lesondagedel’INSEEestobservationneldanslamesureoùonobserveseulementlesgens(souventpardesinterviews)sanslesmodifierdequelquefaçonquecesoit.Maisl’essaicliniqueduLipitorimpliquedetraiterlespersonnesaveccemédi-cament,donclespersonnestraitéessontmodifiées(etcellesdugroupecontrôlepeuventaussiêtremodifiées).Ilyadifférentstypesd’étudesobservationnellescommelemontrelafigure1.1.Lestermesemployés,souventutilisésdanslesjournauxspécialisés,sontdéfinisci-dessous.

Bioststatistiques-Livre.indb 7 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 8: Biostatistique 2e éd. revue et corrigée (Leseprobe)

8In

trod

uct

ion Dansuneétude transversale,lesdonnéessontobservées,mesuréesetcollectéesàun

instantdonné.

Dansuneétude rétrospective (oucas témoins),lesdonnéessontcollectéesdanslepassé(enrelisantdesexamensmédicaux,desinterviews...).

Dansuneétude prospective(ou longitudinaleoudecohorte), lesdonnéessontcollectéesdansdesgroupesfuturs(nomméscohortes)partageantdesfacteurscommuns.

Essais cliniques contre études observationnelles

Dans un article du New York Times sur une thérapie par hormone pour les femmes, la reporter Denise Grady a écrit un rapport sur les traitements testés dans les essais contrô-lés randomisés. Elle établissait que « de tels essais, dans lesquels on affecte au hasard à un patient un traitement ou un placebo, sont considérés comme le gold standard en recherche médicale. Au contraire, les études observationnelles dans lesquelles les patients décident eux-mêmes de prendre un médicament sont considérées comme moins fiables. Les chercheurs disent que les études observationnelles peuvent avoir donné une image faussement « rose » de l’hormone de remplacement parce que les femmes qui ont opté pour le traitement étaient en meilleure santé et avaient de meilleures habitudes de vie que celles qui ne l’ont pas choisi.

Figure 1.1 Éléments d’études statistiques

Ilyaunedifférenceimportanteentreleséchantillonsobtenusdanslesétudesrétrospectivesetprospectives.Danslesétudesrétrospectives,onrevientdansletempspourcollecterlesdonnéessurlesvariablesd’intérêt.Parexemple,l’étuderétrospectived’unemaladiepeuttravailleràrecu-lonspourdéterminerquellesconditionspourraientêtreliéesàlamaladie.Unetelleétuderequiertdessujetsmaladesetd’autressains,pourqueleseffetspuissentêtreliésauxconditionsantérieures.

Bioststatistiques-Livre.indb 8 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 9: Biostatistique 2e éd. revue et corrigée (Leseprobe)

9

I.3

Pla

ns

d’e

xpér

ien

ces

Dansundeseslivres,DavidSalsburgcitelecasd’uneétuderétrospectivequimontraitquedesédulcorantsartificielsétaientliésaucancerdelavessie.Cependantlaplupartdessujetsmaladesvenaientdesclasseséconomiquementfaiblesalorsquelaplupartdessujetsnonmaladesvenaientdesclasseséconomiquementsupérieures.Enconséquence,lesdeuxgroupesn’étaientpascompa-rablesetcetteétuderétrospectiveétaitfaussée.

Danslesétudesprospectives,nousavançonsdansletempsensuivantdesgroupessoumisàdeseffetsd’unfacteurpotentieletd’autres,nonsoumisàdetelseffets,commeungroupedeconducteursquiutilisentdestéléphonesportablesetungroupequin’enutilisepas.

Lestroisdéfinitionsprécédentess’appliquentauxétudesobservationnelles,maisnousallonsmaintenantnousintéresserauxétudesexpérimentales.Lesrésultatsdesexpériencessontparfoisfausséesàcausedelaconfusion.

Laconfusionsurvientquanddeseffetsdevariablessontmélangésetqueleseffetsindividuelsdesvariablesnepeuventpasêtreidentifiés(c’est-à-direquelaconfusionestfondamentalementlaconfusiondeseffetsdesvariables).

Essayez d’organiser vos expériences afin d’éviter la confusion.

Parexemple,supposonsquenoustraitions1 000personnesavecunvaccinprévupourprévenirlamaladiedeLymecauséeparlestiques.Siunfroidprécocefaithibernerlestiquesetqueles1 000sujetsvaccinésmontrentenconséquenceunefaibleincidencedelamaladiedeLyme,nousnepouvonspassavoirsilabaissedutauxdemaladieestlerésultatdel’actionduvaccinoudelasurvenueprécocedufroid.Laconfusionestapparueparcequeleseffetsdutraitementparlevaccinet leseffetsdufroidsontmélangés.Unemeilleureplanificationexpérimentaledevraitmieuxprendreencomptel’effetduvaccinetl’actiondufroidpourqueleurseffetsrespectifssoientidentifiésetcontrôlés.

Contrôler les effets des variables

Lafigure1.1montrequ’undesélémentsclésdanslaconceptiondesexpériencesestdecontrôlerleseffetsdesvariables.Onpeutobtenircecontrôleavecdestechniquescommel’insu,lesblocs,uneétudecomplètementrandomisée,ouuneétudeexpérimentalerigoureusementcontrôléedontladescriptionsuit.

Insu En1954,uneétudedemassefutorganiséepour tester l’efficacitéduvaccinSalkpourprévenirlapolioquiparalysaitoutuaitdesmilliersd’enfants.Danscetteétude,ungroupetrai-tementreçutlevaccinSalkalorsqu’unsecondgrouperecevaitunplaceboquinecontenaitaucunvaccin.Danslesétudesmettantenjeulesplacebos,ilyasouventuneffet placeboquiapparaîtquandunsujetmontreuneaméliorationdessymptômes(l’améliorationrapportéedanslegroupeplacebopeutêtreréelleouimaginée).Ceteffetplacebopeutêtreminimiséoucomptabiliséàtraverslatechniqued’insu(oud’aveugle),techniqueoùlesujetnesaitpass’ilreçoituntraitementouunplacebo.L’insunouspermetdedéterminersi l’effetdutraitementestsignificativementdifférentdel’effetplacebo.Dansuneétudesimple aveugle,lessujetsnesaventpass’ilsreçoiventuntraitementouunplacebo.L’étudepolioétaitendouble aveugle,cequisignifiequ’ilyavaitdeuxniveauxd’aveuglement:(1)lesenfantsnesavaientpass’ilsrecevaientlevaccinSalkouunplaceboet(2)lesmédecinsquifaisaientlesinjectionsetévaluaientlesrésultatsnelesavaientpaseux-mêmes.

Bioststatistiques-Livre.indb 9 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 10: Biostatistique 2e éd. revue et corrigée (Leseprobe)

10In

trod

uct

ion

Blocs Quandonorganiseuneétudeexpérimentalepourtesterl’efficacitéd’unouplusieurstrai-tements, ilest importantdemettrelessujets(appeléssouventunitésexpérimentales)dansdesgroupesdifférents(oublocs)defaçonàcequecesgroupessoienttrèssimilaires.Unblocestungroupedesujetsquisontconnus(avantl’étude)pourêtresimilairesencequiconcernelerésultatdel’expérimentation.

Quand on mène une expérimentation où on teste un ou plusieurs traitements, il faut former des blocs (ou groupes) de sujets possédant des caractéristiques similaires.

Randomisation

Quandonaffectedessujetsàdestraitements,ilestd’usaged’utiliserunesélectionaléatoire.Uneapprocheestd’utiliserunplan complètement randomiséoùchaquetraitementestassignéauxsujetsà l’aided’unprocessusd’assignationcomplètementaléatoire.Envoiciunexemple :onrépartitdesenfantsdansungroupetraitementoudansungroupeplaceboenfonctiondulancerd’unepiècedemonnaie.Dansuneétude randomisée par blocs,oncommenceparformerdesblocspourquedanschaquebloclessujetsaientdescaractéristiquessimilaireset,ensuite,onappliqueunerandomisationpouraffecterséparémentauxsujetslestraitementsàl’intérieurdechaquebloc.Voiciunexempled’étuderandomiséeparblocs :onformeunblocd’hommesetunblocdefemmes,puispourchaquebloconlanceunepiècepourdéciderdedonnerunvaccinouunplacebo.Uneétudecomplètementrandomiséen’apasderestrictionsurlarandomisation,alorsqu’uneétuderandomiséeparblocsn’apasderestrictionsur larandomisationàl’intérieurdechaquebloc.Silevaccinaffectedifféremmentleshommesetlesfemmes,l’étuderandomiséeparblocsadeplusgrandeschancesd’identifiercettedifférence.

Répétition et taille d’échantillon

Enplusdecontrôlerleseffetsdesvariables,unautreélémentclédesétudesexpérimentalesestla taille des échantillons. Les échantillons devraient être suffisamment grands pour qu’uncomportementerratiquequiestcaractéristiquedespetitséchantillonsnemasquepasleseffetsréelsdesdifférentstraitements.Larépétitiond’uneexpérienceestappeléeréplicationetelleestutiliséeeffectivementquandonaassezdesujetspourdistinguerdesdifférencesentrelesdiverstraitements(dansunautrecontexte,laréplicationcorrespondàlarépétitionouduplicationdel’expériencepourquelesrésultatspuissentêtreconfirmésouvérifiés).Aveclaréplication,lesgrandes taillesd’échantillonaugmentent leschancesdereconnaître leseffetsdesdifférentstraitements.Cependantungrandéchantillonn’estpasforcémentunbonéchantillon.Bienqu’ilsoitimportantd’avoirunéchantillonsuffisammentgrand,ilestplusimportantd’avoirunéchan-tillondans lequel lesdonnéesontétéchoisiesdefaçonappropriée,commeaveclasélectionaléatoire(décriteci-dessous).

Utilisez une taille d’échantillon suffisamment grande pour identifier la vraie nature de n’importe quel effet et obtenez les données avec une méthode appropriée.

Dansl’étudeconçuepourtesterlevaccinSalk,200 000enfantsontreçulevaccinet200 000autresontreçuunplacebo.Parcequel’expérienceautiliséunetailled’échantillonsuffisammentgrande,l’efficacitéduvaccinaputêtremiseenévidence.Néanmoins,mêmesilesgroupestrai-tementetplaceboavaientétésuffisammentgrands,l’étudeauraitétéunéchecsilessujetsn’avaientpasétéaffectésàcesdeuxgroupesdefaçonstatistiquementrigoureuse.

Bioststatistiques-Livre.indb 10 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 11: Biostatistique 2e éd. revue et corrigée (Leseprobe)

11

I.3

Pla

ns

d’e

xpér

ien

ces

Randomisation et autres stratégies d’échantillonnage

Enstatistiques,unedespireserreursestdecollecterdesdonnéesdefaçoninappropriée.Onnepeutpastropinsistersurlepointsuivant:si les données d’échantillon sont collectées de façon inappropriée, elles risquent d’être inutiles au point que nulle torture statistique ne pourra les sauver.

Plustôtdanscettesection,nousavonsvuqu’unéchantillonderéponsesvolontairesestceluipourlequellessujetsdécidenteux-mêmess’ilsdoiventrépondre.Detelséchantillonssontcourants,maisleursrésultatssontengénéraldépourvusdesenspourtirerdesinférencesvalidessuruneplusgrandepopulation.

Nousdéfinissonsmaintenantquelques-unesdesméthodescourantesd’échantillonnage.

Dansunéchantillon aléatoire, lesmembresd’unepopulationsontsélectionnésdetellesortequechaquemembre individuelalamêmechanced’êtresélectionné.

Unéchantillon aléatoire simpleden sujetsestchoiside telle façonquechaque échantillon possible de taillenaitlamêmechanced’êtrechoisi.

ExEmplE Échantillon aléatoire et échantillon aléatoire simple.Prenezuneclasseavec36 étudiantsdisposésen6rangéesde6étudiantschacune.Supposezqueleprofesseursélectionne6étudiantsparlelancerd’undéetensélectionnantlarangéecorrespondantaurésultatdutirage.Est-ceunéchantillonaléatoire?unéchantillonaléatoiresimple ?

solutionL’échantillonestunéchantillonaléatoireparcequechaqueétudiantalamêmechance(unesursix)d’êtresélectionné.

Cependantcen’estpasunéchantillonaléatoiresimpleparcequetousleséchantillonsdetaille6n’ontpaslamêmechanced’êtrechoisis.L’utilisationdudépoursélectionnerunerangéerendimpossibledesélectionner6étudiantsdansdesrangéesdifférentes.Ilyaunechancesursixdechoisirlesétudiantsdelapremièrerangéemaisiln’yaaucunechancedechoisirles6 étudiantsassisaupremiersiègedechaquerangée.

Important : dans tout le livre, nous utiliserons de nombreuses procédures statistiques et un pré‑requis sera d’avoir unéchantillon aléatoire simplecomme défini ci‑dessus.Avecl’échantillonnagealéatoirenousnousattendonsàcequetouteslescomposantesdelapopulationsoient(approximativement)représentéesproportionnellement.Leséchantillonsaléatoirespeuventêtresélectionnésavecdiversesméthodes,ycomprisvialetiragedenombresaléatoiresparordi-nateur(avantlesordinateurs,onutilisaitsouventdestablesdenombresaléatoires).Aucontrairedeséchantillonnagespeusoignésou« hasardeux », l’échantillonnagealéatoiredemandeuneorganisationetuneexécutionrigoureuses.

Enplusdel’échantillonnagealéatoire,ilyad’autrestechniquesd’échantillonnageenusageetnousdécrivonslespluscourantesici.Voyezlafigure1.2pouruneillustrationdesdifférentesapprochesd’échantillonnage.Gardezàl’espritqueseulsl’échantillonnagealéatoireet l’échan-tillonnagealéatoiresimpleserontutilisésdanslerestedecelivre.

Bioststatistiques-Livre.indb 11 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 12: Biostatistique 2e éd. revue et corrigée (Leseprobe)

12In

trod

uct

ion Dansl’échantillonnage systématique,onchoisitaléatoirementunpointdedépartet

onsélectionnechaquek-ième(parexemplechaque50e)élémentdelapopulation.

Pourunéchantillonnage opportun,oncollectesimplement les résultatsquisontfacilesàobtenir.

Avecl’échantillonnage stratifié,onsubdiviselapopulationenaumoinsdeuxsous-groupesdifférents(oustrates)quipartagentlesmêmescaractéristiques(commelesexe,laclassed’âge)etontireunéchantillondanschaquesous-groupe.

Pour l’échantillonnage en grappes, on commence par diviser la population en sections(ou grappes)etonsélectionnealéatoirementdesgrappes,puisonprendtouslesmembresdesgrappessélectionnées.

Ilestfaciledeconfondrel’échantillonnagestratifiéetl’échantillonnageengrappesparcequelesdeuximpliquentlacréationdesous-groupes.Maisl’échantillonnageengrappesutilisetouslesmembresd’unéchantillondegrappes,alorsquel’échantillonnagestratifiéutiliseunéchantillondemembresdetouteslesstrates.

Unexempled’échantillonnageengrappespeutêtreillustréparuneenquêtepré-électoraledanslaquelleonsélectionnealéatoirement30communesdansungrandnombredecommunesetoùoninterrogetouteslespersonnesdecescommunes.Cetteprocédureestbeaucoupplusrapideetbeaucoupmoinscoûteusequedesélectionnerunepersonnedechaquecommune.

Lesrésultatsd’échantillonnagesstratifiésouengrappessontsouventajustésoupondéréspourcorrigertoutedisproportiondereprésentativitédesgroupes.

Pourunetailled’échantillonfixée,sivouschoisissezaléatoirementdessujetsdesdifférentesstrates,vousrisquezd’obtenirdesrésultatsplusconsistants(etmoinsvariables)qu’ensélectionnantsimplementdefaçonaléatoiretoutelapopulation.Pourcetteraison,l’échantillonnagestratifiéestsouventutilisépourréduirelavariabilitédesrésultats.Plusieursdesméthodesdiscutéesunpeuplusloindanscelivrerequièrentquelesdonnéessoientissuesd’unéchantillonnage aléatoire simpleetnil’échantillonnagestratifiénil’échantillonnageengrappesnesatisfontcepré-requis.

Lafigure1.2illustrelescinqméthodesusuellesd’échantillonnage.Lesprofessionnelscollec-tentsouvent lesdonnéesà l’aided’unecombinaisondecescinqméthodes.Voiciunexempletypiquedecequ’onappelleunschéma d’échantillonnage multistages  :d’abord,sélectionnezaléatoirementunéchantillondedépartements,puischoisissezaléatoirementdesvillesetdescommunesdanscesdépartements,puischoisissezaléatoirementdeszonesrésidentiellesdanschacunedecesvillesoucescommunes,puischoisissezaléatoirementunemaisondanschaquezoneet,enfin,choisissezaléatoirementunepersonnedanschaquemaison.Nousn’utiliseronspasuntelschémad’échantillonnagedanscelivre.Nousinsistonsànouveausurlefaitquelesméthodesdecelivreexigenttypiquementqu’ondisposed’unéchantillon aléatoire simple.

Erreurs d’échantillonnage

Quellequesoitlaqualitédelapréparationetdel’exécutiondevotreprocédédecollecte,ilyauratoujoursquelquesvariationsdanslesrésultats.Parexemple,sélectionnezaléatoirement1 000adultes,demandez-leurs’ilsontlebacetenregistrezlepourcentagederéponses« oui ».Sivoussélectionnezaléatoirement1 000autresadultes,ilestprobablequevousobtiendrezunpourcentagedifférent.

Bioststatistiques-Livre.indb 12 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 13: Biostatistique 2e éd. revue et corrigée (Leseprobe)

13

I.3

Pla

ns

d’e

xpér

ien

ces

Figure 1.2 Méthodes usuelles d’échantillonnage

Uneerreurd’échantillonnageestladifférenceentreunrésultatd’échantillonnageetlevrairésultatdelapopulation;unetelleerreurrésultedesfluctuationsdetiragedel’échantillon.

Uneerreur non liée à l’échantillonnagesurvientlorsquelesdonnéesd’échantillonsontincor-rectementcollectées,enregistréesouanalysées(commeensélectionnantunéchantillonbiaisé,enutilisantuninstrumentdemesuredéfectueuxouenenregistrantincorrectementlesdonnées).

Bioststatistiques-Livre.indb 13 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola

Page 14: Biostatistique 2e éd. revue et corrigée (Leseprobe)

14In

trod

uct

ion

Sinouscollectonssoigneusementunéchantillonquiestreprésentatifdelapopulation,nouspouvonsutiliserlesméthodesdéveloppéesdanscelivrepouranalyserl’erreurd’échantillonnage,maisilfautêtreextrêmementsoigneuxpourqueleserreursnonliéesàl’échantillonnagesoientminimisées.

Aprèsavoirlutoutecettesection,ilestfaciled’êtreunpeuperdupartoutescesdéfinitions.Maissouvenez-vousdupointprincipal: laméthodepourcollecterlesdonnéesestabsolumentvitaleetondoitsavoirquel’aspect aléatoireestparticulièrementimportant.

1.3

Ex

erc

ice

s Dans les exercices 1 et 2, déterminez si la description fournie correspond à une étude observationnelle ou à une étude expérimentale.

1.Test de médicamentOndonneàdespatientsduLipitorpourdéterminersicemédicamentacommeeffetlabaissedutauxdecholestérol.

2. Contrôle qualitéL’Administrationfédéraleaméricainedesmédicamentssélectionnealéatoirementunéchantillondeplaquettesd’aspirineBayer.Onmesureletauxd’aspirinedanschaqueplaquettepourentesterl’exactitude.

Dans les exercices 3 et 4, identifiez le type d’étude observationnelle (transversale, rétrospective, pros-pective).

3.Recherche médicale Unchercheurdel’écoledemédecinedel’universitédeNewYorkobtientdesdonnéesconcernantdesblessuresàlatêteenexaminantdesdossiersmédicauxdel’hôpitaldescinqdernièresannées.

4. Incidence de grippeLecentredecontrôledesépidémiesobtientdesdonnéesensondantcemois-ci3 000personnes.

Dans les exercices 5 à 10, identifiez quel type d’échantillonnage est utilisé : aléatoire, systématique, opportun, stratifié ou en grappes.

5. Utilisation de l’aspirineUneétudianteenmédecineétudielaprévalencedel’aspirineeninterrogeanttouslespatientsquientrentsefairesoignerdanssaclinique.

6. Sondages téléphoniquesDansunsondageSOFRESde1 059adultes,lessujetsinterviewésétaientsélectionnésparunordinateurquigénéraitautomatiquementlesnumérosdetéléphoneàappeler.

7. Consommation étudiante d’alcool Motivépar ledécèsd’unétudiantsuiteàuneconsommationexcessived’alcool, lecollègedeNewportmèneuneenquête sur laconsommationd’alcoolpar lesétudiantsensélectionnantaléatoirement10classesdifférenteseteninterviewanttouslesétudiantsdechacunedesclassessélectionnées.

8. AlcootestUndesauteursaobservéuncontrôleautoroutierd’alcoolémieoùonarrêtaitunconducteurtoutesles5voitures.

9. Éducation et santéUnchercheurétudiel’effetdel’éducationsurlasantéetmèneuneenquêtesur150 travailleurssélectionnésaléatoirementpourchacunedecescatégories:avantlaterminale,niveauterminale,aprèslaterminale.

10. Recherche médicaleUnchercheurdel’universitéJohnHopkinsétudietouslespatientscardiaquesdanschacundes30hôpitauxsélectionnésaléatoirement.

Bioststatistiques-Livre.indb 14 10/10/12 14:35

© 2012 Pearson France – Biostatistique pour les sciences de la vie et de la santé – Marc M. Triola, Mario F. Triola