Herve Aide Memoire que

download Herve Aide Memoire que

of 126

Transcript of Herve Aide Memoire que

Aide - mmoire de statistique applique la biologie Construire son tude et analyser les rsultats laide du logiciel R

Maxime HERVE 3me version 2011 (1re version 2010)

Avant-proposLors de mon stage de Master 2, jai ralis une chose importante : en biologie, les statistiques sont essentielles. Jai aussi ralis une autre chose importante : je ny connaissais rien. Et par dessus tout, jen avais horreur. Mais tant oblig den passer par l, je my suis mis. Et jai alors ralis une chose encore plus importante : il ny a pas besoin dtre statisticien pour analyser ses donnes. Il faut simplement savoir se poser un peu, rchir ltude quon a men (ou mieux, ltude quon va mener), et tre rigoureux. Pour le reste, tout est disponible dans les livres ou sur internet. Jai donc dcid de me former dans mon coin la statistique applique la biologie. Je me suis alors confront un problme qui ma fait perdre beaucoup de temps, un temps que la plupart des stagiaires nont pas : il existe de trs nombreux et trs bons documents sur le sujet, mais trs peu qui regroupent les analyses de base, celles que lon rencontre le plus souvent. An de ne pas oublier tout ce que javais appris par - ci, par - l, jai donc voulu me rdiger un petit document de synthse. Finalement, jai dcid den faire un vritable aide - mmoire et de le mettre la disposition des autres tudiants. Lobjectif (ambitieux) de cet ouvrage est donc dtre pour vous le guide que jaurais aim avoir lors de mon stage. Utiliser cet aide - mmoire ne demande que trs peu de connaissances en statistiques. Savoir ce que sont une moyenne, une variance, une mdiane ou un intervalle de conance est susant. Par contre, il exige une chose : si vous voulez quil vous prenne par la main, il faut que vous en ayez envie. Jentends par l quil est indispensable de se poser des questions : quelle question mon tude doit - elle rpondre ? Quel dispositif vais - je mettre en place pour y rpondre ? Que vais - je contrler, que vais - je observer dans ltude ? Comment vais - je utiliser mes rsultats ? Si lon prend le temps de se poser ces questions, et surtout le temps dy apporter une rponse, analyser ses donnes nest pas compliqu. Vous verrez mme quil est trs agrable de comprendre ce que lon fait, et pourquoi on le fait. Peut - tre mme que comme moi, vous prendrez got aux statistiques. Mais si par contre vous ne vous voulez pas prendre le temps de rchir votre travail, malgr toute la bonne volont que jai mise crire cet ouvrage le plus simplement possible, je ne peux rien pour vous. Pour raliser lanalyse des rsultats, jai choisi dutiliser R, qui est la fois un langage informatique et un logiciel. Jai fait ce choix car il est gratuit et libre, ce qui vous permet de lutiliser absolument partout. De plus, il est extrmement puissant et son caractre libre fait que de nombreux utilisateurs sinvestissent pour lamliorer et lenrichir en permanence. Enn, pass le dgot ventuel davoir crire soi - mme des lignes de commande, vous verrez que R est simple utiliser et que mieux, il permet (car il loblige) de comprendre ce que lon fait.

Comme pour la thorie statistique, utiliser cet aide - mmoire nexige que trs peu de connaissances sur R. Il ncessite seulement de savoir crer les objets de base du langage (vecteur, tableau, matrice) et de savoir eectuer des manipulations simples sur ces objets. Si ces bases ne sont pas acquises, vous pouvez vous rfrer certains documents dintroduction R cits dans la bibliographie. Noubliez pas galement qu chaque fonction dans R est associe une page daide, que lon appelle par la syntaxe ?fonction. Il est trs important pour moi dtre en contact avec les utilisateurs de cet aide - mmoire, car cest grce cela que je peux lamliorer. Je remercie donc toutes les personnes qui mcrivent pour me poser des questions ou pour rectier des erreurs. Ce sont elles qui me donnent envie de le clarier, de lenrichir et de le corriger. Je vous invite donc sincrement menvoyer un e - mail ([email protected]) si vous trouvez quun point nest pas clair, quun autre mriterait dtre ajout ou approfondi, ou encore quil subsiste des erreurs dans le document. Certaines des fonctions prsentes dans cet ouvrage ncessitent dinstaller des packages qui ne sont pas fournis avec la distribution de base de R. Parmi ceux - ci se trouve le package RVAideMemoire, qui contient des fonctions que jai crites spcialement pour accompagner cet aide - mmoire. Son dveloppement est donc intimement li celui de ce document, et l encore je vous encourage me faire part de vos remarques, suggestions, critiques et / ou corrections. Pour nir, mme si vous navez rien dire je vous invite menvoyer un petit mail quand mme. Cela me permettra de crer une liste de diusion an dinformer un maximum dutilisateurs de la sortie de nouvelles versions de laide - mmoire et/ou du package RVAideMemoire. Jespre sincrement que ce livre comblera vos attentes et quil vous permettra de rpondre vos questions.

Le 13 Juillet 2011 Maxime Herv

SommaireLouvrage est divis en quatre parties : La prparation de ltude : souvent trop peu dimportance y est attache. Pourtant, cette phase est au moins aussi cruciale que lanalyse des rsultats puisquelle dtermine la faon dont ceux - ci vont pouvoir tre analyss. Une tude bien prpare facilite grandement lexploitation des rsultats, tandis quune tude mal prpare entrane gnralement des complications au moment de lanalyse et de linterprtation. La prparation et limportation des donnes : cette tape apparemment simple peut poser problme par manque dexprience. Elle est pourtant cruciale, puisque des donnes mal structures ou mal importes dans R peuvent conduire une analyse compltement fausse. Lanalyse descriptive des rsultats : ce type danalyse est toujours indispensable, et selon lobjectif de ltude il peut tre susant. Lanalyse descriptive est souvent nglige pour foncer sur les tests , ce qui conduit oublier la ralit des donnes (et par consquent compliquer voire fausser linterprtation des rsultats). Lanalyse infrentielle des rsultats : ce type danalyse regroupe la dtermination des intervalles de conance et la ralisation des tests statistiques. Lanalyse infrentielle est la seule phase de ltude qui est facultative. Dans tous les cas elle doit passer aprs lanalyse descriptive.

1. 1. 2. 3. 4. 2. 5. 6. 7. 8.

PREPARATION DE LETUDE Les dirents types de variable Le plan dchantillonnage Le plan dexprience La dtermination de la taille de lchantillon PREPARATION ET IMPORTATION DES DONNEES Construction du tableau de donnes Importation du tableau de donnes dans R i Installer et charger un package i Citer R et ses packages

3. ANALYSE DESCRIPTIVE DES RESULTATS 3.1. Statistique univarie 9. Graphiques de dispersion : la fonction stripchart() 10. Histogrammes : la fonction hist() 11. Botes moustaches : la fonction boxplot() 12. La rduction des donnes une dimension

3.2. Statistique bivarie 13. Nuages de points : la fonction plot() 14. La rduction des donnes deux dimensions 3.3. Statistique multivarie Choisir son analyse multivarie Ce choix dpend de la nature des variables tudies : toutes quantitatives : ACP toutes qualitatives : deux variables : AFC plus de deux variables : ACM la fois quantitatives et qualitatives : Analyse mixte.

15. 16. 17. 18.

LAnalyse LAnalyse LAnalyse LAnalyse

en Composantes Principales (ACP) Factorielle des Correspondances (AFC) des Correspondances Multiples (ACM) mixte de Hill et Smith

4. ANALYSE INFERENTIELLE DES RESULTATS 4.1. Quelques bases thoriques 4.1.1. Lois de probabilit 4.1.1.1. Lois de probabilit discontinues 19. Lois de probabilit discontinues gnralits 20. La loi binomiale 21. La loi de Poisson 22. La loi binomiale ngative 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 4.1.1.2. Lois de probabilit continues Lois de probabilit continues gnralits La loi normale La loi exponentielle La loi de 2 La loi de Fisher - Snedecor La loi de Student 4.1.2. Risques et puissance associs aux tests statistiques Principe des tests statistiques et risques associs la conclusion Le risque ou seuil de rejet La correction du seuil de rejet Le risque et la puissance du test

4.2. Identication des donnes aberrantes 33. Lidentication des donnes aberrantes 4.3. Intervalles de conance et erreur standard 34. Intervalle de conance et erreur standard 35. i Tracer un diagramme en barres avec barres derreur 4.4. Tests dhypothses 36. Les dirents types de test statistique 4.4.1. Conditions pralables lutilisation des tests Ces conditions ne sont pas toujours remplir, cela dpend du test que lon souhaite utiliser. 37. Caractre alatoire et simple dune srie de donnes 38. Ajustement une distribution thorique 39. Egalit des variances de plusieurs sries de donnes 40. Les transformations de variable 4.4.2. Ralisation des tests Souvent, plusieurs tests peuvent tre utiliss pour rpondre la mme question. Les conditions de leur emploi sont cependant plus ou moins restrictives, et leur puissance plus ou moins grande (un test plus restrictif tant gnralement plus puissant). Lorsque plusieurs tests sont disponibles ils sont prsents du plus au moins restrictif, du plus pointu au plus passe - partout . 4.4.2.1. Statistique univarie Tests sur des probabilits de rponse (variables binaires 0 / 1) Le test de conformit dune ou de plusieurs probabilit(s) de rponse avec une ou plusieurs valeur(s) thorique(s) est une dmarche identique celle du test de conformit de proportion(s). 41. Comparaison de plusieurs probabilits de rponse un facteur 42. Comparaison de plusieurs probabilits de rponse deux facteurs Tests sur des eectifs 43. Conformit de plusieurs eectifs avec des valeurs thoriques 44. Comparaison de plusieurs eectifs sans facteur (eectifs bruts) 45. Comparaison de plusieurs eectifs un facteur 46. Comparaison de plusieurs eectifs deux facteurs Tests sur des proportions 47. Conformit dune proportion avec une valeur thorique 48. Conformit de plusieurs proportions avec des valeurs thoriques 49. Comparaison de deux proportions sans rptition

50. Comparaison de plusieurs proportions sans rptition 51. Comparaison de plusieurs proportions avec rptitions et un facteur 52. Comparaison de plusieurs proportions avec rptitions et deux facteurs Rgression, analyse de variance / dviance ou analyse de la covariance ? Dans tous les cas la variable expliquer est unique et quantitative. Le choix dpend de la nature des variables explicatives : toutes quantitatives : rgression toutes qualitatives : analyse de variance / dviance la fois quantitatives et qualitatives : analyse de la covariance. Le cas des variables expliquer qualitatives nest abord ici que pour des variables binaires.

Tests sur des moyennes 53. Conformit dune moyenne avec une valeur thorique 54. Comparaison de deux moyennes 55. Comparaison de plusieurs moyennes un facteur 56. Comparaison de plusieurs moyennes deux facteurs Tests sur des temps de survie Ces tests sont traditionnellement utiliss pour comparer des temps de survie, mais ils peuvent tre appliqus nimporte quelle variable reprsentant un temps avant la survenue dun vnement. 57. Comparaison de plusieurs temps de survie 58. i Tracer des courbes de survie 4.4.2.2. Statistique bivarie Tests autour de la liaison entre deux variables 59. Indpendance de deux variables qualitatives 60. Corrlation entre deux variables 61. Conformit dun coecient de corrlation linaire avec une valeur thorique 62. Comparaison de plusieurs coecients de corrlation linaire Tests autour de la rgression 63. La rgression linaire simple au sens des moindres carrs 64. La rgression linaire simple au sens des moindres rectangles 65. Comparaison de plusieurs droites de rgression linaire simple 66. La rgression logistique binaire simple 67. La rgression non linaire simple 68. i Tracer une droite ou une courbe de rgression simple

Analyse de la covariance 69. Lanalyse de la covariance un facteur 4.4.2.3. Statistique multivarie 70. La rgression linaire multiple 71. 72. 73. 74. 4.4.3. Outils pour lutilisation des modles statistiques Construction de la formule dun modle Slection de modle Vrication de la validit dun modle La mthode des contrastes

ANNEXES Index des packages externes Bibliographie et ouvrages / documents / liens recommands

1. Les dirents types de variableUne variable est dite alatoire si lon ne peut pas prdire coup sr la valeur que prendra un individu. Il existe deux types de variable alatoire : 1. quantitatives : elles ont en gnral une innit de valeurs numriques possibles et peuvent tre : continues (ex : masse, temps, distance, volume) discrtes (ex : dnombrement) 2. qualitatives : elles sont en gnral non numriques (mais pas toujours) et sont appeles facteurs. Leur valeur est appele classe, niveau ou modalit. Ces variables peuvent tre : ordinales, lorsque les classes peuvent tre ordonnes (ex : classement) nominales, lorsque les classes ne peuvent pas tre ordonnes (ex : sexe). Les classes dune variable qualitative sont dites exclusives si un individu ne peut pas appartenir plusieurs classes en mme temps. Beaucoup de tests statistiques exigent que les classes soient exclusives. Dans tous les cas, le caractre dexclusivit doit tre dtermin avant toute analyse statistique. Il existe deux types de facteur : xe : un facteur est xe si ses classes ont t dlibrment choisies, et si le but de ltude est de les comparer. Par exemple, si lon veut comparer la taille des individus entre trois espces, le facteur espce est xe ( trois classes) alatoire : un facteur est alatoire si ses classes ont t choisies parmi un grand nombre de classes possibles, et si le but de ltude nest pas de les comparer mais simplement de prendre en compte la variabilit quil existe entre elles. Par exemple, si les mesures de taille des trois espces sont ralises par deux personnes direntes (qui ont chacune mesur la moiti des individus), on peut considrer un facteur exprimentateur , alatoire. Lobjectif ici nest en eet pas de comparer les mesures ralises par les deux personnes, mais de prendre en compte le fait que la faon de raliser les mesures peut varier entre les deux. Il y a deux choses bien garder lesprit : (i) la dcision de dclarer un facteur comme xe ou alatoire est fondamentale pour lanalyse des donnes, car ce ne sont pas les mmes analyses qui sont ralises dans les deux cas ; (ii) cette dcision doit tre prise selon lobjectif de ltude, i.e. la question laquelle ltude doit rpondre. Il est donc indispensable de bien se poser la question avant de dclarer un facteur xe ou alatoire, car aucune dcision de peut tre prise dans labsolu. Que ce soit pour des variables qualitatives ou quantitatives, si certaines mesures ne sont pas indpendantes entre elles, elles constituent des sries

apparies. Le cas le plus simple est celui o plusieurs mesures sont ralises sur un mme individu (par exemple avant et aprs un traitement). Mais dautres cas plus subtils peuvent se prsenter : si des mesures sont ralises sur des individus apparents (ces mesures ne sont pas indpendantes car il existe une corrlation dorigine gntique entre elles), si des sries de mesures sont ralises des localisations direntes (ces mesures ne sont pas indpendantes car chaque srie est inuence par lenvironnement local) ou encore si des sries de mesures sont ralises des temps dirents (ces mesures ne sont pas indpendantes car chaque srie est inuence par ce quil a pu se passer avant). Il est trs important didentier les sries apparies lorsquelles existent, car ce ne sont pas les mmes analyses statistiques qui doivent alors tre utilises. Dans les modles statistiques, les sries apparies sont identies par lintroduction dun facteur alatoire. Pour les exemples prcdents, on a donc respectivement un facteur individu , un facteur famille , un facteur localisation et un facteur moment .

2. Le plan dchantillonnageOn utilise un plan dchantillonnage lorsque lon ralise une tude par enqute, i.e. lorsque lon collecte des informations sur un groupe dindividus dans leur milieu habituel, mais que tous les individus ne sont pas accessibles (par choix ou par contrainte). Les principales mthodes dchantillonnage peuvent tre regroupes en deux ensembles : 1. lchantillonnage alatoire : tous les individus (au sens statistique) ont la mme probabilit dtre choisis, et le choix de lun ninuence pas celui des autres. Direntes mthodes dchantillonnage alatoire existent : lchantillonnage alatoire et simple : le choix se fait parmi tous les individus de la population (au sens statistique), qui ne forme quun grand ensemble lchantillonnage strati : si la population est trs htrogne, elle peut tre divise en sous - ensembles exclusifs (ou strates). Au sein de ces strates lchantillonnage est ensuite alatoire et simple lchantillonnage en grappes : si les strates sont trs nombreuses, on en choisit certaines au hasard (les grappes). Au sein de ces grappes lchantillonnage est ensuite alatoire et simple lchantillonnage par degrs : il est une gnralisation de lchantillonnage en grappes (qui est en fait un chantillonnage du premier degr). Au sein de la population on choisit des grappes primaires , puis lintrieur de celles-ci des grappes secondaires (toujours au hasard), et ainsi du suite. . . Au dernier niveau lchantillonnage est alatoire et simple 2. lchantillonnage systmatique : un premier individu est choisi alatoirement, puis les autres sont choisis de faon rgulire partir du prcdent (dans le temps ou lespace). Lanalyse de ce type dchantillonnage, qui fait appel la statistique spatiale ou lanalyse des sries chronologiques, nest pas aborde dans cet ouvrage. Il est important didentier la mthode mise en uvre car les analyses statistiques doivent tre adaptes. Seule lanalyse de plans dchantillonnage alatoires est aborde dans cet ouvrage.

3. Le plan dexprienceOn utilise un plan dexprience lorsque lon raliste une tude par exprimentation, i.e. lorsque lon provoque volontairement les faits tudier. Le plan dexprience comprend notamment le(s) facteur(s) faire varier, le nombre de rptitions raliser et le dispositif exprimental mettre en place. Lassociation des classes de plusieurs facteurs constitue un traitement. Il existe de nombreux types de dispositif exprimental, dont les principaux sont : le plan dexprience compltement alatoire : chaque individu (au sens statistique) est aect un traitement alatoirement le plan dexprience en blocs alatoires complets : sil y a (ou sil peut y avoir) une grande htrognit entre les individus, ils sont runis en groupes aussi homognes que possibles (ou blocs). Au sein de ces blocs chaque individu est ensuite aect alatoirement un traitement, de manire ce que tous les traitements soient prsents dans chacun des blocs le plan dexprience en blocs alatoires incomplets : dans ce cas tous les traitements ne sont pas prsents dans chacun des blocs le plan dexprience en split - plot : le principe du split - plot est le plus souvent associ celui des blocs alatoires complets. Dans ce cas, dans chacun des blocs sont crs autant de sous - blocs quil y a de classes au premier facteur tudi. A chacun de ces sous - blocs est associe une classe. Puis chaque sous - bloc est divis en autant dunits quil y a de classes au second facteur tudi. A chacun de ces sous - sous - blocs est associe une classe. Pour plus de deux facteurs, la situation est plus complexe. Quelle que soit la mthode employe, elle doit tre clairement dnie car elle doit tre prise en compte dans les analyses statistiques.

4. La dtermination de la taille de lchantillonIl existe un lien entre le seuil de rejet du test statistique utilis (voir ches 29 et 30), la puissance de ce test (voir che 32), la dirence entre les chantillons pour le paramtre mesur et la taille des chantillons. Dterminer la taille de lchantillon constituer passe donc par xer les autres paramtres. Ceci implique deux choses importantes : choisir avant de dmarrer ltude les types de test qui vont tre utiliss (ce qui oblige bien identier les questions auxquelles ltude doit rpondre) et leur prcision avoir une ide de la variabilit naturelle du paramtre mesur et / ou de la dirence minimale dtecter. Ceci passe soit par une tude de la bibliographie, soit par la consultation de spcialistes, soit par la ralisation dun pr - chantillonnage ou dune pr - exprience. Dans R, les fonctions power() et pwr() (la seconde tant contenue dans le package pwr) dterminent le paramtre souhait quand les autres sont xs, pour plusieurs tests. Toutes les fonctions dcrites sont bases sur le mme principe : le paramtre dterminer doit avoir comme valeur NULL tandis que tous les autres doivent tre xs. Comparaison de deux moyennes (test t de Student) power.t.test(n,delta,sd,sig.level,power,type) avec : n : eectif (identique pour les deux chantillons) delta : dirence minimale dtecter entre les deux moyennes sd : cart-type (identique pour les deux chantillons) sig.level : seuil de rejet (gnralement 0,05) power : puissance minimale du test (gnralement 80 ou 90 %) type : type de test ("two.sample" pour deux moyennes observes, "one.sample" pour une moyenne observe comparer avec une thorique, "paired" pour deux moyennes observes en sries apparies). pwr.t.test(n,d,sig.level,power,type) avec : d : A B (dirence des moyennes sur cart - type). Utiliser pwr.t2n.test(n1,n2,d,sig.level,power) pour deux chantillons de taille dirente (la fonction ne gre pas les sries apparies).

Comparaison de plus de deux moyennes (ANOVA) power.anova.test(groups,n,between.var,within.var,sig.level,power) avec : groups : nombre de modalits comparer between.var : variance intergroupe minimale dtecter within.var : variance intragroupe (identique pour toutes les modalits). La fonction ne gre pas les sries apparies. pwr.anova.test(k,n,f,sig.level,power) avec : k : nombre de modalits comparer f : taille minimale de leet dtecter. La fonction ne gre pas les sries apparies. Comparaison de deux proportions power.prop.test(n,p1,p2,sig.level,power) avec p1, p2 : proportion observe dans chaque chantillon. pwr.2p.test(h,n,sig.level,power) avec h : taille minimale de leet dtecter (en proportion). Utiliser pwr.2p2n.test(h,n1,n2,sig.level,power) pour deux chantillons de taille dirente. Corrlation linaire entre deux sries de donnes pwr.r.test(n,r,sig.level,power) avec r : coecient de corrlation linaire de Pearson minimum mettre en vidence.

5. Construction du tableau de donnesLa construction dun tableau de donnes correctement structur est une tape importante de ltude, car si elle est mal ralise elle peut mener des rsultats faux, ou le plus souvent des erreurs une fois dans R. Cette construction ncessite de se poser une question essentielle : quelles sont les variables prises en compte dans ltude ? Y rpondre implique didentier les variables quantitatives et les facteurs, ainsi que les classes des facteurs. Si les choses sont claires, lanalyse statistique le sera galement. Dune manire gnrale, il est conseill de toujours construire son tableau de donnes dans un tableur. Cela permet denregistrer le jeu de donnes dans un chier externe R, et donc de toujours pouvoir y revenir puisque R ne modie pas les chiers externes (sauf si on lui demande explicitement). Une fois dans le tableur, la rgle est simple : les individus doivent tre placs en lignes et les variables en colonnes. Il est conseill de donner un titre chaque colonne, qui deviendra le nom de la variable dans R. Il est indispensable cependant de respecter certaines rgles : les noms de variable ne doivent contenir ni espace, ni caractre accentu, ni symbole (ceci est une rgle pour tous les noms dobjet dans R). Si un nom de variable doit contenir deux mots, ils peuvent tre spars par un point (.) ou un tiret bas (_). Mieux vaut galement privilgier les noms courts mais clairs, car une fois dans R taper sans cesse des noms de variable longs est vite fastidieux. Le tableau de donnes doit absolument obir une autre rgle : aucune case ne doit tre vide. Sil manque une donne pour un individu, il faut se demander do elle vient : si cest une donne inutilisable (mesure rate, mal retranscrite. . .), cest normal. On dit alors quon a une donne manquante , que lon doit noter NA (pour Not Available, i.e. donne manquante). Le tableur comme R reconnaissent le NA, quils interprtent correctement si la situation est autre, cest que le tableau est mal construit et quen particulier les variables nont pas t bien dnies. La rexion simpose donc pour identier les variables et reconstruire un tableau de donnes. Si des analyses dans R doivent se faire uniquement sur un sous - ensemble du tableau de donnes, ou si pour certaines analyses le tableau de donnes serait plus facile utiliser sil tait construit autrement, il est conseill de construire plusieurs tableaux de donnes. Il est toujours possible de manipuler le tableau initial dans R pour en extraire une partie ou pour le transformer, mais il est clairement plus facile (et surtout moins source derreur) de le faire en amont, dans le tableur.

6. Importation du tableau de donnes dans RIl existe de nombreuses mthodes pour importer ses donnes dans R. Une seule est prsente ici, qui est la fois trs simple, fonctionne dans la plupart des situations et peut tre utilise sur toutes les plates - formes. La procdure se fait en trois tapes : 1. dans le tableur, slectionner toutes les cases constituant le tableau de donnes 2. copier ce tableau dans le bloc - notes et enregistrer le chier en .txt 3. dans R, charger le tableau de donnes grce la fonction read.table() et le stocker dans un objet : tableau