T DES M Table des Matières -...

268
T ABLE DES MATIÈRES - i © Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa Table des Matières INTRODUCTION 1 Objectifs du cours et philosophie d’enseignement 1 LE RÔLE DES STATISTIQUES DANS LA MÉTHODE SCIENTIFIQUE 3 La méthode hypothetico-déductive 3 Falsification d'hypothèses 3 Critères de qualité des hypothèses scientifiques 4 Généralité. 4 Exactitude. 4 Précision. 4 Simplicité (le principe de parcimonie) 4 Pourquoi les scientifiques utilisent-ils les statistiques? 5 Se convaincre et convaincre les autres (statistiques inférentielles) 5 Transmettre de l'information (statistiques descriptives) 5 Planifier des expériences 6 Ce que les statistiques peuvent faire pour vous 6 Fournir des critères objectifs pour tester des hypothèses biologiques. 6 Aider à optimiser vos efforts. 6 Vous aider à évaluer critiquement des raisonnements 7 Ce que les statistiques ne peuvent faire pour vous 7 Dire la vérité 7 Compenser pour une mauvaise planification ou l'absence de contrôles. 7 Indiquer l'importance biologique. 8 Critères de sélection des tests statistiques 8 La nature du problème et les propriétés des données 8 La fiabilité. 8 La puissance. 8 QUELQUES COMMENTAIRES SUR LES TESTS STATISTIQUES 11 Le sens de p 11 Seuil de signification 11 Types d'erreur dans les tests statistiques 11 Tests unilatéraux et bilatéraux 13 QUELQUES CONCEPTS FONDAMENTAUX: STATISTIQUES ET DISTRIBUTIONS 15 Paramètres de position 15 Paramètres de dispersion 16 La distribution normale 17 Intervalles de confiance pour observations 18 La distribution du t de Student 20 Intervalles de confiance pour la moyenne 21 Effet de la taille de l’échantillon 22 Effort d'échantillonnage requis pour estimer la moyenne 22 Intervalle de confiance pour la médiane 23 Intervalle de confiance pour la variance 24 TESTS D'AJUSTEMENT À UNE DISTRIBUTION THÉORIQUE 27 Tests du Khi-carré et de G 27 Facteurs de correction pour le test de khi-carré et de G lorsqu'il n'y a que deux catégories 28 Le test binomial 29 Tests de normalité à l'aide du Khi-carré ou de G 31 Le test de Kolmogorov-Smirnov 31 Test de normalité de Wilks-Shapiro 34 Test de normalité de Lilliefors 34 Commentaires sur les tests de normalité 34 LE CONCEPT D'ERREUR TYPE ET LE PRINCIPE FONDAMENTAL DU TEST DE T 37 Erreur type 37 Le principe du test de t 37 Effet de violations de l'hypothèse implicite de normalité 37 Transformation des données 39 COMPARAISONS DE DEUX MOYENNES, MÉDIANES, OU VARIANCES 41 Différences entre moyennes 41 Différences entre deux variances 42 Différences entre deux médianes 43 Autres tests nonparamétriques pour comparer la tendance centrale entre deux échantillons 43 Échantillons appariés 44 ANALYSE DE VARIANCE (ANOVA) À UN CRITÈRE DE CLASSIFICATION 47 Les trois types d’ANOVA (I, II et III) 48 Hypothèses implicites de l’ANOVA 49 Tests des conditions d’application 49 Le tableau d'ANOVA 51 La loi de Taylor pour trouver la meilleure transformation 52 Alternative non-paramétriques à l’ANOVA: le test de Kruskall-Wallis 52 COMPARAISONS MULTIPLES 55 Comparaisons planifiées et non-planifiées 55 Des approches différentes aux comparaisons multiples non-planifiées 55 Méthode de Bonferroni et Sidak 56 Méthode de Scheffé 56 Méthode de Tukey et GT2 57 Test de Student-Newman-Keuls (SNK) et de Duncan 58 Le test de Dunnett 58 Stratégies pour la sélection d’un test de comparaisons multiples a posteriori 58 Comparaisons multiples non-paramétriques 59 Intervalles de confiance pour les moyennes des groupes 59 Quelques points à retenir 60 ANALYSE DE VARIANCE À PLUSIEURS CRITÈRES DE CLASSIFICATION 61 Distinction entre l'ANOVA factorielle à deux critères de classification et l'ANOVA hiérarchique 61 Choisir entre l’ANOVA factorielle et l’ANOVA hiérarchique 62 ANOVA hiérarchique 63 Modèle de l’ANOVA hiérarchique 63 Tableau d’ANOVA hiérarchique 64 ANOVA factorielle à deux facteurs de classification 65 Le modèle de l’ANOVA factorielle 65 Tableau d’ANOVA factorielle 66

Transcript of T DES M Table des Matières -...

TABLE DES MATIÈRES - i

Table des Matières

INTRODUCTION 1Objectifs du cours et philosophie d’enseignement 1

LE RÔLE DES STATISTIQUES DANS LA MÉTHODE SCIENTIFIQUE 3

La méthode hypothetico-déductive 3Falsification d'hypothèses 3Critères de qualité des hypothèses scientifiques 4

Généralité. 4Exactitude. 4Précision. 4Simplicité (le principe de parcimonie) 4

Pourquoi les scientifiques utilisent-ils les statistiques? 5Se convaincre et convaincre les autres (statistiques inférentielles) 5Transmettre de l'information (statistiques descriptives) 5Planifier des expériences 6

Ce que les statistiques peuvent faire pour vous 6Fournir des critères objectifs pour tester des hypothèses biologiques. 6Aider à optimiser vos efforts. 6Vous aider à évaluer critiquement des raisonnements 7

Ce que les statistiques ne peuvent faire pour vous 7Dire la vérité 7Compenser pour une mauvaise planification ou l'absence de contrôles. 7Indiquer l'importance biologique. 8

Critères de sélection des tests statistiques 8La nature du problème et les propriétés des données 8La fiabilité. 8La puissance. 8

QUELQUES COMMENTAIRES SUR LES TESTS STATISTIQUES 11

Le sens de p 11Seuil de signification 11Types d'erreur dans les tests statistiques 11Tests unilatéraux et bilatéraux 13

QUELQUES CONCEPTS FONDAMENTAUX: STATISTIQUES ET DISTRIBUTIONS 15

Paramètres de position 15Paramètres de dispersion 16La distribution normale 17Intervalles de confiance pour observations 18La distribution du t de Student 20Intervalles de confiance pour la moyenne 21

Effet de la taille de l’échantillon 22Effort d'échantillonnage requis pour estimer la moyenne 22Intervalle de confiance pour la médiane 23Intervalle de confiance pour la variance 24

TESTS D'AJUSTEMENT À UNE DISTRIBUTION THÉORIQUE 27

Tests du Khi-carré et de G 27Facteurs de correction pour le test de khi-carré et de G lorsqu'il n'y a que

deux catégories 28Le test binomial 29Tests de normalité à l'aide du Khi-carré ou de G 31Le test de Kolmogorov-Smirnov 31Test de normalité de Wilks-Shapiro 34Test de normalité de Lilliefors 34Commentaires sur les tests de normalité 34

LE CONCEPT D'ERREUR TYPE ET LE PRINCIPE FONDAMENTAL DU TEST DE T 37

Erreur type 37Le principe du test de t 37Effet de violations de l'hypothèse implicite de normalité 37Transformation des données 39

COMPARAISONS DE DEUX MOYENNES, MÉDIANES, OU VARIANCES 41

Différences entre moyennes 41Différences entre deux variances 42Différences entre deux médianes 43Autres tests nonparamétriques pour comparer la tendance centrale entre deux échantillons 43Échantillons appariés 44

ANALYSE DE VARIANCE (ANOVA) À UN CRITÈRE DE CLASSIFICATION 47

Les trois types d’ANOVA (I, II et III) 48Hypothèses implicites de l’ANOVA 49Tests des conditions d’application 49Le tableau d'ANOVA 51La loi de Taylor pour trouver la meilleure transformation 52Alternative non-paramétriques à l’ANOVA: le test de Kruskall-Wallis 52

COMPARAISONS MULTIPLES 55Comparaisons planifiées et non-planifiées 55Des approches différentes aux comparaisons multiples non-planifiées 55Méthode de Bonferroni et Sidak 56Méthode de Scheffé 56Méthode de Tukey et GT2 57Test de Student-Newman-Keuls (SNK) et de Duncan 58Le test de Dunnett 58Stratégies pour la sélection d’un test de comparaisons multiples a posteriori 58Comparaisons multiples non-paramétriques 59Intervalles de confiance pour les moyennes des groupes 59Quelques points à retenir 60

ANALYSE DE VARIANCE À PLUSIEURS CRITÈRES DE CLASSIFICATION 61

Distinction entre l'ANOVA factorielle à deux critères de classification et l'ANOVA hiérarchique 61Choisir entre l’ANOVA factorielle et l’ANOVA hiérarchique 62ANOVA hiérarchique 63

Modèle de l’ANOVA hiérarchique 63Tableau d’ANOVA hiérarchique 64

ANOVA factorielle à deux facteurs de classification 65Le modèle de l’ANOVA factorielle 65Tableau d’ANOVA factorielle 66

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

ii - BIOSTATISTIQUES APPLIQUÉES

Épreuves d’hypothèses en ANOVA factorielle 66Comparaisons multiples 67ANOVA à deux critères de classification sans réplication 67

Tableau d’ANOVA 68ANOVA à deux critères de classification non-paramétrique 68Effectifs inégaux (Plan non-balancé) 69

CORRÉLATION 71Hypothèses implicites 71Test de signification 72Intervalles de confiance 73Comparaison de deux corrélations 74Corrélation de rang 74

RÉGRESSION LINÉAIRE SIMPLE 75Régression vs Corrélation 75Le modèle général et les hypothèses implicites 75Hypothèses implicites 76Épreuves d’hypothèses 76Test des hypothèses implicites 76Erreur type de la pente 77Intervalles de confiance en régression 78Prédiction inversée 79Régression avec réplication 80Transformation des données 81L’influence des valeurs extrêmes en régression 83Régression pondérée 85Quelques points à retenir 85

ANALYSE DE COVARIANCE (ANCOVA) 87Le modèle d’ANCOVA 87Hypothèses implicites 87L’ajustement des modèles en ANCOVA 88

RÉGRESSION MULTIPLE 93Le modèle général 93Hypothèses implicites 94Épreuves d'hypothèses 94Multicolinéarité 95Détection de la multicolinéarité 96Solutions au problème de multicolinéarité 97

Récolter des données supplémentaires 97Éliminer certaines des variables indépendantes 97Régression sur les composantes principales ou “Ridge régression” 98

Sélection des variables indépendantes 98Toutes les régressions 99Sélection progressive 99Élimination rétrograde 100Régression pas à pas 100

Régression curvilinéaire (polynomiale) 100Variables indicatrices 102

RÉGRESSION PONDÉRÉE, PROBIT, NORMIT, LOGIT ET NON-LINÉAIRE 105

Régression pondérée 105Régression probit, normit et logit 105Régression non-linéaire 109

Une mise en garde. 109

TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES 111

X 2 et test de G 111Subdivision d’un tableau de contingence 113

Un erreur fréquente 113Modèles log-linéaires 113

PERMUTATION ET BOOTSTRAP 117Tests de permutation 117Bootstrap 118Commentaires 119

EXERCICES DE LABORATOIRE 121Quelques points importants à retenir 121

LABO- INTRODUCTION À S-PLUS 123Le cahier de bord, une habitude à prendre 123Ouvrir un fichier de données S-PLUS 124Création de diagrammes de dispersion 124Calculer des statistiques descriptives 128 Importer/Exporter des fichiers 129Manipulation de données dans le chiffrier 129

Effacer une valeur. 130Effacer une rangée (cas). 130Effacer une colonne (variable). 130Effacer un bloc de données. 130Changer une valeur. 130Ajouter une nouvelle variable. 130Ajouter un nouveau cas. 131Insérer une colonne 131

Créer des sous-ensembles de cas 131Transformer des données 133

Créer de nouvelles variables qui sont une fonction mathématique d'autres variables 133Créer de nouvelles variables qui sont des fonctions logiques ou relationnelles d'autres variables 134Calculer les rangs 135

Trier des données 136Produire des graphiques 136

Histogramme 136Diagrammes de probabilité 137Box plots 138

Administrer les données, les graphiques, et les rapports de sortie avec Object Explorer 139

LABO- COMPARAISON DE DEUX ÉCHANTILLONS 143Examen visuel des données 143Comparer les moyennes de deux échantillons indépendants : comparaisons paramétriques et non paramétriques 147Comparer les moyennes de deux échantillons appareillés 153Comparer la médiane et la variance de deux échantillons 155Comparer la distribution de deux échantillons 157Références 158

LABO- ANOVA À UN CRITÈRE DE CLASSIFICATION 159ANOVA à un critère de classification et comparaisons multiples 159

Visualiser les données 159Vérifier si les conditions d'application de l'ANOVA paramétrique sont rencontrées 162Faire l’ANOVA 165Les comparaisons multiples 167

Transformations de données et ANOVA non-paramétrique 170Examen des valeurs extrêmes 174

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES 177

Plan factoriel à deux facteurs de classification et réplication 177ANOVA a effets fixes (Modèle I) 177

BIO 4518 - Automne 2003

TABLE DES MATIÈRES - iii

ANOVA à effets mixtes (Modèle III) 185Plan factoriel à deux facteurs de classification sans réplication 186Plans hiérarchiques 189ANOVA non paramétrique avec deux facteurs de classification 193Comparaisons multiples 194

Quelques conseils 200

LABO- CORRÉLATION LINÉAIRE ET RÉGRESSION LINÉAIRE SIMPLE 201

Diagrammes de dispersion 201Transformations et le coefficient de corrélation 203Matrices de corrélations et correction de Bonferroni 205Corrélations non paramétriques : r de Spearman et tau de Kendall 207Régression linéaire simple 210Vérifier les conditions d'application de la régression 212Transformation des données en régression 213

LABO- ANCOVA 217Homogénéité des pentes 217Le modèle d'ANCOVA 221Comparer l’ajustement de modèles 224

Programme S-PLUS 225

LABO- RÉGRESSION MULTIPLE 227Conseils généraux 227Sélection des variables indépendantes 227

Construire manuellement un modèle de régression multiple 228Régression multiple pas à pas (stepwise) 233

Régression polynomiale 236

LABO- TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES. 241

Création du fichier de données 241Éprouver une hypothèse extrinsèque 245Épreuve d'indépendance pour tableau à deux critères de classification 247Modèles log-linéaires et tableaux de contingence à critères de classification multiples. 249

Comment spécifier un modèle log-linéaire avec S-PLUS 250Interprétation du fichier de sortie de SYSTAT 251

Exercice 253

RÉFÉRENCES 259

GLOSSAIRE 261Biais 261Conservateur 261Erreur α 261Erreur β 261Exactitude 261Libéral 261Paramètre 262Puissance 262Précision 262Robustesse 262Sensibilité 262

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

iv - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

TABLE DES MATIÈRES - v

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

vi - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

INTRODUCTION - 1

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Introduction

Objectifs du cours et philosophie d’enseignementL’objectif principal de ce cours est de vous aider à acquérir ou à augmenter votre gros bon sens en statistiques, et de vous aider à analyser vos données. Vous avez tous suivi au moins un cours de statistiques mais peu d’entre vous ont vraiment apprécié l’expérience. Il en a été de même pour nous. Nous ne nous sommes réellement intéressé aux statistiques que lorsque nous avons commencé à faire de la recherche. Le désir de présenter les résultats d'une manière convaincante nous a mené à la réalisation que les statistiques étaient l'outil le plus logique et le plus puissant pour le faire. Malheureusement, dans notre cas, il était trop tard et plusieurs aspects intéressants de nos premières recherches ne purent être développés parce que nous n'avions pas tenu compte de certaines considérations statistiques lors de la planification des expériences. Nous espérons que ce cours évitera au moins à certains d'entre vous de commettre les mêmes erreurs.

Nous ne sommes pas des vrais statisticiens, seulement des écologistes qui utilisent les statistiques presque quotidiennement. Notre attitude face aux statistiques (sans doute parce que nous avons peu de formation formelle en mathématiques et en statistiques) est similaire à celle que nous avons face à notre voiture: nous ne sentons pas le besoin de comprendre tous les détails de son fonctionnement pour la conduire, mais néanmoins trouvons la logique et le gros bons sens fort utiles lorsqu'elle refuse de démarrer. Il n'y aura pas de preuves ou de démonstrations de théorèmes statistiques dans ce cours. D'un autre côté, il y aura beaucoup d'exemples et de descriptions visuelles des concepts les plus importants de manière à vous y familiariser avant que vous ayez à les utiliser pour vos propres analyses. Au laboratoires vous aurez l'occasion de mettre en pratique les concepts vus en classe, d'analyser des données avec un logiciel de première classe (S-Plus) et d'obtenir de l'aide pour l'analyse de vos propres données.

Pour que ce cours vous soit utile, vous devrez y mettre du temps. Nous savons que tous les professeurs vous disent cela et que vous journées sont déjà bien remplies. Il y a cependant deux stratégies qui peuvent vous aider à maintenir votre intérêt et réduire un peu votre tâche: d'abord, essayez de mettre la main sur des données qui vous intéressent, ensuite utilisez ce cours pour analyser pour vous aider dans un autre cours où vous devez faire une analyse de données.

2 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

LE RÔLE DES STATISTIQUES DANS LA MÉTHODE SCIENTIFIQUE - 3

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Le rôle des statistiques dans la méthode scientifique

La méthode hypothetico-déductiveLe progrès en science peut être mesuré par le taux auquel les possibilités logiques sont éliminées. Une des approches les plus couronnées de succès pour maximiser ce taux est la méthode hypothetico-déductive, qui est pour certains la méthode scientifique par excellence. Le diagramme suivant illustre les étapes de cette méthode

Le point de départ d'une recherche scientifique est un problème ou une question qui est stimulée par des observations. Par induction, une hypothèse est avancée pour expliquer les observations. En utilisant la logique et en faisant des déductions, les implications de cette hypothèse sont développées en prédictions. Une expérience est alors planifiée pour tester ces prédictions. Les résultats de l’expérience sont analysés pour en tirer une conclusion. Si les conclusions supportent l’hypothèse, le problème peut être considéré comme résolu, et on peut passer à une autre problème. Si les conclusions expérimentales invalident l’hypothèse, l’hypothèse est modifiée ou remplacée par une autre hypothèse qui sera à son tour testée par une expérience. Le progrès dans un domaine scientifique est souvent relié à la vitesse à laquelle un cycle est complété.

Falsification d'hypothèsesLa Vérité, malheureusement, n'est pas à la portée de la Science. On doit toujours garder à l'esprit que même nos plus glorieux succès en science et nos explications les plus ingénieuses ne demeurent que des hypothèses à propos de la réalité. La méthode scientifique ne peut pas prouver qu'une hypothèse est vraie; elle ne peut que corroborer ou

Figure 1. Étapes de la démarche scientifique selon la méthode hypothético-déductive Hypothèse

Prédictions

ObservationsConclusions

Induction Déduction

Expérience

Inférence

Question

4 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

invalider (falsifier) des hypothèses. Une hypothèse qui a survécu à de nombreux et rigoureux tests est parfois considérée comme un fait, mais aucune hypothèse scientifique ne peut être vraiment considérée comme une vérité absolue. Démontrer qu'une hypothèse est fausse est quand même un pas dans la bonne direction puisque cela permet de raffiner l’hypothèse, et de réduire l'étendue du possible vers le probable.

Critères de qualité des hypothèses scientifiquesPuisque il est fort possible que toutes les hypothèses et théories scientifiques actuelles soit un jour invalidées, et parce qu'il y a couramment plusieurs hypothèses qui expliquent les mêmes faits, il est important d'avoir des critères objectifs permettant de juger de leur valeur relative. Ces critères ont été débattus par les philosophes des sciences depuis plusieurs décades si ce n'est des siècles. Ce qui suit n'est qu'un très bref sommaire des critères les plus importants:

Généralité.

La meilleure de deux hypothèses élimine plus de possibilités et peut être appliquée à plus de situations.

Exactitude.

Les prédictions d'une bonne hypothèse sont, en moyenne, correctes.

Précision.

La différence entre les valeurs observées et celles prédites par une bonne hypothèse est, en moyenne, petite.

Simplicité (le principe de parcimonie)

Une bonne hypothèse est simple et plus pratique ou économique à utiliser. Une bonne hypothèse est élégante

Dans bien des cas, ces critères sont rencontrés à divers degrés par les hypothèses en compétition pour expliquer les mêmes faits ou solutionner le même problème. Une hypothèse plus générale est souvent moins précise. Une hypothèse simple est souvent moins exacte. La coexistence de multiples hypothèses peut généralement être expliquée par l'absence d'une hypothèse supérieure aux autres à tous points de vue.

LE RÔLE DES STATISTIQUES DANS LA MÉTHODE SCIENTIFIQUE - 5

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Pourquoi les scientifiques utilisent-ils les statistiques?Les statistiques ont de multiples usages en science. Elles peuvent être utilisées comme un outil objectif pour évaluer la fiabilité des conclusions d'expériences ou pour résumer l'information contenue dans un ensemble de données. La connaissance des propriétés des tests statistiques peut également être mise à profit lors de la planification d'expérience et aider à maximiser la fiabilité des conclusions.

Se convaincre et convaincre les autres (statistiques inférentielles)

Les tests statistiques permettent d'estimer la probabilité que les résultats observés (par exemple la différence de rendement entre des plantes soumises à divers niveaux de radiation) soient causés par la chance ou des variations aléatoires. Nous savons tous que les entités biologiques (fussent-elles des enzymes ou des individus) sont variables et que leurs propriétés varient dans le temps. Compte-tenu de cette variabilité inhérente, les résultats d'expériences identiques effectuées sur des entités différentes doivent donc varier quelque peu. Sachant que la même expérience doit produire des résultats variables, comment juger si les différences observées pour divers traitements sont causées par les traitements ou simplement par les différences entre les entités mesurées? Comment se convaincre et convaincre les autres que les effets observés sont réels et non pas dûs à des variations aléatoires?

La procédure acceptée en science est de calculer la probabilité que les résultats observés aient pu être causés par la chance. Si cette probabilité est faible, il est alors raisonnable d'accepter que c'est la manipulation plutôt que la chance qui est responsable des différences observées entre les traitements. Les statistiques fournissent un ensemble de règles qui permettent d'estimer ces probabilités, et de tirer des conclusions objectives (faire des inférences).

Transmettre de l'information (statistiques descriptives)

Les statistiques peuvent également résumer l'information contenue dans un ensemble de données et ainsi faciliter sa transmission. Les revues scientifiques permettent rarement la publication de grands ensembles de données brutes. L'espace est limité, et la plupart des lecteurs ne sont pas intéressés par ces détails. Toutefois, pour pouvoir évaluer correctement les conclusions tirées d'une expérience, ils est souvent important de savoir certains détails à propos du matériel biologique utilisé (par exemple le nombre d'érables étudiés, leur âge, leur taille, etc.). Des descripteurs statistiques sont souvent employées

6 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

pour décrire la tendance centrale et la variabilité de variables biologiques. Il faut réaliser, toutefois, que ces descripteurs statistiques ne retiennent qu'une partie de l'information contenue dans les données brutes. La moyenne et l'écart-type d'une variable ne peuvent suffire (sauf dans de rares cas) à reproduire sa distribution empirique dans la population statistique.

Planifier des expériences

Si l'on connaît la variabilité naturelle des entités biologiques à l'étude, et si l'on s'attend à ce qu'une manipulation produise un effet d'une magnitude donnée, il est possible de déterminer à l'avance combien de fois une expérience devra être répétée pour obtenir des résultats convaincants. Ces considérations statistiques peuvent être d'une grande aide lors de la planification d'expériences ou d'études en indiquant combien de travail devra être réalisé avant d'obtenir une réponse valable, et parfois en nous indiquant qu'il y a peu d'espoir que nous puissions démontrer l'effet qui nous intéresse même en y travaillant pour le reste de notre vie.

Ce que les statistiques peuvent faire pour vous

Fournir des critères objectifs pour tester des hypothèses biologiques.

Une connaissance des statistiques permet de réaliser des travaux plus convaincants et de mieux évaluer le travail des autres. Dans le contexte scientifique, les statistiques jouent le rôle d'un juge impartial dont la fonction est de décider si vos découvertes sont dignes de mention ou si l'évidence que vous apportez est trop mince pour convaincre les autres.

Aider à optimiser vos efforts.

Personne n'aime perdre son temps. Pourtant, de nombreux scientifiques gaspillent un temps et des ressources précieuses à réaliser des expériences qui fournissent très peu d'information. Lorsque vous planifiez une expérience, vous ne devriez pas vous en tenir uniquement aux aspects techniques, mais également prévoir l'analyse statistique des résultats. Si vous effectuez votre expérience avant de penser à l'analyse des résultats, vous pourriez fort bien réaliser après coup que le design expérimental était inadéquat ou encore qu'il aurait été nécessaire de répéter l’expérience à de plus nombreuses reprises. Une connaissance pratique des statistiques peut réduire les chances que vous vous retrouviez dans cette fâcheuse position.

LE RÔLE DES STATISTIQUES DANS LA MÉTHODE SCIENTIFIQUE - 7

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Vous aider à évaluer critiquement des raisonnements

Tous le monde essaie de vous convaincre de quelque chose. Certains utilisent même des arguments “scientifiques” pour appuyer leurs dires. À mon avis, la plupart des gens (même les scientifiques) ne sont pas assez critiques face à ces arguments. Par exemple, j'ai entendu un débat entre deux politiciens sur les effets des programmes d’enregistrement des armes à feu sur les crimes violents. Un politicien citait une étude démontrant une réduction de 19% des crimes commis avec une arme à feu dans les régions où les armes devaient être enregistrées par rapport à celles où un tel enregistrement n’est pas obligatoire. Ce pourcentage cité était impressionnant, tel que voulu par le politicien. Toutefois, une lecture de l’étude en question révélait que, à cause de la grande variabilité entre les régions (avec ou sans programme d’enregistrement), cette réduction de 19% n’était pas statistiquement significative. Un auditeur statistiquement naïf pourrait avoir été convaincu par le politicien, mais pas vous après avoir suivi ce cours!

Ce que les statistiques ne peuvent faire pour vousLes statistiques ne peuvent remplacer la réflexion et le travail. Une des problèmes avec les statistiques est que les divers tests donnent toujours une réponse (spécialement lorsqu'effectués par ordinateur). Les logiciels n'indiquent presque jamais si un test statistique est mal employé ou si la réponse porte à confusion.

Dire la vérité

Même dans des conditions idéales, puisque l'improbable se produit de temps à autre, les statistiques vous induiront quelquefois à prendre la mauvaise décision. Il ne faut jamais confondre conclusion statistique et vérité absolue. Les statistiques ne peuvent dire la vérité; elles ne peuvent que permettre d'estimer la probabilité qu'un énoncé soit vrai, compte-tenu des données disponibles. C'est déjà beaucoup...

Compenser pour une mauvaise planification ou l'absence de contrôles.

Les résultats de l'analyse statistique ne peuvent être de meilleure qualité que les données qui sont à la source. Des manipulations statistiques poussées peuvent parfois cacher, mais jamais corriger, les lacunes d'une expérience. Si une expérience n'a pas de contrôle adéquat, les statistiques ne peuvent qu'indiquer si les chiffres diffèrent

8 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

entre le “contrôle” et le traitement, pas si la différence peut être attribuée au traitement. Par conséquent, il faut bien réfléchir avant de commencer une expérience.

Indiquer l'importance biologique.

Les tests statistiques permettent de déterminer la probabilité que le résultat observé soit dû uniquement à la chance. Si cette probabilité est faible, on dit que le résultat est significatif. Ce terme n'a rien à voir avec la signification biologique ou sociale d'un résultat. Dans ces contextes la signification est évaluée selon de critères différents et souvent moins impartiaux. La signification statistique n'implique pas la signification biologique. Par exemple, on pourrait trouver que la température a un effet statistiquement significatif sur le taux de reproduction des êtres humains. Toutefois, puisque d'autres facteurs (âge, milieu socio-économique) ont une influence beaucoup plus forte, certains seront portés à dire que l'effet de la température est biologiquement insignifiant comparé aux autres.

Critères de sélection des tests statistiques

La nature du problème et les propriétés des données

Impressionnés par la grande variété de tests statistiques disponibles, certains ont l'impression qu'il est possible de choisir le test qui donnera la réponse voulue, supportant ainsi la parole célèbre de Benjamin D’Isreali: “There are three types of lies: lies, darn lies, and statistics...”. En fait, pour une hypothèse donnée, le nombre de tests statistiques qui peuvent s'appliquer est relativement restreint. Le choix d’un test statistique dépend du but visé, du design expérimental et du type de variables mesurées (continues, discontinues, rangs, fréquences, etc.).

La fiabilité.

Pour certains types d'hypothèses, plusieurs tests sont potentiellement applicables. Cependant la fiabilité de la majorité des tests repose sur certaines conditions d'application. Si ces conditions préalables ne sont pas respectées, le test peut ne pas être fiable. L’examen des conditions d’application des tests potentiels permet d'éliminer les tests les moins fiables.

La puissance.

Lorsque plusieurs tests fiables peuvent être utilisés, le choix est dicté par leur capacité relative à distinguer des effets de faible amplitude de la variation aléatoire. Dans une situation donné, le test le plus puissant

LE RÔLE DES STATISTIQUES DANS LA MÉTHODE SCIENTIFIQUE - 9

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

est celui qui a la plus petite limite de détection. Un test faible ne détectera pas un effet significatif qui serait détecté par un test plus puissant.

10 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

QUELQUES COMMENTAIRES SUR LES TESTS STATISTIQUES - 11

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Quelques commentaires sur les tests statistiques

Le sens de pLes tests statistiques sont bâtis à partir de plusieurs composantes: une hypothèse à tester (H0, l’hypothèse nulle), des observations à partir desquelles on peut calculer une statistique et des présomptions quant aux propriétés de cette statistique. Le résultat du test d’accepter ou de rejeter l’hypothèse nulle est basée sur p, la probabilité d’observer des résultats comme ceux qui ont été obtenus si l’hypothèse nulle est vraie.

P n'est pas la probabilité que l’hypothèse nulle soit vraie; quoique, pour simplifier les choses, on le conçoit souvent en pratique comme cela. Une définition plus exacte doit mentionner les conditions:

Si les données rencontrent les conditions d’application

et si H0 est vraie

alors, p est la probabilité d'observer une statistique aussi éloignée de la valeur prédite par l’hypothèse nulle. Cette probabilité est typiquement calculée en se basant sur des distributions théoriques.

Seuil de significationDit simplement (mais faussement!), les tests statistiques permettent d'estimer la probabilité qu'une hypothèse soit vraie. Si cette probabilité est faible, alors on rejette l'hypothèse. Le seuil de décision le plus souvent utilisé est 5%, et les hypothèses ayant moins de 5% des chances d'être correctes sont généralement rejetées. Il ne faut jamais oublier que ce seuil est arbitraire, et qu'il y a perte d’information lorsque seule la décision finale est rapportée sans la valeur de la probabilité. Il y a une grande différence entre un résultat significatif à 0.000001% et un autre à 4.9999%; alors qu'il n'y a que peu de différence entre un résultat non significatif à 5.01% et un résultat significatif à 4.99%.

Types d'erreur dans les tests statistiquesUne hypothèse vraie sera parfois rejetée, alors qu'une hypothèse fausse sera parfois acceptée. Ce sont les deux types d'erreurs qui peuvent être commises à la suite d'un test statistique. Le premier type d'erreur (rejeter une hypothèse vraie) est communément appelé erreur

12 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

du premier type, de type I, ou erreur α. Le second type d'erreur (accepter une hypothèse fausse) est appelé erreur du second type, erreur de type II, ou erreur β. La probabilité de commettre une erreur de type I est généralement connue: c'est le seuil de probabilité utilisé pour accepter ou rejeter l’hypothèse nulle. Par contre, on ne connaît généralement pas la probabilité de commettre une erreur de type II, quoique cette probabilité soit inversement reliée à la probabilité de commettre une erreur de type I. La seule façon de réduire les deux type d’erreurs est d’augmenter n, l’effectif de l’échantillon.

Dans certains cas, une information indirecte permet d’estimer la probabilité de commettre les deux types d’erreur. Par exemple, les premiers tests de dépistage des porteurs du Virus VIH permettaient de détecter 95% des porteurs. Des études ultérieures ont démontré que, dans environ 1% des cas, le test produisait de faux résultats positifs (i.e. le test disait qu’une personne était porteuse du VIH alors qu’elle ne l’était pas. Quelle horreur!). Dans ce cas, le niveau α est de 1% (dans 1% des cas, le test a infirmé l’hypothèse nulle que l’individu n’était pas porteur alors que cette hypothèse nulle était vraie) et le niveau β est de 5% (5% des individus porteurs du virus n’étaient pas détectés, et le médecin acceptait l’hypothèse nulle par erreur).

La pratique courante en biologie est de rapporter la probabilité associée au test d'hypothèse avec la conclusion d'accepter ou de rejeter l’hypothèse testée. Rarement voit-on une discussion ou un estimé de la probabilité de commettre une erreur de type II, même si c'est un élément d’information capital dans bien des cas. Considérez l'exemple suivant:

Une compagnie tente de développer un nouvel insecticide contre les mouches noires. Après d'importants investissements, un nouveau composé beaucoup plus efficace que ce qui est alors sur le marché est développé. Avant de le mettre en vente, la compagnie doit d'abord démontrer que le produit n'est pas dangereux pour les mammifères et les oiseaux. La compagnie se charge de faire des tests et rapporte que son produit n'a pas causé d'augmentation du taux de mortalité des cobayes exposés (p > 0.05). Seriez-vous prêt à autoriser la vente de ce produit?

La première question que vous devriez vous poser avant de rendre votre décision est: quelle est la probabilité que les tests effectués par la compagnie n'aient pu détecter un effet réel; i.e. quelle est la probabilité que la compagnie commette une erreur de type II et qu'en acceptant l’hypothèse selon laquelle son produit est sans danger elle accepte une hypothèse fausse. Puisque le taux de mortalité et l'espérance de vie des cobayes est variable, un moyen d'obtenir des résultats qui seraient avantageux (à court terme) pour la compagnie est d'utiliser un

QUELQUES COMMENTAIRES SUR LES TESTS STATISTIQUES - 13

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

échantillon petit et de faire une courte expérience. La probabilité de détecter un effet significatif serait alors très faible. La compagnie, pour vous convaincre, devrait donner une indication de la probabilité de détecter un effet de taille raisonnable, compte tenu du design expérimental utilisé. Par exemple, que compte tenu du nombre de cobayes utilisés, et de la durée des expériences, que le design expérimental aurait 95% des chances de détecter une augmentation de 2% du taux de mortalité des cobayes.

Notez que les probabilités α et β sont inversement reliées. Par exemple, en construisant un intervalle de confiance de la moyenne, si l'on réduit α, l'intervalle de confiance grandit. A la limite, si l'on pose α=0, alors l'intervalle de confiance est infini. β, qui dans ce cas correspondrait à la probabilité de faussement conclure qu'une observation fait partie de la même population, est alors 1 puisque toutes les valeurs possibles seront incluses dans l'intervalle de confiance.

Tests unilatéraux et bilatérauxPour la plupart des tests statistiques, il y a deux types d’hypothèses qui peuvent être éprouvées: si un paramètre est égal à une certaine valeur ou si un paramètre est plus petit ou égal (plus grand ou égal) à une certaine valeur. Dans les tests bilatéraux, l’hypothèse nulle est que le paramètre est égal à une certaine valeur théorique. Cette hypothèse sera acceptée si la valeur observée est près de la valeur théorique, et elle sera rejetée si elle est loin de la valeur théorique, peu importe si la valeur observée est plus grande ou plus petite que la valeur théorique. Si l’hypothèse nulle suppose que le paramètre est égal à 0, des valeurs observées très négatives ou très positives pourraient nous amener à rejeter l'hypothèse.

Dans les tests unilatéraux, l’hypothèse nulle est que le paramètre est plus grand (ou plus petit) ou égal à une valeur quelconque. Si l’hypothèse nulle suppose que le paramètre doit être plus petit que 0, seules des valeurs observées plus grandes que 0 pourraient nous amener à rejeter l'hypothèse.

14 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Il est donc important d'énoncer a priori l'hypothèse qui est testée comme étant une hypothèse bilatérale ou unilatérale. La conclusion statistique dépendra souvent du type d'hypothèse retenue. Par exemple, certaines différences entre les valeurs observées et les valeurs attendues pourraient ne pas être suffisamment grandes pour être “significatives” dans un test bilatéral mais l'être dans un test unilatéral. Cette propriété des tests unilatéraux peut être mise à profit par des chercheurs peu scrupuleux pour produire des résultats “significatifs”. Cette pratique aberrante a contribué à donner aux tests unilatéraux un petit air suspect qu’ils ne méritent pas. Les tests unilatéraux sont tout à fait appropriés lorsque l’hypothèse formulée à priori est unilatérale. Une exemple d’une telle situation serait un test d’un nouvel insecticide visant à démontrer qu’il est moins toxique que celui qui est présentement utilisé.

Figure 2. Zone d'acceptation et de rejet de l'hypothèse nulle pour un test bilatéral (A) et des tests unilatéraux (B et C). Notez que la partie ombrée (la zone de rejet) représente la même proportion dans les trois cas, mais les valeurs critiques diffèrent.

-3 -2 -1 0 1 2 3

-3 -2 -1 0 1 2 3

-3 -2 -1 0 1 2 3

"/2"/2

"

"

1-"

1-"

1-"

A

B

C

-3 -2 -1 0 1 2 3

-3 -2 -1 0 1 2 3

-3 -2 -1 0 1 2 3

α/2α/2

α

"

1-α

1-α

1-α

-3 -2 -1 0 1 2 3

-3 -2 -1 0 1 2 3

-3 -2 -1 0 1 2 3

"/2"/2

"

"

1-"

1-"

1-"

A

B

C

-3 -2 -1 0 1 2 3

-3 -2 -1 0 1 2 3

-3 -2 -1 0 1 2 3

α/2α/2

α

"

1-α

1-α

1-α

QUELQUES CONCEPTS FONDAMENTAUX: STATISTIQUES ET DISTRIBUTIONS - 15

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Quelques concepts fondamentaux: Statistiques et distributions

Cette section est une revue des techniques utilisées pour décrire la distribution des données dans un échantillon et pour calculer un intervalle de confiance autour d’une moyenne, de la médiane, et de la variance.

Les biologistes sont en général intéressés aux caractéristiques des populations (paramètres). Il est toutefois rare que l'on puisse travailler avec une population entière; la plupart du temps les données ne sont disponibles que pour un sous ensemble de cette population, un échantillon. C'est à partir de cet échantillon qu'on essaiera de décrire les paramètres de la population. Les estimés des paramètres obtenus à partir de l’échantillon sont appelés statistiques. Ces statistiques doivent idéalement être exactes, précises, et consistantes.

Exactitude. Une bonne statistique a, en moyenne, une valeur qui se rapproche de la vraie valeur du paramètre qu’elle estime. Une statistique exacte est donc non biaisée et une statistique inexacte est biaisée.

Précision. Une bonne statistique, lorsque calculée à partir de divers échantillons tirés de la même population, varie peu d’un échantillon à l’autre.

Consistance. Une bonne statistique tends de plus en plus vers la vraie valeur du paramètre qu’elle estime lorsque la taille de l’échantillon augmente.

Paramètres de positionLa mesure la plus utilisée pour décrire l'ordre de grandeur des valeurs et la valeur centrale autour de laquelle se groupent les observation est la moyenne arithmétique, calculée par:

où Xi dénote les valeurs observées et n est le nombre d'observation (l'effectif). Les moyennes ont plusieurs propriétés fort intéressantes: elles sont simple à calculer et leur distribution est souvent plus

(1)X

X

n

ii

n

= =∑

1

16 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

prévisible que celle des observations individuelles. En fait, si l'on estime à plusieurs reprise la moyenne d'une population à l'aide de grands échantillons (disons n >1000 pour être prudent) et que l'on construit un histogramme des moyennes calculées, la forme de cet histogramme sera toujours la même (celle d'une cloche, de la courbe normale) peu importe la forme de la distribution originale.

Toutefois, lorsque l’échantillon est petit, la moyenne peut être fortement influencée par une ou deux valeurs extrêmes. Donc, si votre échantillon contient une ou deux valeurs extrêmes, la moyenne de l’échantillon peut ne pas être un bon estimé de celle de la population. La même chose peut se produire si la distribution des données est très asymétrique. Dans ce cas, il est préférable de décrire la tendance centrale par une statistique qui est plus robuste (i.e moins sensible) à la présence de valeurs extrêmes, comme la médiane. La robustesse de la médiane est une propriété très désirable, et de nombreux tests statistiques utilisent la médiane plutôt que la moyenne.

Paramètres de dispersionL'étendue de la variation est conceptuellement la mesure la plus simple de dispersion. Ce n'est toutefois pas une bonne statistique car elle est généralement biaisée. Puisqu'il est improbable qu'un échantillon contienne la valeur minimale et la valeur maximale de la population, l'estimé obtenu à partir de l’échantillon sous-estime la valeur pour la population.

La somme des carrés (SC) est la somme des carrés des écarts à la moyenne:

où µ et sont respectivement la moyenne de la population et de l’échantillon et n et N l’effectif (le nombre d’observations) dans l’échantillon et la population.

(2)SC Xpopulation i

i

N

= −=∑ ( )µ 2

1

SC X Xéchantillon ii

n

= −=∑ ( )2

1

X

QUELQUES CONCEPTS FONDAMENTAUX: STATISTIQUES ET DISTRIBUTIONS - 17

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

La somme des carrés augmente avec l'effectif et doit donc être pondérée pour obtenir un estimé utile: la variance (σ2) pour la population, s2 pour l’échantillon:

Notez que la somme des carrés de l’échantillon est divisée par n - 1 plutôt que par n pour corriger une tendance à sous-estimer la variance de la population à partir de petits échantillons. Notez également que la formule utilisée par plusieurs chiffriers électroniques pour calculer la variance est la formule pour la population et non celle pour l'échantillon.

La variance de l’échantillon peut également être calculée par la formule suivante qui est plus pratique lorsque l'on utilise une calculatrice:

L'écart type (σ pour la population, s pour l’échantillon) représente la déviation moyenne des observations par rapport à la moyenne. Il est calculé par la racine carrée de la variance.

La distribution normaleLa distribution normale est l'une des distributions les plus utilisées en statistiques. Les raisons expliquant ce rôle central sont bien plus historiques et mathématiques que biologiques. En fait, il y a très peu de variables en biologie qui sont distribuées normalement. Cependant, la distribution des moyennes tend vers la normalité, et l'approximation normale devient souvent acceptable lorsque l'on travaille avec des moyennes.

(3)

(4)

σµ

2

2

1=−

=∑ ( )X

N

ii

N

sX X

n

ii

N

2

2

1

1=

−=∑ ( )

sX

Xn

n

ii

2

2

2

1=

∑∑d i

18 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

La distribution normale peut être décrite par deux paramètres: la moyenne de la distribution (µ), et la variance de la distribution (σ2):

Il y a une infinité de distributions normales, puisque la moyenne et la variance peuvent prendre une infinité de valeurs différentes. Pour simplifier les calculs et les tableaux des probabilités, les distributions normales sont généralement centrées et réduites de manière à produire une distribution normale avec une moyenne de 0 et une variance de 1: la distribution normale standard. La transformation pour standardiser la distribution est simple: il suffit de soustraire la moyenne (µ) et de diviser le résultat par la racine carrée de la variance (l'écart type, σ).

Intervalles de confiance pour observationsUn intervalle de confiance à x% pour les observation est un intervalle dans lequel on devrait retrouver x% des observations si on échantillonnait cette population. Si une population normale d'étudiants a une masse corporelle moyenne (µ) de 68 kg, 50% des étudiants seront plus légers que 68 kg. Pour calculer la proportion des étudiants qui sont plus lourds que 90 kg, on doit connaître σ, l'écart type de la population. Pour calculer cette proportion, on doit d'abord standardiser (ou normaliser) la masse corporelle (M) par:

ce qui équivaut, pour un individu de 90 kg dans une population dont la moyenne est de 68 kg et l'écart type est de 10 kg, à ((90-68)/10) = 2.2. La deuxième étape est de consulter un tableau des proportions de la distribution normale. Pour une valeur de Z de 2.2, cette proportion est de 0.0139 ou 1.39%, ce qui signifie qu'environ 1.4% des étudiants pèsent plus de 90 kg.

Lorsque la moyenne (µ) et la variance (σ2) d'une population sont connues, on peut calculer le limites d'un intervalle qui contient une proportion donnée de la population par:

(5)

(6)

(7)

f x ex

b gb g

=−

−12

2

22

σ π

µ

σ

Z M=

− µσ

µ σ± Z

QUELQUES CONCEPTS FONDAMENTAUX: STATISTIQUES ET DISTRIBUTIONS - 19

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

où Z est la valeur appropriée de l'abscisse de la distribution normale standard. Cet intervalle peut servir à déterminer si une nouvelle observation fait vraisemblablement partie de la même population.

Cette équation ne peut presque jamais être utilisée en pratique parce que les valeurs de µ et de σ ne sont rarement connues pour les populations étudiées. Une possibilité est de remplacer les valeurs de µ et de σ par les estimés de moyenne et d'écart type calculés à partir d'un échantillon, mais cette solution mène à de sérieux biais pour de petits échantillons. Ce biais peut être illustré à l'aide d'un programme de simulation statistique.

A partir d'une population ayant une moyenne µ et un écart type σ, tirer au hasard un échantillon de taille n. A partir des données de cet échantillon, calculer la moyenne et l'écart type (s) de l’échantillon, puis calculer un intervalle de confiance à 95% pour les observations comme la moyenne de l’échantillon ± 1.96s. Puisque dans ce cas les valeurs de µ et de σ sont connues, il est possible de calculer le pourcentage réel de la population dont les valeurs se situent à l'intérieur ou au dehors de l'intervalle calculé à partir de l'échantillon. Répéter toutes les étapes précédentes un grand nombre de fois et présenter les résultats sous forme d'histogramme.

La Fig. 3 illustre les résultats d'une telle simulation. Quoique les intervalles à 95% n'excluent pas toujours exactement 5% de la population lorsque calculés à partir de grands échantillons, en moyenne ils le font (ils sont exacts ou pas biaisés) et lorsqu'il ne le font pas ils ne sont jamais très loin du 5% (ils sont précis). Si le même exercice est répété, cette fois avec de petits échantillons (n = 3), on remarque que les intervalles de confiances basés sur la distribution normale sont biaisés (ils sont en moyenne trop petits et incluent seulement 76% de la population) et qu'ils sont terriblement imprécis (ils excluent de 1 à 99% de la population). Il y a un message important ici:

Figure 3. Pourcentage de la population à l'extérieur de l'intervalle de confiance à 95% incorrectement calculé à partir de la moyenne et de l'écart type de l’échantillon comme m ± 1.96 s. L'erreur est faible lorsque l'effectif de l’échantillon est grand (l'erreur moyenne pour un effectif de 1000 est de 5%), mais les intervalles de confiance à 95% calculés ainsi à partir de petits échantillons sont en moyenne trop petits (23.8% de la population se retrouve en moyenne en dehors de l'intervalle de confiance)

Proportion (%) de la population hors de l'intervalle de confiance à 95%

1000 simulationsEffectif=3

1000 simulationsEffectif=1000

0

50

100

150

0 20 40 60 80 1000

100

200

300

400

500

0 20 40 60 80 100

20 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Vous ne devriez jamais utiliser les valeurs Z pour calculer les intervalles de confiance de petits échantillons.

La distribution du t de StudentIl est possible, à l'aide de petits échantillons, de calculer des intervalles de confiance qui sont exacts, en remplaçant les valeurs de Z de la distribution normale par les valeurs de t de la distribution de Student. La distribution du t de Student ressemble en général à la distribution normale standard mais en diffère en ce que sa forme change en fonction du nombre de degrés de liberté (typiquement calculé comme le nombre d'observation moins le nombre de paramètres estimés). Lorsque l’échantillon est grand et donc que le nombre de degrés de liberté est élevé, la distribution de t tends vers la distribution normale. Lorsque le nombre de degrés de liberté est faible la distribution de t est plus pointue que la distribution normale standard, et les queues de la distribution sont plus longues.

Si on répète la simulation, cette fois en comparant les intervalles de confiance avec les valeurs critiques de Z et de t, on obtient les résultats illustrés à la Figure 4. L'emploi des valeurs de t pour calculer les intervalles de confiance à partir de petits échantillons permet d'obtenir des intervalles de confiance plus fiables. Notez cependant que c’est pour les très petits échantillons (n < 10) que la différence se fait le plus sentir, puisque les valeurs critiques de t convergent vers celles de Z pour les échantillons plus gros.

L’examen de la Fig. 4 révèle cependant que pour les échantillons très petits, les intervalles de confiance calculés à l'aide de t sont légèrement trop étroits. Ce biais s'explique par le fait que l'estimé de l'écart type obtenu à partir de petits échantillons est légèrement biaisé. La variance (s2) est un estimé non biaisé de la variance de la population, mais sa

Figure 4. Pourcentage de la population normale théorique inclus dans les intervalles de confiance calculés à partir des valeurs de Z ou de t en fonction de la taille de l'échantillon. Ces résultats sont basés sur une simulation par laquelle la population théorique a été échantillonnée 10,000 fois pour chaque valeur de l'effectif. Notez que les intervalles de confiance basés sur les valeurs de Z ne sont pas fiables lorsque l'effectif est petit et qu'ils sont en général trop petits.

Effectif de l'échantillon Effectif de l'échantillon

IC calculés avec Z IC calculés avec t

10 100 1000 1000010 100 1000 1000030

50

7080

90

95

9899

99.899.9

99% 99%

99.9%99.9%

95% 95%

90% 90%

75% 75%

50% 50%

30

50

7080

90

95

9899

99.899.9

QUELQUES CONCEPTS FONDAMENTAUX: STATISTIQUES ET DISTRIBUTIONS - 21

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

racine carrée (s) sous-estime σ, l'écart type de la population. Ce léger biais peut être corrigé, (c'est rarement fait) en multipliant s par le facteur de correction Cn:

où est la distribution gamma.

Le tableau 9 de Rohlf et Sokal (1981) donne les valeurs du facteur de correction pour des échantillons allant jusqu'à 30. Pour des échantillons plus gros, Cn peut être estimé par 1+1/4(n-1).

Intervalles de confiance pour la moyenneIntuitivement, nous savons tous que les moyennes varient moins que les observations individuelles. Par exemple, même si vous ne pouvez que prédire très grossièrement quelle sera votre note finale pour ce cours (une observation individuelle), vous pouvez sans doute prédire beaucoup plus précisément quelle sera la note moyenne pour le groupe.

Pour calculer un intervalle de confiance de la moyenne, il faut une mesure de la variabilité de la moyenne. Comme l'écart type (ou son carré, la variance) est un estimateur de la variabilité des observations individuelles, l'erreur type (ou écart type de la moyenne) est un estimé de l'incertitude de l'estimé de la moyenne de la population. Il existe deux façons d'estimer l'erreur type. La première, très rarement utilisée, consiste à échantillonner à répétition la même population (disons avec des échantillons de 10 observations), de calculer la moyenne pour chacun des échantillons, puis de calculer l'écart type des moyennes de tous les échantillons. La seconde, beaucoup plus simple et rapide, consiste simplement à diviser l'écart type des observations par la racine carrée de l'effectif. Le calcul de l'intervalle de confiance pour la moyenne est similaire à celui pour les valeurs individuelles sauf que l'erreur type est utilisée au lieu de l'écart type:

où est la moyenne de l’échantillon, s est l’erreur-type, n est l’effectif et tn-1, α/2 est la valeur critique de t avec n degrés de liberté au seuil α/2.

(8)

(9)

C nn

nn =−FHGIKJ

−FHGIKJ

FHGIKJ

12

12

2

12

Γ

Γ

Γ( )n

X t snn± −1 2, /α

X

22 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Effet de la taille de l’échantillon

Un coup d'oeil à l'équation pour l'intervalle de confiance d'une moyenne (Eq. 9) suffit pour déterminer que la taille de l’échantillon affecte la taille des intervalles de confiance. Avec un accroissement de l'effectif, la moyenne et l'écart type s'approchent des vraies valeurs. Toutefois, la valeur critique de t diminue vers la valeur de Z équivalente, ce qui réduit la taille de l'intervalle de confiance. Et comme l'intervalle de confiance est une fonction de l'inverse de la racine carrée de l'effectif, sa taille rétrécit lorsque l'effectif augmente.

Effort d'échantillonnage requis pour estimer la moyenneA partir d'une expérience préliminaire, on peut déterminer la taille de l’échantillon nécessaire pour obtenir un intervalle de confiance d'une largeur (W) donnée. Par exemple, supposons que vous vouliez estimer le nombre moyen de fourmis par appartement dans Sandy Hill. A partir de l’échantillon préliminaire, vous avez estimé cette moyenne à 100 fourmis, avec un écart type de 25. Vous aimeriez obtenir un intervalle de confiance de la moyenne qui ne dépasse pas 2 fourmis de large.

Pour ce faire, il suffit de réarranger l'équation pour les intervalles de confiance de la moyenne pour isoler n, l'effectif, étant donné l'écart type (s) et la largeur désirée de l'intervalle de confiance (W):

Le résultat est une équation avec 2 inconnues: n et t (qui est une fonction de n). Cette équation doit être résolue itérativement, jusqu’à convergence, en essayant une valeur pour n puis en calculant le résultat de l’équation 10 pour obtenir une nouvelle valeur de n. Cette nouvelle valeur est utilisée pour recalculer le résultat de l’équation 10 et ainsi de suite jusqu’à ce que n ne change plus d’une itération à l’autre. Dans notre exemple, cette procédure laborieuse mène éventuellement à n = 2404 appartements pour espérer obtenir un intervalle de confiance plus étroit que 2!

(10)

W t snn= −2 2 1α ,

W t snn

21 2

22

4= − ,α

n t sWn= −4 1 2

22

2,α

QUELQUES CONCEPTS FONDAMENTAUX: STATISTIQUES ET DISTRIBUTIONS - 23

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

En fait, 50% des intervalles de confiance calculés à partir d'échantillons de 2404 appartements seront plus étroits que 2 (les autres seront légèrement plus larges). Si on veut augmenter la probabilité que l'intervalle de confiance soit plus petit que la largeur désirée jusqu'à (1-β), on doit utiliser la formule suivante:

où est la valeur critique de la distribution de F, et n est le nombre de degrés de liberté pour l'estimé de la variance de la population dans l’expérience préliminaire. Cette équation doit également être solutionnée itérativement. Pour l'exemple des fourmis, pour que la probabilité soit de 0.95 que l'intervalle de confiance soit plus étroit que 2 fourmis (1-β=0.95, β=0.05), il faudrait échantillonner 6503 appartements.....

Intervalle de confiance pour la médianeLorsque la distribution d'une variable s'éloigne fortement de la normalité et spécialement si la distribution est fortement asymétrique, il est alors inapproprié de calculer un intervalle de confiance pour la moyenne en utilisant la distribution de t. Il y a trois solutions possibles: 1) augmenter l'effectif, 2) transformer les données pour les normaliser, et 3) utiliser la médiane comme mesure de la tendance centrale et calculer un intervalle de confiance pour la médiane.

La médiane, par définition, est la valeur au 50ième centile de la distribution cumulée; 50% des valeurs lui sont inférieures et 50% des valeurs lui sont supérieures. La probabilité qu'une observation soit plus grande que la médiane est donc de 0.5 (et de 0.5 également qu'elle soit inférieure à la médiane).

Les limites inférieure et supérieure d'un intervalle de confiance à 1-α sont obtenues par référence à la distribution binomiale avec n égal à l'effectif et p=q=0.5. La distribution binomiale est symétrique lorsque p=q. Les limites de l'intervalle de confiance peuvent être obtenues en répondant à la question: Si l'on effectue n mesures tirées d'une population dans laquelle nous nous attendons à ce que 0.5n des observations soient sous la médiane (et tout autant au-dessus), combien de ces observations se trouveront sous (au-dessus) de la médiane 1-α des fois où l’expérience serait répétée.

Par exemple, supposons qu’un chercheur aie mesuré la densité des larves de mouches noires sur des roches dans un des ruisseaux du Parc de la Gatineau. Il obtient les densités (ind m-2) suivantes:

(11)ns t F

Wn n= − −4 2

2 12

12

( , ) ( , , )α β ν

F n( , , )β ν−1

24 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

0, 0, 5, 7, 22, 733, 889, 1027, 2005, 7833

La médiane de ces 10 observations est calculée comme la moyenne des observations de rang 5 et 6: (22+733)/2= 377.5. Si l'on effectue 10 observations, et que chaque observation a une probabilité p = 0.5 d'être plus petite que la médiane, la probabilité d'obtenir 0 observations plus petites que la médiane dans un échantillon de 10 est de 0.0009766, celle de n'avoir qu'une observation sous la médiane est de 0.009766, et celle d'en avoir 2 est de 0.0439 (ces probabilités sont tirées de la distribution binomiale). La probabilité d'obtenir 0 ou 1 observation sous la médiane est donc de (0.0009766+0.009766= 0.0107) et celle d'en obtenir 2 ou moins seulement est de 0.0546. Comme les limites d'un intervalle de confiance bilatéral sont obtenues aux valeurs critiques correspondant à α/2 et 1-α/2, l'intervalle de confiance à 97.86% pour la médiane est obtenu par la 1ère et la 9ième valeur (0-2005), alors que l'intervalle de confiance à 89.08% est obtenu par les valeurs 2 et 8. La distribution binomiale étant une distribution discrète, il est généralement impossible de calculer un intervalle de confiance exactement à α=0.05 ou α=0.01.

Un test d’hypothèse sur la médiane peut être effectué en comparant la médiane présumée (hypothétique) à l’intervalle de confiance, ou en utilisant le test de “Wilcoxon signed-rank”.

Intervalle de confiance pour la varianceLes estimés de la variance de populations normales obtenus à partir d'un échantillon sont distribués comme khi-carré avec n-1 degrés de liberté. On peut donc référer à la distribution de χ2 pour calculer un intervalle de confiance. La distribution des estimés de la variance s'éloigne rapidement de la distribution de χ2 lorsque les données ne sont pas normales. Il faut donc considérer les intervalles de confiance pour la variance de données biologiques avec un grain de sel...

L'intervalle de confiance pour la variance peut être calculé par:

où s2 est la variance, n le nombre de degrés de liberté et χ2 la valeur critique de la distribution du khi-carré avec ν degrés de liberté. Notez que l'intervalle de confiance n'est pas symétrique puisque la distribution du khi-carré est étirée vers la droite.

(12)2 22

2 2/2, 1 /2,

s sν νσχ χα ν α ν

≤ ≤

QUELQUES CONCEPTS FONDAMENTAUX: STATISTIQUES ET DISTRIBUTIONS - 25

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

L'hypothèse que l’échantillon est tiré d'une population où la variance est égale à σ2 peut être testée en comparant

à la distribution de χ2 avec n-1 degrés de liberté.

(n-1) s2/σ2 (13)

26 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

TESTS D'AJUSTEMENT À UNE DISTRIBUTION THÉORIQUE - 27

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Tests d'ajustement à une distribution théorique

Une situation fréquente en analyse statistique est d’avoir à déterminer si une distribution empirique suit une distribution théorique donnée. Les test statistiques qui mesurent la distance entre la distribution théorique et celle qui est observées sont les test d’ajustement à une distribution théorique. Tous ces tests comparent les fréquences observées et attendues ou encore la distribution cumulée des données à la distribution cumulée théorique. Cette section traite du problème général de mesure de l'ajustement à une distribution théorique, en commençant par le cas le plus simple et en terminant par les tests de normalité.

Tests du Khi-carré et de GLe test de Khi-carré (ou Chi-carré) ne peut être utilisé que sur des données de fréquences par catégorie (échelle de variation nominale). Ce test permet d'estimer la probabilité que les données observées proviennent d'un population suivant une distribution théorique quelconque. La statistique du Khi-carré (X 2) se calcule généralement comme:

où fi est la fréquence observée pour la catégorie i, est la fréquence attendue pour la catégorie i, et k représente le nombre de total de catégories.

Cette statistique (X 2) est distribuée approximativement comme χ2 avec k-1 degrés de liberté lorsque le nombre total d'observations est élevé (n > 30) et que la fréquence attendue dans chaque catégorie est plus grande que 5. Notez que le X 2 ne peut être calculé que si la fréquence attendue est plus grande que zéro pour toutes les classes. Une catégorie pour laquelle la probabilité d’occurrence est nulle ne devrait pas apparaître dans un test de khi-carré.

(14)( )2ˆ2

ˆ1

f fk i iXfi i

−= ∑

=

f i

28 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Le test de G, appelé aussi test du rapport de vraisemblance, se calcule également à partir des fréquences observées et attendues:

La statistique G ainsi calculée est généralement très similaire à la statistique X 2 et est elle aussi distribuée comme χ2 avec k-1 degrés de liberté. Les catégories sans observations sont exclues du calcul de G dans l'équation ci-dessus, quoique le nombre de degrés de liberté ne soit pas affecté.

L’effectif de l’échantillon joue un rôle important ici. Les statistiques de X 2 et de G tendent à s’éloigner de la distribution de χ2 lorsque les échantillons sont petits, et les probabilités associées à ces statistiques deviennent alors moins fiables. La règle d’usage est que les fréquences attendues les plus faibles devraient être au moins de 5.

Facteurs de correction pour le test de khi-carré et de G lorsqu'il n'y a que deux catégoriesLes statistiques X 2 et G sont souvent distribuées comme χ2, ce qui permet donc de tester l'hypothèse que les données observées suivent la distribution supposée. Cependant, lorsqu'il n'y a que deux catégories, la distribution des 2 statistiques s'éloigne de celle de χ2, le test devient libéral, et la probabilité de rejeter l'hypothèse nulle augmente artificiellement au delà de α. Deux ajustements ont été suggérés pour contrer cet effet: l'ajustement pour continuité (appelée aussi l'ajustement de Yates), et l'ajustement de Williams. Les deux ajustements ont pour effet de réduire quelque peu la valeur calculée de la statistique du X 2 ou de G et donc le libéralisme du test lorsqu'il n'y a que deux catégories.

L'ajustement pour continuité consiste à réduire la valeur absolue de la différence entre la fréquence attendue et la fréquence observée dans chaque classe par 0.5:

(15)

(16)

G fffii

ii

k

=FHGIKJ=

∑21

ln

Xf f

f

i i

ii

k2

2

1

05=

− −

=∑

.e j

TESTS D'AJUSTEMENT À UNE DISTRIBUTION THÉORIQUE - 29

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

L'ajustement de Williams s'obtient en divisant la statistique X 2 ou G par un facteur q calculé comme:

L’ajustement de Williams peut être utilisé quand il y a deux classes (k = 2) et a été recommandé pour toutes les situations où l’effectif est inférieur à 200.

Les auteurs de manuels de statistique ont des positions qui diffèrent quant à la valeur relative de ces deux ajustements et quant aux conditions exactes qui dictent leur emploi. Néanmoins, tous mettent en garde contre l'emploi du test de Khi-carré (ou de G) lorsqu'il n'y a que deux classes, que l'effectif est faible (plus petit que 30), et que la fréquence attendue dans l'une des classe est plus petite que 5. Dans ces conditions, la probabilité obtenue sera vraisemblablement biaisée. Si un meilleur estimé de la probabilité est désiré (par exemple si la probabilité calculée est près du seuil de décision), il est préférable d'effectuer un test binomial.

Le test binomialLorsqu'il n'y a que deux catégories, la loi binomiale peut être utilisée pour calculer la probabilité que les données proviennent d'une population où les proportion dans les deux catégories sont connues. Par exemple, le test binomial pourrait être utilisé pour tester si le rapport des sexes dans une population est de 50:50. Si on dénote par p la probabilité d'appartenir à l'une catégorie, et par q la probabilité d'appartenir à l’autre catégorie, alors la probabilité que X observations parmi un total de n observations soient de la première catégorie (et donc n-X dans la seconde) peut être calculée par:

Notez que cette équation permet de calculer la probabilité qu'exactement X observations soient de la première catégorie. Si l'on veut tester si le nombre observé est vraisemblable compte tenu de p, alors on doit également considérer toutes les autres possibilités encore plus extrêmes. Un exemple permettra de clarifier ce point.

(17)

(18)

q kn k

= +−−

1 16 1

2

( )

P X nX n X

p qX n xb g b g=−

−!! !

30 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Vous avez récolté un échantillon de 10 castors au hasard dans le parc de la Gatineau. De ces 10 castors, 9 sont des mâles. Vous aimeriez calculer la probabilité d'observer un rapport des sexes si différent de 1:1 si les mâles correspondent à 50% de la population.

La première étape consiste à calculer la probabilité d'observer X (0, 1, 2,... ou 10) mâles dans un échantillon de taille (n) égale à 10, si la probabilité (p) d'être un mâle est de 0.5.

La probabilité d'observer 0 mâles dans un échantillon de 10 castors est:

De même, les probabilités d'observer 1, 2,... 10 mâles sont:

P(1)=0.009766P(2)=0.0439P(3)=0.117P(4)=0.205P(5)=0.246P(6)=0.205P(7)=0.117P(8)=0.0439P(9)=0.009766P(10)=0.0009766

Donc, si le rapport des sexes est de 1:1, la probabilité de capturer 10 castors du même sexe est de:

P(0)+P(10)= 0.0009766 + 0.0009766 = 0.001953

La probabilité de capturer 9 castors d'un sexe et 1 de l’autre est de:

P(1)+P(9)= 0.009767 + 0.009767 = 0.01954

La probabilité de capturer 9 ou plus de 9 castors du même sexe si le rapport des sexes dans la population est de 1:1 est donc de:

P(0)+P(1)+P(9)+P(10)= 0.02149

Donc la probabilité d’obtenir un échantillon qui dévie autant du rapport 1:1 attendu que le rapport 9:1 observé est de 2.15%, ce qui est statistiquement significatif. Ce résultat suggère que les pièges capturent préférentiellement les mâles.

(19)( ) ( )( )10 101010!0 0.5 0.5 0.0009766

10! 10 10 !P −= =

TESTS D'AJUSTEMENT À UNE DISTRIBUTION THÉORIQUE - 31

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Pour de grands échantillons, ce calcul est très laborieux, surtout que l'équation ne peut être calculée par la plupart des ordinateurs (la factorielle de 170 est plus élevée que la valeur maximale qui peut être représentée avec 64 bits).

Tests de normalité à l'aide du Khi-carré ou de GOn peut calculer la probabilité que des données suivent la distribution normale par un test du khi-carré ou de G. Les données doivent d'abord être regroupées en k catégories ou classes comme pour bâtir un histogramme. La fréquence attendue dans chacune des catégories est calculée en se servant de 3 valeurs qui sont obtenues de l’échantillon: le nombre d'observation (n), la moyenne, et la l’écart type. Pour chaque catégorie, on doit d'abord calculer la valeur centrée et réduite des limites de la catégorie (Z), puis, en se référant à l'aire sous la courbe de la distribution normale standard, déterminer la proportion de la population se trouvant à l'intérieur de l'intervalle. Cette proportion, multipliée par l'effectif, donne la fréquence attendue pour la catégorie. Le calcul de la statistique de X 2 ou de G est alors facilement effectué, mais le nombre de degrés de liberté est de k-3 (le nombre de classes moins le nombre de paramètres estimés à partir de l’échantillon)

Comme le test de khi-carré (ou de G) n'est pas très fiable lorsque les fréquences attendues sont très faible, il est souvent préférable de regrouper plusieurs catégories dans les queues de la distribution. Watson (1957) recommande toutefois d'avoir au moins 10 catégories, ce qui implique que ces deux tests ne s'appliquent que lorsque l'effectif est plus grand que 50. Toutefois, puisqu'il y a perte d’information lorsque des données quantitatives sont regroupées en classes, les test de normalité de G et du Khi-carré ne sont pas les plus puissants. Les tests de Kolmogorov-Smirnov, Wilks-Shapiro et Lilliefors décrits plus loin permettent tous trois de détecter de plus faibles déviations de la normalité.

Le test de Kolmogorov-SmirnovLe test de Kolmogorov-Smirnov est souvent utilisé pour tester si des données suivent une distribution normale, mais ce test peut également être utilisé pour toute autre distribution continue. Dans ce test, il s'agit de comparer la distribution relative cumulée observée à la distribution théorique. La statistique du test, généralement dénotée Dmax correspond à la valeur absolue de la différence maximum entre les deux distributions cumulées. Pour obtenir Dmax il faut d'abord calculer

32 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

les fréquences cumulées relatives observées et attendues. Pour le données observées, trier les n observations en ordre croissant et calculer les fréquences relative cumulées (rel Fi) comme:

où i est l'ordre de chaque valeur dans la série des valeurs observées. La valeur attendue est calculée comme la proportion de la population qui serait plus petite ou égale à la valeur observée si la population suivait la distribution théorique.

Vous avez récolté un échantillon de 10 adultes de mouches noires dans le Parc de la Gatineau et vous avez mesuré la longueur de l'aile droite de chacune des mouches. Vous aimeriez déterminer si ces longueurs sont distribuées normalement. Les valeurs observées sont, en ordre croissant

4 4.5 4.9 5.0 5.0 5.1 5.5 5.5 5.6 5.7

Les fréquences relatives cumulées sont simplement:

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Pour calculer les fréquences cumulées attendues, il faut d'abord centrer et réduire les données et se référer aux proportions d’une distribution normale:

puis consulter un tableau donnant les proportions sous la courbe normale standard.

Pour obtenir Dmax, il faut calculer le maximum de:

(20)

(21)

(22)

rel F ini =

ZX X

s=

−d i

D rel F rel Fi i i= −

D rel F rel Fi i i' = −−1

TESTS D'AJUSTEMENT À UNE DISTRIBUTION THÉORIQUE - 33

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Pour ces données cela donne:

avec un Dmax de 0.213. Cette valeur est ensuite comparée aux valeurs critiques de Dmax dans des tableaux de la statistique de Kolmogorov-Smirnov.

Graphiquement, cela ressemble à ça:

X rel Fi Z reli Di D'i

4 0.1 -2.027 0.022 0.0785 0

4.5 0.2 -1.088 0.138 0.0625 0.0375

4.9 0.3 -0.338 0.368 0.0681 0.1681

5 0.4 -0.150 0.440 0.0404 0.1404

5 0.5 -0.150 0.440 0.0596 0.0404

5.1 0.6 0.038 0.514 0.086 0.014

5.5 0.7 0.788 0.813 0.1129 0.2129

5.5 0.8 0.788 0.813 0.0129 0.1129

5.6 0.9 0.976 0.835 0.0651 0.0349

5.7 1 1.163 0.878 0.122 0.022

Figure 5. Représentation graphique de la statistique Dmax du test de Kolmogorov-Smirnov

ObservéThéorique

1.0

0.8

0.6

0.4

0.2

0.04.0 4.5 5.0 5.5

Dmax

34 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Le test de Kolmogorov-Smirnov s’applique à des données continues. Il peut également être appliqué à des données qui ont été regroupées par classe, mais il perd alors une partie de sa puissance.

Test de normalité de Wilks-ShapiroUne façon d’évaluer visuellement la normalité d’un ensemble de données est de faire un graphique de la distribution cumulée en utilisant une échelle de probabilité normale sur l’axe vertical (diagramme de probabilité). Sur un graphique avec cette échelle, une distribution normale apparaît comme une droite. W, la statistique de Wilks-Shapiro, mesure comment les données observées s’alignent sur une seule droite. (C’est en fait le carré du coefficient de corrélation entre les valeurs observées et leur équivalent Z basés sur leur fréquence cumulée relative). Si W est près de 1, on peut alors présumer de la normalité des données. Les valeurs critiques de la statistique peuvent être retrouvées dans des tableaux spéciaux.

Ce test est fastidieux à faire manuellement mais est considéré le meil5leur pour les petits échantillons parce qu’il est très puissant. Heureusement, plusieurs logiciels statistiques calculent gaiement cette statistique et donnent la probabilité qui lui est associée.

Test de normalité de LillieforsLilliefors (1967) a démontré que le test de Kolmogorov-Smirnov est conservateur lorsqu’il est calculé en utilisant la moyenne et la variance estimée à l’aide des données de l’échantillon. Il a développé une modification qui est disponible dans de nombreux logiciels. C’est ce test qu’on devrait utiliser pour éprouver la normalité lorsque la moyenne et la variance ne sont pas connues à priori.

Commentaires sur les tests de normalitéDe nombreux tests statistiques sont paramétriques et présument que les données (ou les résidus de modèles ajustés) sont distribués normalement. Cependant, de nombreux travaux ont démontré que les méthodes paramétriques sont relativement insensibles aux déviations de la normalité lorsque les échantillons sont grands.

Tel qu’indiqué précédemment, il est possible d’éprouver la normalité avec des tests de qualité d’ajustement. Il y a cependant un paradoxe associé à l’utilisation de ces tests. Si les échantillons sont grands, et que la puissance de détection des déviations de la normalité est élevée, alors même des déviations infimes peuvent être détectées. On conclut

TESTS D'AJUSTEMENT À UNE DISTRIBUTION THÉORIQUE - 35

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

alors que les données ne sont pas distribuées selon la loi normale, et on est alors tenté d’utiliser des tests non-paramétriques même si les tests paramétriques sont robustes avec de grands échantillons.

D’un autre côté, lorsque les échantillons sont petits, la puissance est réduite et on ne peut détecter que de sévères déviations de la normalité. Donc, on accepte généralement l’hypothèse nulle que les données sont normalement distribuées et on passe aux tests paramétriques même si ces méthodes sont moins robustes avec de petits échantillons.

L’adhésion stricte à l’hypothèse implicite de normalité, justifiée par un test de qualité d’ajustement, peut donc mener à utiliser un test paramétrique quand un test non-paramétrique est peut-être plus approprié, et vice versa. C’est la raison pour laquelle il ne faut pas se fier uniquement aux tests de normalité pour décider de la méthode statistique à utiliser. D’autres considérations, dont la taille de l’échantillon, peuvent être plus importantes.

36 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

LE CONCEPT D'ERREUR TYPE ET LE PRINCIPE FONDAMENTAL DU TEST DE T - 37

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Le concept d'erreur type et le principe fondamental du test de t

Erreur type L'erreur type (la “standard error” des anglophones) est une mesure de l'incertitude autour d'une moyenne ou de l'estimé d'un paramètre d'une population. Cette mesure correspond, à peu de choses près, à la moyenne des déviations entre les valeurs qui seraient obtenues si l’expérience était répétée de nombreuses fois sur la même population, et ce avec le même effort d'échantillonnage. L'erreur type est donc une mesure de la précision d'un estimé.

Le principe du test de tLe principe du test de t est très simple, et c'est un principe que vous utilisez sans doute intuitivement plusieurs fois par jour.

Si la différence entre la valeur observée et la valeur attendue est beaucoup plus grande que la précision de la mesure, alors il y a quelque chose qui cloche.

Ou, si vous préférez des termes un peu plus précis et statistiques: si la différence entre la valeur observée et la valeur prédite par l'hypothèse nulle est “tant” de fois plus grande que l'erreur type, alors il faut rejeter l'hypothèse nulle. La valeur critique (“tant” dans la phrase précédente) est typiquement obtenue à partir de la distribution du t de Student et dépend du nombre de degrés de liberté. Ce principe peut être utilisé, par exemple, pour tester si la moyenne est égale à une valeur théorique µT quelconque en calculant

où est la moyenne de l’échantillon et est l’erreur type. Cette valeur peut ensuite être comparée aux valeurs critiques de la distribution du t de Student avec n-1 degrés de liberté.

Effet de violations de l'hypothèse implicite de normalitéLe test de t (Eq. 23) suppose que les données sont distribuées normalement. Si les données sont normales, alors les estimés de la moyenne seront également distribués normalement, et la statistique t

(23)tXss

T

X

=− µ

X sX

38 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

sera alors distribuée comme le t de Student avec n-1 degrés de liberté. Mais puisque les données biologiques ne sont presque jamais distribuées normalement, comment se fait-il que le test de t soit si fréquemment utilisé en biologie?

Quoique tous les tests statistiques reposent sur des hypothèses implicites, l’impact de violations de ces hypothèses sur la performance du test varie. Les test pour lesquels l’une ou plusieurs des hypothèses implicites peuvent être relaxées sans affecter considérablement la fiabilité du test sont dits robustes.

Heureusement, le test de t est robuste et est remarquablement fiable lorsque les données ne sont pas exactement normales. Une des raisons pour cette robustesse est qu'on le calcule à partir de moyennes qui tendent à être plus normales que les données brutes, surtout si l’échantillon est grand. Cependant, si la distribution des données est fortement asymétrique, la distribution des moyennes de ces données le sera également et les probabilités obtenues par le test de t ne seront pas fiables.

Cependant, avant de rejeter les conclusions tirées d’un test statistique, le gros bon sens suggère de tenir compte de la probabilité associée à la statistique. Si cette probabilité est beaucoup plus faible ou beaucoup plus forte que le seuil de décision α, alors la conclusion ne sera sans doute pas invalidée par un test statistique plus approprié. La probabilité du associée au test peut être biaisée si les données ne rencontrent pas l’hypothèse implicite de normalité, mais ce biais peut ne pas renverser la décision. Donc, pour des tests qui sont robustes, les inférences statistiques lorsque les conditions d’application ne sont pas rencontrées tendent à être qualitativement correctes lorsque la probabilité est très différente du seuil de décision. Cependant, lorsque les deux sont similaires, on peut tirer des conclusion erronées.

En bref, comme les données biologiques sont rarement normales, les probabilités associées aux tests de t doivent être considérées avec un grain de sel. Si l'effectif de l’échantillon est grand, alors la condition d’application du test (normalité) est rencontrée, peu importe la distribution des données brutes, et les probabilités sont fiables. Si l’échantillon est petit, l'ordre de grandeur de la probabilité est sans doute correct. Il est difficile de dire si le test devrait être fiable ou non à partir de petits échantillons car de grands échantillons sont généralement nécessaires pour déterminer si la distribution des données est normale ou non. Si la probabilité du test est près du seuil de décision et que le biologiste désire une conclusion fiable qui sera acceptée par la majorité de ses pairs il y a trois possibilités: 1)

LE CONCEPT D'ERREUR TYPE ET LE PRINCIPE FONDAMENTAL DU TEST DE T - 39

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

augmenter l'effectif, 2) transformer les données de manière à les rendre plus normales, ou 3) utiliser un test que ne suppose pas la normalité des données (on y reviendra plus loin).

Transformation des donnéesCertains types de données ne peuvent être distribuées normalement. Par exemple, les pourcentages car ils varient de 0 à 100% alors que des données normales varient de moins l'infini à plus l'infini. La densité de population est un autre exemple (puisqu'il n'y a pas de densité négative). L'application d'un test de t à ces données est donc une violation des conditions d’application du test. Dans plusieurs cas il est cependant possible de normaliser les données en utilisant une transformation mathématique. Le test est alors calculé à partir des données transformées, et la fiabilité de la conclusion est alors augmentée.

Le choix d'une transformation peut être empirique ou basé sur la théorie statistique. Si l'effectif est suffisant, on peut essayer plusieurs fonctions et tester si les données transformées sont normales (“Tests d'ajustement à une distribution théorique” à la page 27). Il existe même des algorithmes qui identifient la meilleure transformation à utiliser (Box and Cox 1964). L’approche générale est donc de vérifier la normalité avant de faire le test de t.

Malheureusement, cette approche empirique ne peut être utilisée pour de petits échantillons car la puissance des tests de normalité est faible pour les petits échantillons. Dans ces cas, une expérience préalable avec le même type de données ou des considérations théoriques peuvent suggérer une transformation appropriée. Mais la plupart du temps, la recherche d’une transformation est un lent processus d’essais et d’erreurs. Le temps investi à cette recherche peut souvent être plus judicieusement utilisé en passant à des tests non-paramétriques ou à des méthodes de simulation (discutées à la section “Permutation et Bootstrap” à la page 117).

Les transformations les plus utilisées sont la transformation arcsin (pour les pourcentages), logarithmique, racine carrée et inverse. Sokal and Rohlf (1995, pp. 409 - 422) passent en revue les transformation les plus fréquentes.

40 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

COMPARAISONS DE DEUX MOYENNES, MÉDIANES, OU VARIANCES - 41

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Comparaisons de deux moyennes, médianes, ou variances

Cette section présente toute une batterie de tests utilisés pour comparer deux moyennes, médianes ou variances obtenues à partir d'échantillons. Tous ces tests ont une hypothèse nulle semblable: que les deux échantillons proviennent de la même populations ou de deux populations ayant les mêmes caractéristiques.

Différences entre moyennesPour deux échantillons distribués normalement ayant un effectif de n1 et n2 respectivement, des moyennes de et et des variances and , on peut calculer un test de t comme:

Notez que le dénominateur de la première équation, , est un estimé de l'erreur type de la différence entre les deux moyennes, et qu'il est calculé comme la racine carrée de la variance pondérée par l'effectif tel que montré dans la seconde équation. L’équation 24 peut être utilisée quand les deux échantillons suivent une distribution normale et que leur variance est égale. Ces deux conditions d’applications devraient être testées. Les tests de normalités sont retrouvés à la section “Tests d'ajustement à une distribution théorique” à la page 27. Les tests d’égalité des variances se retrouvent un peu plus bas (“Différences entre deux variances” à la page 42).

Des tests unilatéraux ou bilatéraux peuvent être effectués en comparant la valeur de t calculée à la valeur de critique de t avec (n1+n2-2) degrés de liberté. Les tests bilatéraux sont relativement robustes aux violations des conditions d’application du test (normalité et égalité des variances), spécialement si les effectifs sont grands et égaux. Les tests unilatéraux sont moins robustes

(24)

X1 X2 s12

s22

tX XsX X

=−

1 2

1 2

tX X

n s n s n nn n n n

=−

− + − +

+ −

1 2

1 12

2 22

1 2

1 2 1 2

1 12

b g b g b gb g

sX X1 2−

42 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Si les deux variables sont normales mais ont des variances inégales, un test de t corrigé (parfois appelé le test approximatif de Welch) peut être effectué en calculant:

et en comparant la valeur de t observés aux valeurs critiques du t de Student avec

degrés de liberté. Si le nombre de degrés de liberté calculé (ν) n'est pas un entier, utiliser le nombre entier immédiatement inférieur.

Différences entre deux variancesIl y a plusieurs méthodes différentes pour éprouver l’hypothèse d’homoscédasticité (égalité des variances). La plus simple est le test de F. Pour comparer deux estimés de variance et tester si ils proviennent de populations ayant une variance égale, calculer le plus grand de:

La valeur obtenue doit ensuite être comparée aux valeurs critiques de la distribution de F avec (n-1) degrés de liberté pour le numérateur et (n-1) degrés de liberté pour le dénominateur. Le test ci-dessus n'est pas très robuste aux déviations de l'hypothèse implicite de normalité

Les autres test d’égalité des variances (Bartlett's, Scheffé-Box, voir Sokal and Rohlf, 1995, pp. 396 - 406) sont légèrement plus robustes aux violations de l’hypothèse implicite de normalité. L’alternative la plus robuste est le test de Levene pour homogénéité des variances. Ce test est calculé comme un test de t sur les valeurs absolues des

(25)

(26)

(27)

tX X

sn

sn

=−

+

1 2

12

1

22

2

ν =+

FHG

IKJ

FHGIKJ

−+

FHGIKJ

sn

sn

snn

snn

12

1

22

2

2

12

1

2

1

22

2

2

21 1

Fss

ouss

= 12

22

22

12

COMPARAISONS DE DEUX MOYENNES, MÉDIANES, OU VARIANCES - 43

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

différences entre les observations dans chaque échantillon et la moyenne de l’échantillon. Il faut donc d'abord remplacer les i valeurs observées pour chaque traitement j (Xij) par:

puis calculer un test de t sur ces valeurs. Si le test de t mène à la conclusion que la variabilité moyenne diffère entre les échantillons, alors on peut conclure que la variance diffère entre les deux échantillons.

Différences entre deux médianesLe test de médianes peut être utilisé pour tester l'hypothèse nulle que deux échantillons proviennent de populations ayant la même médiane. Il s'agit de construire un tableau de contingence 2x2 où les colonnes représentent les deux échantillons, et les rangées la position des valeurs par rapport à la médiane de toutes les observations. Chaque case contient donc le nombre d'observation dans l’échantillon j qui sont au dessus (au dessous) de la médiane. Si l’échantillon est grand, ce tableau peut être analysé par un test de G ou de khi-carré tel que décrit à la section “Tests d'ajustement à une distribution théorique” à la page 27. Si les échantillons sont petits, alors le tableau devrait être analysé par le test de Fisher.

Autres tests nonparamétriques pour comparer la tendance centrale entre deux échantillonsLe test de médianes décrit ci-dessus est un test nonparamétrique que ne présume pas de la normalité ou de l'égalité des variances. Ce type de test devrait être utilisé lorsque les données violent les conditions d’application des tests paramétriques (comme le test de t) car il mène à des conclusions qui sont plus fiables et sont assez puissants. Toutefois, lorsque les données satisfont aux conditions d’application des tests paramétriques, les test nonparamétriques sont généralement moins puissants que les tests paramétriques. Par exemple, dans le cas d'un test de médianes qui serait utilisé avec des données qui satisfont aux conditions d’application du test de t (normalité, homoscedasticité), la puissance n'est que d'environ les 2/3 de celle du test de t. On devrait donc. tenter de transformer les données pour satisfaire à la condition de normalité des données avant de passer aux alternatives non-paramétriques.

(28)X X Xij ij j' = −

44 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Le test de Wilcoxon-Mann-Whitney est un autre test non-paramétrique, et il est plus puissant que le test des médianes. La statistique (U) est calculée à partir des données transformées en rangs et est comparée aux valeurs critiques provenant de tableaux spéciaux, ou en utilisant une approximation de la courbe normale lorsque les échantillons sont grands. Les calculs pour effectuer ce test sont décrits dans Sokal and Rohlf (1995, p. 427 - 431).

On est généralement intéressé à comparer la moyenne ou la variance de deux échantillons. Dans certains cas on peut vouloir comparer la forme générale de la distribution. On peut alors utiliser le test de Kolmogorov-Smirnov, décrit à la section “Le test de Kolmogorov-Smirnov” à la page 31. Généralement, si la moyenne ou la variance diffèrent, le test de Kolmogorov-Smirnov décèlera également une différence. D’un autre côté, le test de Kolmogorov-Smirnov peut détecter une différence entre deux échantillons dont la moyenne et la variance sont les mêmes si les autres moments (symétrie, kurtose) diffèrent.

Échantillons appariésIl arrive souvent que les observations d'un échantillons soient appariées à celles d'un autre échantillons, par exemple lorsque l'on compare une variable avant et après un traitement effectués sur une série d'individus. Dans ce cas, les données viennent par paires, et la variabilité observée dépend à la fois du traitement et de la variabilité entre individus.

Dans cette situation, les tests de l'hypothèse nulle que le traitement n'affecte pas la variable devront être effectués à partir de la différence entre les membres de chacune des paires. Si les différences sont distribuées normalement, alors on calculera:

(29)t DsD

=

COMPARAISONS DE DEUX MOYENNES, MÉDIANES, OU VARIANCES - 45

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

où est la moyenne des différences entre les paires d’observations et est l’erreur type de cette différence moyenne calculée comme

La statistique t calculée sera comparée aux valeurs critiques du t de Student avec (nombre de paires-1) degrés de liberté. Si les différences ne sont pas normalement distribuées, alors on utilisera le test des rangs de Wilcoxon (Wilcoxon signed ranked test).

Notez que si il y a une forte corrélation entre les valeurs pour les membres de chaque paire, alors le test apparié est beaucoup plus puissant que le test non apparié. Par contre, si il n'y a pas de corrélation ou si elle est faible, le test apparié est moins puissant car le nombre de degrés de liberté est plus faible.

(30)

DsD

ssnDD=

sD D

nDi

n

=−

−=∑d i2

1 1

46 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

ANALYSE DE VARIANCE (ANOVA) À UN CRITÈRE DE CLASSIFICATION - 47

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Analyse de variance (ANOVA) à un critère de classification

Il est souvent pertinent de vouloir comparer une variable entre plusieurs traitements. Par exemple, on peut vouloir estimer l'effet de différents types de fertilisants sur la croissance des plantes, ou encore comparer l'abondance des poissons dans plusieurs lacs. L'analyse de variance à un critère de classification (one way ANOVA) permet, en un seul test, de vérifier si toutes les moyennes sont égales.

Si il n'y a que deux traitements pour lesquelles les valeurs de la variable dépendante doivent être comparées, alors un test de t (décrit à la section “Différences entre moyennes” à la page 41) ou son équivalent non-paramétrique (“Autres tests nonparamétriques pour comparer la tendance centrale entre deux échantillons” à la page 43) suffit pour comparer les moyennes. Cependant, si il y a 3 catégories ou plus, alors on fait face à une difficulté. Il est tentant d'effectuer une batterie de tests de t comparant chaque paires possibles. Vous devez apprendre à résister à cette tentation car c'est une approche invalide. Le problème avec les comparaisons multiples est que, quoique chaque comparaison soit effectuée au niveau désiré, la probabilité de commettre une erreur du premier type (rejeter l'hypothèse nulle lorsqu'elle est vraie) parmi l'ensemble des comparaisons effectuées est de 1-(1-α)k, ou k est le nombre de comparaisons effectuées, typiquement m(m-1)/2 si il y a m moyennes à comparer. Par exemple, si il y a 4 moyennes, il y a 4(3)/2= 6 paires de moyennes à comparer, la probabilité d'accepter l'hypothèse nulle si elle est vraie est de 1-(0.95)6=1-0.735, et donc la probabilité de faire une erreur du premier type est de 0.265. Donc, si on effectue une série de test de t entre les 6 paires possibles de moyennes, et qu'en fait les 4 moyennes qui sont comparées sont égales, dans près de 27% des cas on détectera au moins une paire qui diffère “significativement”. Évidement la probabilité de commettre une erreur du premier type est trop élevée, et cette probabilité augmente si il y a plus de moyennes à comparer.

Lorsque l'on veut comparer plusieurs moyennes, il y a deux types d'hypothèses qui peuvent être testées: 1) si toutes les moyennes sont égales 2) si certaines paires de moyennes diffèrent. Le premier type d'hypothèses peut être testé par l'analyse de variance (ANOVA). Le second type d'hypothèses peut être éprouvé par une série de techniques regroupées sous le vocable de comparaisons multiples. La présente section traite de l'analyse de variance, la suivante des comparaisons multiples.

48 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Les trois types d’ANOVA (I, II et III)Il y a trois types d'ANOVA. Le type I est le modèle à effets fixes. Le but de ce type d'analyse est de détecter si le différents traitements affectent la variable dépendante. Dans les expériences qui sont analysées par une ANOVA de type I, les niveaux de chacun des traitements sont fixés par l'expérimentateur. Ce type d'analyse est similaire à une analyse de régression: le but est de quantifier l'effet de la variable indépendante. C'est le type le plus commun en biologie. Exemple: Rendement d'une variété de blé en fonction de l'ajout de fumier de différents animaux de ferme (mouton, vache, porc, poule). Dans ce type d’analyse on est intéressé à savoir si les moyennes diffèrent entre elles, et par les différences entres paires particulières de traitements.

Le type II est le modèle à effets aléatoires. Le but de ce type d'analyse est de partitionner la variabilité en ses différentes composantes. Dans les expériences analysées par une ANOVA de type II, les niveaux de chacun des traitements sont choisis au hasard. Ce type d'analyse est similaire à une analyse de corrélation: le but est de quantifier le pourcentage de variabilité qui peut être expliqué par la variable indépendante. Ce type d'analyse est particulièrement commun en génétique de populations, par exemple pour quantifier la proportion de la variabilité phénotypique due à des facteurs génétiques. Exemple: Taux de reproduction des femelles de différentes lignées de drosophiles. Dans ce type d'expérience, la valeur absolue des différences entre la fertilité des lignées a peu d'intérêt. Ce qui revêt de l'intérêt, c'est l'importance de la variabilité entre les lignées par rapport à la variabilité à l'intérieur d'une lignée.

Le troisième type d’ANOVA (type III) contient des effets fixes et des effets aléatoires. Évidemment, ce modèle est impossible pour une ANOVA à un seul critère de classification, mais il est très commun dans les design d’ANOVA à plusieurs critères de classification.

Les calculs d'ANOVA pour les analyses de type I et II sont les mêmes pour l'analyse à un seul critère de classification. La distinction devient toutefois très importante dans les analyses à plusieurs critères de classification car les calculs diffèrent alors. L'hypothèse nulle de chaque modèle est subtilement différente: pour le modèle de type I (effets fixes) c'est H0: toutes les moyennes sont égales; pour le modèle de type II (effets aléatoires) c'est H0: il n'y a pas de variabilité due au traitement.

ANALYSE DE VARIANCE (ANOVA) À UN CRITÈRE DE CLASSIFICATION - 49

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Les ANOVA de type I et II ne diffèrent pas seulement au niveau du design expérimental sous-jacent, mais également au niveau du modèle qui est ajusté. Dans une ANOVA de modèle I, on présume que les différences intergroupes entre les moyennes (si elles existent) sont dues aux traitements de l’expérimentateur. Le modèle général est:

où Yij est la valeur de l'observation j dans le traitement i, µ est la moyenne générale, αi est la différence entre la moyenne des valeurs de Y pour le traitement i et la moyenne de générale, et εij est la valeur résiduelle, distribuée normalement et ayant une moyenne de 0 et une variance de . Le modèle correspondant pour l’ANOVA de type II est

où l’effet fixe αi a été remplacé par l’effet aléatoire Ai.

La substitution de αi par Ai dans l’équation 32 peut sembler triviale, mais est en fait assez importante puisqu’elle reflète les objectifs de l’analyse. Lorsque l’on est intéressé à décomposer les sources de variation (analyse de type II), on ne veut pas vraiment comparer les moyennes.

Hypothèses implicites de l’ANOVAComme tous les autres tests statistiques, l’ANOVA repose sur des hypothèses implicites:

1. Les résidus (εij) sont distribués normalement et indépendants

2. La variance des résidus ne varie pas entre les traitements

Tests des conditions d’applicationComme les hypothèses implicites se réfèrent aux résidus, elles sont éprouvées a posteriori, quand l’ANOVA a été effectuée.

1. Normalité. Comme les tests de t, les tests de F sur lesquels L’ANOVA repose sont relativement robustes aux déviations de la normalité. Compte-tenu de cette relative robustesse, un examen visuel d’un diagramme de probabilité peut suffire. Si le diagramme

(31)

(32)

Yij i ij= + +µ α ε

sε2

Y Aij i ij= + +µ ε

50 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

forme une droite, alors les résidus sont approximativement distri-bués selon la loi normale. On peut également éprouver la norma-lité des erreurs résiduelles par les tests de normalité (Lilliefors, ou Wilks-Shapiro) décrits à la section “Test de normalité de Wilks-Shapiro” à la page 34 et “Test de normalité de Lilliefors” à la page 34.

2. Homoscedasticité. En général, l’ANOVA est plus sensible à hétéroscedasticité qu’aux violations de l’hypothèse de normalité. Un examen visuel des résidus en fonction des moyennes prédites pour chaque traitement est le meilleur point de départ pour éva-luer cette condition d’application. Si l’étendue des valeurs diffère considérablement entre traitements, il y a un problème potentiel. La règle d’usage veut que si on ne peut visuellement de différence de variance, alors les variances sont suffisamment homogènes pour ne pas affecter indûment l’ANOVA. Si vous percevez des différences à l’oeil, alors vous devriez effectuer un test statistique d’homogénéité des variances comme le test de Levene décrit en page 42. L’homoscedasticité des données peut être éprouvée à l'aide du test de Bartlett (Section 11.8 dans Zar). Il y a cependant un problème embêtant avec le test de Bartlett. Il est très sensible aux déviations de normalité, alors que l'ANOVA est relativement robuste à ces déviations, mais sensible à l'inégalité des variances. Par conséquent, des données non-normales mais homoscedasti-ques peuvent être analysées par ANOVA assez fiablement. Mal-heureusement, si les données ne sont pas normales mais que les variances sont égales, le test de Bartlett a tendance à incorrecte-ment indiquer que les variances sont inégales, et donc à indiquer que l'ANOVA ne devrait pas être utilisée alors qu'elle pourrait sans doute l'être...

3. Indépendance. D’une manière générale, cette condition d’appli-cation est plus sujette à être violée dans certains plans expérimen-taux dans lesquels les mêmes individus sont soumis à plusieurs traitements (comme dans les comparaisons avant-après), ou quand les réponses d’un individu sont influencées par les réponses du groupe (particulièrement commun dans les expériences compor-tementales d’animaux sociaux). Souvent les caractéristiques de l’expérience peuvent guider l’analyse visant à vérifier l’indépen-dance des données. Par exemple, si on a des mesures répétées sur les mêmes sujets, on peut faire un graphique des résidus “avant” en fonction des résidus “après”. On peut également estimer l’autocorrelation sérielle. Si les résidus sont indépendants, alors cette autocorrelation devrait être faible.

ANALYSE DE VARIANCE (ANOVA) À UN CRITÈRE DE CLASSIFICATION - 51

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Le tableau d'ANOVAIl peut paraître étrange qu'une épreuve d'hypothèse concernant l'égalité de plusieurs moyennes soit appelée Analyse de variance. Le nom reflète mieux le type de calcul effectués que le but du test. En ANOVA, la variabilité (variance) totale de la variable dépendante est décomposée en deux parties: 1) ce qui peut être attribué aux différences entre les traitements et 2) ce qui peut être attribué aux variations aléatoires. Si la portion attribuée aux différences entre les traitements est grande par rapport à la portion attribués aux variations aléatoires, il est alors peu probable que l'hypothèse nulle d'égalité des moyennes soit vraie.

Le mode de présentation le plus répandu des résultats de l'ANOVA est un tableau des sources de variabilité et des estimés de variance

où est la moyenne du groupe i, est la moyenne de toutes les observations, ni est l’effectif du groupe i, k est le nombre de groupes, et n est le nombre total d’observations. La somme des carrés totale (SCt) est égale à la somme des carrés des groupes (SCg) plus la somme des carrés associée au terme d’erreur (SCe),et les carrés moyens qui leur sont associés (CM) sont obtenus en divisant la somme des carrés par le nombre de degrés de liberté qui leur corresponds. La statistique F est le rapport du carré moyen des groupes sur le carré moyen de l’erreur, et peut être comparée aux valeurs critiques de la distribution de F au niveau α désiré avec k-1 et n-k degrés de liberté.

Source de variabilité

Somme des carrés (SC)

Degrés de liberté

(dl)

Carré moyen (CM)

F

Totale n-1 SC/dl

Groupes k-1 SC/dl

Erreur n-k SC/dl

Y Yijj

n

i

k i

−==

∑∑ d i211

n Y Yi ii

k

−=∑ c h2

1

CMGroupesCMErreur

---------------------------

Y Yij ij

n

i

k i

−==

∑∑ d i211

Yi Y

52 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

La loi de Taylor pour trouver la meilleure transformationSi les conditions d’applications (hypothèses implicites) ne sont pas rencontrées, une option est de transformer les données. La variance de données biologiques est souvent proportionnelle à la moyenne. Si cette tendance existe dans un ensemble de données, la loi de puissance de Taylor peut alors être utilisée pour identifier une transformation qui stabilisera la variance.

Pour trouver cette transformation, il faut d'abord calculer la moyenne et la variance pour chaque traitement, puis estimer par régression (voir “Régression linéaire simple” à la page 75) les coefficients du modèle:

Si cette équation de régression explique une proportion appréciable de la variabilité de log s2, alors souvent la transformation:

Alternative non-paramétriques à l’ANOVA: le test de Kruskall-WallisLorsqu'il n'est pas possible de transformer les données pour satisfaire aux conditions d’application de l'ANOVA, on peut alors utiliser le test de Kruskal-Wallis. Ce test possède environ 95% de la puissance de l'ANOVA lorsque les conditions d’application de cette dernières sont rencontrées.

Le test de Kruskal-Wallis est une ANOVA calculée sur les données transformées en rangs. La statistique du test, H, est obtenue en calculant:

ou N est le nombre total d'observations, k est le nombre de groupes, ni est l'effectif du traitement i, et Ri est la somme des rangs pour les observations dans le traitement i.

(33)

(34)

(35)

log logs a b X2 = +

′ = ≠′ = =

−Y Y bY Y b

b1 2 22

/

log( ) si

si

HN N

Rn

Ni

ii

k

=+

− +=∑12

13 1

1( )( )

ANALYSE DE VARIANCE (ANOVA) À UN CRITÈRE DE CLASSIFICATION - 53

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Lorsqu'il y a des égalités, la statistique H doit être ajustée en la divisant par:

où m est le nombre de groupes de valeurs à égalité et ti est le nombre de valeurs à égalité dans le groupe i.

Lorsqu'il y a moins de 6 traitements et que le nombre d'observations pour chaque traitement est faible, la statistique H doit être comparée aux valeurs critiques dans des tableaux pour cette statistique. Si les effectifs sont grands, ou si il y a de nombreux traitements qui sont comparés, alors la statistique H tend vers χ2 avec k-1 degrés de liberté (k est le nombre de traitements).

(36)C

t t

N N

i ii

m

= −−

−=∑

1

3

13

54 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

COMPARAISONS MULTIPLES - 55

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Comparaisons multiples

Comparaisons planifiées et non-planifiéesDans les plans expérimentaux du genre de l’ANOVA où il y a plus de deux niveaux par facteur, il y a deux situations possibles. Dans la première, on a a priori des raisons de s’attendre à ce que certains traitements diffèrent des autres (parce qu’une théorie fait cette prédiction). Par exemple, supposons que vous êtes intéressés par l’effet de la pression partielle de l’oxygène (PAO2) dans le sang sur le taux de production de catécholamines par des poissons stressés. Supposons de plus que vous avez une théorie qui suggère que cette relation n’est pas continue mais est caractérisée par un seuil de PAO2 (disons 30 torr) qui doit être atteint avant que les niveaux de cathecolamine augmentent au-delà des niveaux normaux. Si vous créez des traitement correspondant à divers niveaux de PAO2, vous savez déjà que les comparaisons les plus pertinentes et intéressantes se feront entre les traitements qui sont au-dessus et ceux qui sont en-dessous de 30 torr. Ce type de comparaisons est qualifié de planifiées ou d’a priori.

Dans la deuxième situation, suite à une analyse statistique ayant révélé des différences entre les traitements, on est intéressé à comparer les moyennes de ces traitements entre elles pour déterminer quelles sont celles qui diffèrent significativement les unes des autres. Dans ce cas, les comparaisons qui seront faites dépendent des résultats de l’analyse. Ces comparaisons sont qualifiées de non-planifiées ou a posteriori.

Les tests d’hypothèse pour les comparaison planifiées et non-planifiées sont très différents, et il est donc crucial de garder à l’esprit la distinction lorsque vous effectuez des analyses. Dans cette section, on ne traite que des comparaisons non-planifiées ou a posteriori. Pour un traitement des comparaisons planifiées, voir Sokal and Rohlf, 1995, pp. 229 - 240.

Des approches différentes aux comparaisons multiples non-planifiéesAprès avoir complété une ANOVA qui indique que les moyennes des groupes ne sont pas toutes les mêmes, la tâche suivante est généralement de déterminer quelles sont les paires de groupes qui diffèrent les uns des autres. Dans ces comparaisons multiples non-planifiées (a posteriori), il faut garder à l’esprit que la probabilité de faire une erreur de type I augmente avec le nombre de comparaisons. Il y a deux approches principales permettant de contrôler cette

56 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

probabilité de faire une erreur de type I: soit en réduisant le seuil de décision α, ou encore en utilisant une version modifiée de la statistique t. Les statisticiens ne s’entendent cependant pas quant à une solution universelle. Chaque méthode particulière à ses avantages et ses désavantages.

Méthode de Bonferroni et SidakCes deux méthodes contrôlent la probabilité de commettre une erreur de type I parmi toutes les comparaisons en ajustant α pour chaque comparaison de manière à ce que la probabilité d'obtenir un résultat significatif lorsque toutes les moyennes sont égales est égal à l'α désiré.

La méthode de Bonferroni consiste simplement à ajuster pour chacune des k comparaison faites par un test de t à α' = α/k. Cette méthode est conservatrice car α' est inférieur à la correction exacte pour le pire des cas et donc les valeurs de p obtenues sont un peu trop grandes.Cependant, cette méthode a l’avantage d’être simple à comprendre et d’être flexible quant au nombre de comparaisons qui sont faites. Par exemple, dans le cas d’une ANOVA à un critère de classification avec trois traitements (1,2,3), il y a trois comparaisons possibles (1,2), (1,3) et (2,3). Si on veut faire ces trois comparaisons alors on peut ajuster en utilisant k = 3. Par contre si la comparaison (2,3) n’a aucun intérêt, alors on peut utiliser k = 2.

La méthode de Sidak est similaire, sauf que α' est calculé par (1-α)1/k.

Ces deux méthodes sont simples, mais trop conservatrices pour être recommandées. Cependant, elles sont simples et ne requièrent pas de tableaux de probabilité spéciaux. Si les probabilités obtenues sont plus petites que α', on peut être relativement confiant de ces résultats. Cependant, si l'on ne peut détecter de différences significatives, alors il se peut que ce ne soit que le reflet du manque de puissance de ces méthodes.

Méthode de SchefféLe test de Scheffé est plus puissant que les deux méthodes précédentes. Il a également comme avantage d'être consistent avec l'ANOVA: il ne détectera jamais de différences significatives si

COMPARAISONS MULTIPLES - 57

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

l'ANOVA mène à la conclusion que toutes les moyennes sont égales. La statistique du test, souvent dénotée par S, est calculée comme la valeur absolue d'un test de t, et est calculée comme:

où s2 est la variance résiduelle, et A et B dénotent les groupes qui sont comparés. La valeur critique de la statistique au niveau a est obtenue par:

où k-1 et n-k sont le nombre de degrés de liberté pour le carré moyen des groupes et de l'erreur résiduelle.

Méthode de Tukey et GT2Pour ces deux tests, une statistique similaire au t (généralement dénotée par q) est calculée comme

La statistique calculée (q) est alors comparée aux valeurs critiques de la “studentized range distribution” pour le test de Tukey, et à celles du “studentized maximum modulus” pour le test GT2. Ces deux distributions dépendent du nombre de degrés de liberté associés à l'erreur résiduelle et du nombre de comparaisons effectuées. Une version plus raffinée du test de Tukey, appelée HSD (pour Tykey-Kramer Honest Significance Difference) est également disponible dans plusieurs logiciels statistiques.

(37)

(38)

(39)

SY Y

sn n

B A

B A

=−

+FHG

IKJ

2 1 1

S k F k n kα α= − − −( ) ( ), ,1 1 1

qY Y

sn n

B A

B A

=−

+FHG

IKJ

2 1 1

58 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Test de Student-Newman-Keuls (SNK) et de DuncanCes deux tests sont basés sur la statistique q des tests de Tukey et GT2, mais les valeurs critiques sont pour ces deux tests dépendent du nombre de moyennes contenues entre les deux moyennes qui sont comparées.

Le test SNK est le moins prisé des statisticiens. Il est puissant, mais trop libéral. Le test de Duncan est un peu plus fiable, mais encore trop libéral aux yeux de certains.

Le test de DunnettLe test de Dunnett diffère des tests précédents en ce qu'il ne permet que de comparer une moyenne (celle du témoin) à toutes les autres. La statistique, q, est calculée comme

doit être comparée aux valeurs critiques dans un tableau de probabilité particulier. Ces valeurs critiques dépendent de α, du nombre de degrés de liberté, et du nombre de moyennes dont la valeur se situe entre la moyenne du témoin et la moyenne du groupe qui est comparé.

Dans les expériences où l'on vise à comparer un contrôle à plusieurs traitements, il est désirable d'avoir plus d'observations dans le contrôle que dans le traitement. Pour un nombre total d'observation données, la puissance du test est maximisée lorsque l'effectif pour le contrôle est environ égale à la racine carrée du nombre de traitements fois l'effectif de chaque traitement.

Stratégies pour la sélection d’un test de comparaisons multiples a posterioriComme il y a plusieurs tests possibles pour les comparaisons multiples non-planifiées, le problème du choix d’un test se pose. Une approche possible est de ne pas choisir et de faire plusieurs tests pour voir si les conclusions sont les mêmes. Si oui, alors le choix d’un test devient secondaire. D’un autre côté, si les conclusions varient selon le test utilisé, c’est sans doute parce que (1) certains tests sont libéraux et d’autres conservateurs et (2) la puissance varie d’un test à l’autre. Selon les circonstances, on peut choisir le test le plus conservateur ou le plus

(40)q

Y Y

sn n

Témoin A

Témoin A

=−

+FHG

IKJ2 1 12

COMPARAISONS MULTIPLES - 59

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

libéral. Si le test de Bonferroni détecte une différence significative, alors les conclusions sont solides puisque c’est un test conservateur. D’un autre côté, si le test SNK ne détecte pas de différences entre deux moyennes, c’est encore une conclusion solide puisque c’est un test libéral. Dans tous les cas, si les conclusions varient entre les tests, il faut réfléchir avant de tirer des conclusions.

Comparaisons multiples non-paramétriquesLes comparaisons multiples non-paramétriques sont effectuées sur la somme des rangs dans chacun des groupes. L’équation 41 permet de calculer la statistique appropriée lorsqu’il n’y a pas d’égalités entre les rangs

où RA, RB sont les moyennes des rangs dans les groupes A et B et où nA, nB sont les effectifs des deux groupes. Cette statistique peut être comparée aux valeurs critiques fournies dans des tableaux spéciaux.

Intervalles de confiance pour les moyennes des groupesLe calcul des intervalles de confiance des moyennes de chaque groupes dans une ANOVA se fait similairement au calcul des intervalles de confiance d’une moyenne (voir “Intervalles de confiance pour la moyenne” à la page 21). Il y a trois manières de procéder. Si les variances sont homogènes entre les groupes, alors on doit utiliser le carré moyen de l’erreur (CME) du tableau d’ANOVA comme estimé de la variance de chaque groupe et le nombre total d’observations - 1 comme le nombre de degrés de liberté. Donc pour le groupe i avec un effectif de ni, on a

Si les variances ne sont pas homogènes (vous devriez alors reconsidérer l’utilisation de l’ANOVA...), on peut calculer l’intervalle de confiance de chaque groupe en utilisant la variance du groupe au lieu du carré moyen du terme d’erreur.

(41)

(42)

QR R

N Nn n

B A

A B

=−

++

FHG

IKJ

( )112

1 1

2, 1i

Ei n

i

CMX tnα −±

60 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Finalement, puisque la construction simultanée de plusieurs intervalles de confiance pose le même problème que les comparaisons multiples non-planifiées (voir “Comparaisons planifiées et non-planifiées” à la page 55), on peut ajuster le seuil α par la méthode de Bonferroni. La valeur critique du t correspondant à cet α ajusté est alors utilisée soit avec le carré moyen associé au terme d’erreur ou avec la variance de chaque groupe.

Quelques points à retenir

1. Les tests de comparaison multiple peuvent mener à des résultats contrintuitifs lorsque l'effectif varie beaucoup d'un traitement à l'autre.

Si l'hypothèse nulle est acceptée par l'ANOVA, ne perdez pas votre temps à effectuer des tests de comparaisons multiples. L'ANOVA est la plus puissante des méthodes fiables pour détecter des différences entre moyennes. Vous pourriez peut-être découvrir une paire de moyennes qui diffèrent “significativement” en utilisant un test libéral de comparaisons multiples lorsque l'ANOVA vous dit que toutes les moyennes sont égales: vous ne feriez que prêter le flanc à un réviseur pointilleux à propos des statistiques.

ANALYSE DE VARIANCE À PLUSIEURS CRITÈRES DE CLASSIFICATION - 61

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Analyse de variance à plusieurs critères de classification

La présente section développe l'ANOVA à un critère de classification aux cas où les effets de plusieurs facteurs sont considérés simultanément. En fait, elle se limite aux cas où deux facteurs sont étudiés, mais l'extension à plus de deux facteurs est possible.

Il arrive fréquemment que l'effet de plusieurs facteurs intéresse le biologiste. L'ANOVA à un critère de classification lui permet d'analyser les résultats d'une série d'expériences visant à tester si ces facteurs influencent la variable d'intérêt. Par exemple, on peut vouloir étudier si la température de l'eau et son pH influencent le taux de mortalité de jeunes truites d'élevage. On pourrait planifier une expérience dans laquelle on ferait varier la température, et une autre où on ferait varier le pH. On pourrait ensuite analyser les résultats de ces expériences par deux ANOVA. Cette approche, fort logique et naturelle, a cependant une faiblesse: elle ne permettrait pas de dire si l'effet de la température sur la mortalité dépend du pH; ou si l'effet du pH sur la mortalité dépend de la température. Dans un cas comme celui-ci, un design expérimental d'ANOVA à deux critères de classification permettrait de répondre à cette question.

Comme pour les modèles log-linéaires (voir la section “Modèles log-linéaires” à la page 113), les modèles d’ANOVA à plusieurs facteurs de classification incluent des termes pour chaque facteur (effets principaux) et pour les interactions.

Distinction entre l'ANOVA factorielle à deux critères de classification et l'ANOVA hiérarchiqueSupposons que nous avons deux facteurs qui varient entre les traitements, A et B. Le facteur A varie entre deux niveaux (1 et 2) alors que le facteur B a cinq niveaux différents (I-V). Les données pourraient être regroupées de deux façons différentes .

B

A I II III IV V

1 ***** ***** ***** ***** *****

2 ***** ***** ***** ***** *****

62 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

La distinction est faite selon la nature des niveaux du facteur A. Si les niveaux 1 et 2 du facteur A sont les mêmes pour tous les niveaux du facteur B, alors il s'agit d'un design d'ANOVA factorielle à deux critères de classification. Par contre, si les niveaux du facteur A diffèrent entre les niveaux du facteur B, alors il s'agit d'une ANOVA hiérarchique à deux niveaux de classification. Par exemple, si un chercheur est intéressé à déterminer l'effet du sexe (facteur A) et de l’âge (facteur B) sur la taille des lézards, il s'agit d'un design à deux critères de classification. Par contre, si le même chercheur étudie l'effet de l'identité du technicien (facteur A) et de l'âge (facteur B) sur la taille des lézards et que chaque groupe d’âge de lézards (I à V) est mesuré par une paire différente de techniciens, il s'agit d'un design hiérarchique.

Donc, quoique l’ANOVA hiérarchique à deux niveaux de classification semble faire intervenir deux facteurs, ce n’est pas vraiment le cas puisque le deuxième facteur représente seulement une autre source de variabilité qui n’est pas particulièrement intéressante (du moins dans la plupart des cas). L’ANOVA hiérarchique à deux niveaux de classification s’apparente plutôt à l’ANOVA à un seul critère de classification.

Choisir entre l’ANOVA factorielle et l’ANOVA hiérarchiqueAu-delà des conditions classiques d’application de l’ANOVA (voir “Hypothèses implicites de l’ANOVA” à la page 49) un autre aspect est à considérer avant d’entreprendre l’analyse. Il faut choisir le modèle approprié, factoriel ou hiérarchique. Pour ce faire, considérez les points suivants:

1. Type d’ANOVA. Si tous les effets sont fixes et contrôlés par l’expérimentateur, alors c’est une ANOVA de type I. Si tous les effets sont aléatoires, c’est une ANOVA de type II. Et si il y a des effets fixes et des effets aléatoires, c’est une analyse de type III.

B

I II III IV V

A 1 2 1 2 1 2 1 2 1 2

*****

*****

*****

*****

*****

*****

*****

*****

*****

*****

ANALYSE DE VARIANCE À PLUSIEURS CRITÈRES DE CLASSIFICATION - 63

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Notez qu’une ANOVA hiérarchique a toujours un effet aléatoire pour au moins un facteur, i.e. l’effet du sous-groupe est toujours aléatoire.

2. Plan factoriel ou hiérarchique. Si tous les niveaux de tous les facteurs sont communs à tous les niveaux de tous les autres fac-teurs, alors c’est une ANOVA factorielle. Sinon, c’est une ANOVA hiérarchique.

3. Plan équilibré ou non-équilibré. Dans un plan équilibré, l’effec-tif est le même pour toutes les cellules (combinaisons de chaque niveau de chaque traitement). Dans les design non-équilibrés, l’effectif varie.

4. Plan avec ou sans réplication. Dans certaines expériences, il n’y a qu’une observation dans chaque cellule. L’ANOVA lorsqu’il n’y a pas de réplication est possible, mais est un cas spécial.

ANOVA hiérarchique

Modèle de l’ANOVA hiérarchique

Dans une ANOVA hiérarchique, il y a toujours un facteur qui est de type II (facteur aléatoire). Les autres facteurs peuvent être de type I ou II. Donc l’ANOVA hiérarchique est soit de type I (aléatoire) ou III (mixte). Pour une ANOVA hiérarchique à deux niveaux de classification de type II, le modèle est

où Yijk est la valeur de l’observation k dans le sous-groupe j du groupe i; Ai et Bj représentent l’effet (fixe) du groupe i du facteur A et l’effet (aléatoire) du sous-groupe j du facteur B et εijk est le terme d’erreur (résidu). Dans le cas d’un modèle mixte, on remplace Ai par αi.

(43)Y A Bijk i ij ijk= + + +µ ε

64 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Tableau d’ANOVA hiérarchique

Dans le tableau ci-dessus,

sont le nombre d’observations dans le groupe i et le nombre total d’observations respectivement.,

est la moyenne du groupe i,

est la moyenne du sous-groupe j du groupe i, bi est le nombre de sous-groupes dans le groupe i, nij est le nombre d’observations dans le sous-groupe j du groupe i et a est le nombre de groupes. Notez que l’effet des sous-groupes est éprouvé en faisant le rapport du carré moyen des sous-groupes sur le carré moyen du terme d’erreur, mais

Source de variabilité Somme des carrés (SC) dl CM F

Totale n-1 SCT /dl

Sous groupes SCS /dl CMS /CME

Entre les groupes a-1 SCG /dl CMG /CMS

Erreur SCE /dl

Y Yijkk

n

j

n

i

a iji

−===

∑∑∑ d i2111

n Y Yij ij ij

n

i

a i

−==

∑∑ d i211

b aii

a

−=∑

1

n Y Yi ii

a

−=∑ d i2

1

Y Yijk ijk

n

j

n

i

a iji

−===

∑∑∑ d i2111

n bii

a

−=∑

1

n n n ni ijj

b

ii

ai

= == =

∑ ∑1 1

Yn

Yii

ijkk

n

j

b iji

===

∑∑111

Yn

Yijij

ijkk

nij

==

∑11

ANALYSE DE VARIANCE À PLUSIEURS CRITÈRES DE CLASSIFICATION - 65

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

que l’effet des groupes est éprouvé en faisant le rapport du carré moyen du groupe sur le carré moyen des sous-groupes. Toutefois, dans certains cas le dénominateur du test de F éprouvant l’effet des groupes doit aussi inclure la variabilité attribuable à l’erreur. Sokal et Rohlf (1995, pp. 284 - 285) expliquent assez bien les règles qui devraient guider votre choix

ANOVA factorielle à deux facteurs de classificationLa meilleure façon d'illustrer une ANOVA à deux critères de classification est par un exemple. Une écologiste étudiant les lézards au Costa Rica est intéressé par l'effet du sexe et de l'âge sur la taille. Il y a deux classes d'âge: jeunes (< 1 an) et vieux (> 1 an); et deux sexes: mâle et femelle. Elle récolte 3 individus de chaque combinaison âge et sexe et mesure leur longueur totale (en mm). Les deux facteurs étudiés sont fixes; il s'agit donc d'un modèle de type I.

Ces données permettent de tester 3 hypothèses simultanément:

1. La taille ne varie pas entre les sexes (i.e. la taille moyenne des mâles est égale à celle des femelles)

2. La taille ne varie pas selon l'âge (i.e. la taille moyenne des jeunes est égale à celle des vieux)

3. Les effets de ces deux facteurs sont les mêmes peu importe l'âge ou le sexe (i.e. il n'y a pas d'interaction entre le sexe et l'âge sur la taille)

Ces trois hypothèses peuvent être testées en partitionnant la variabilité totale en 4 fractions: la variabilité due au sexe (premier facteur), la variabilité due à l'âge (deuxième facteur), la variabilité due à l'interaction de l'âge et du sexe, et la variabilité résiduelle (erreur).

Le modèle de l’ANOVA factorielle

Considérez une expérience au cours de laquelle on examine l’effet de deux facteurs, A et B. Si ces deux facteurs représentent des effets fixes, c’est alors un modèle I d’ANOVA. Dans ce cas, la valeur Yijk,, représentant l’observation k au niveau i du facteur A et j du facteur B peut être modélisée par

(44)Yijk i j ij ijk= + + + +µ α β αβ εb g

66 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

où µ la moyenne, αi et βj représentent les effets fixes du groupe i du facteur A et du groupe j du facteur B, (αβ)ij est l’effet de l’interaction pour la combinaison du niveau i du facteur A et du niveau j du facteur B, et εijk représente le terme d’erreur (résidu) de l’observation k dans le sous-groupe j. Si l’un des deux facteurs (ou les deux) sont aléatoires, on remplace α (β) par A (B) (voir “Les trois types d’ANOVA (I, II et III)” à la page 48). Toutes les conditions usuelles d’application de l’ANOVA doivent également être rencontrées (voir “Hypothèses implicites de l’ANOVA” à la page 49).

Tableau d’ANOVA factorielle

Dans ce tableau, a représente le nombre de niveaux du facteur A, b est le nombre de niveaux du facteur B, et n est le nombre d’observations par cellule.

Épreuves d’hypothèses en ANOVA factorielle

Le test approprié dépends du type d’ANOVA. Pour une ANOVA modèle I, le test est simple: toutes les sources de variabilité peuvent être éprouvées par un test de F sur le rapport du carré moyen de la source sur le carré moyen de l’erreur, tel qu’indiqué dans le tableau d’ANOVA.

Lorsque les deux facteurs sont aléatoires (modèle II) ou que l'un des facteurs est fixe et l’autre aléatoire (modèle mixte), le calcul est plus complexe. Il faut: (1) tester si l'interaction est significative par un test de F du carré moyen de l'interaction sur le carré moyen de l'erreur résiduelle (2) Si l'interaction est significative: tester l'effet de chaque facteur en comparant le carré moyen associé à chaque facteur à celui

Source de variabilité

Somme des carrés(SC) dl CM F

Totale abn-1 SCT /dl

Facteur A (colonnes) a-1 SCA /dl CMA /

CME

Facteur B (rangées) b-1 SCB /dl CMB /CME

Interaction (A x B) (a-1)(b-1) SCI /dl

i

Erreur ab(n-1) SCE/dl

Y Yijkk

n

j

b

i

a

−===

∑∑∑ d i2111

nb Y Yii

a

−=∑ d i2

1

na Y Yjj

b

−=

∑ d i21

n Y Y Y Yij i jj

b

i

a

− − +==

∑∑ d i211

Y Yijk ijk

n

j

b

i

a

−===

∑∑∑ d i2111

ANALYSE DE VARIANCE À PLUSIEURS CRITÈRES DE CLASSIFICATION - 67

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

de l'interaction (3) Si l'interaction n'est pas significative, il reste un problème épineux. Certains auteurs suggèrent de combiner les sommes des carrés de l'erreur et de l'interaction pour obtenir un meilleur estimé de la variance résiduelle et augmenter le nombre de degrés de liberté du dénominateur dans le test de F. Cependant, ce n’est pas toujours la meilleure stratégie, et il existe des règles complexes pour décide de la manière de procéder. (Sokal and Rohlf, 1995, pp. 284-285)

On peut remettre en question la pertinence des tests de l'effet des facteurs principaux lorsqu'il y a une interaction significative puisque dans ce cas l'assertion de l'effet principal a peu de sens.

Comparaisons multiplesLa procédure à suivre pour effectuer des comparaisons multiples est la suivante. (1) Si il y a des interactions significatives, il faut comparer les moyennes entre les niveaux d’un facteur pour chaque niveau de l’autre facteur. Donc, si il y a une interaction A x B et qu’il y a 3 niveaux pour chaque facteur (a = b = 3), il y a ab(ab-1)/2 (9 x 8 /2 = 36) comparaisons à faire au total entre les moyennes.

Si l’interaction n’est pas significative, alors on procède comme pour les comparaisons multiples dans le cas d’une ANOVA à un seul critère de classification tel que décrit à la section “Comparaisons multiples” à la page 55. On compare alors les moyennes de chaque niveau de A en utilisant regroupant les données de chaque niveau de B.

ANOVA à deux critères de classification sans réplicationDAns une ANOVA sans réplication il n’y a qu’une seule observation par cellule (intersection de tous les niveaux de tous les facteurs). Comme il n’y a pas plus d’une mesure, il est donc impossible d’estimer la variabilité à l’intérieur d’une cellule qui, lorsque l’on combine toutes les cellules, permet d’estimer la variabilité résiduelle du modèle. On doit alors utiliser le carré moyen de l’interaction comme estimé de la variabilité. Le prix à payer est donc de ne pas pouvoir tester l’hypothèse de l’existence de l’interaction et en plus, d’avoir une condition de validité supplémentaire: qu’il n’y a pas d’interaction entre les facteurs.

68 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Tableau d’ANOVA

Le tableau suivant correspond à l’ANOVA à deux critères de classification de modèle I sans réplication:

Notez que l’indice k a disparu du tableau puisqu’il n’y a qu’une observation par cellule.

Les tests d’hypothèse dans l’ANOVA sans réplication présupposent l’absence d’interaction. Si on soupçonne qu’il y a une interaction, alors il faut procéder avec des réserves: l’ANOVA tend alors à être trop libérale (i.e. a détecter des effets qui ne sont pas “réels”) pour les effets fixes d’un modèle I et pour l’effet aléatoire du modèle III.

Le plan sans réplication est répandu dans les expériences où un individu est mesuré à plusieurs reprises.

ANOVA à deux critères de classification non-paramétriqueL'ANOVA non-paramétrique à deux ou plusieurs critères de classification est une extension simple du test de Kruskal-Wallis (voir “Alternative non-paramétriques à l’ANOVA: le test de Kruskall-Wallis” à la page 52). La première étape consiste à ordonner les valeurs observées de la variable dépendante. Si il n'y a pas de valeurs égales, on peut simplement calculer une ANOVA paramétrique sur ces rangs. Cependant, contrairement au test de l'ANOVA paramétrique, la statistique utilisée (H) est calculée par le rapport de la somme des carrés due à chaque terme du modèle et de la variance totale. Cette

Source de variabilité Somme des carrés (SC) dl CM F

Totale ab-1 SCT /dl

Facteur A (colonnes) a-1 SCA /dl CMA /

CME

Facteur B (rangées) b-1 SCB dl CMB /

CME

Erreur (a-1)(b-1) SCE /dl

Y Yijj

b

i

a

−==

∑∑ d i211

b Y Yii

a

−=∑ d i2

1

a Y Yjj

b

−=

∑ d i21

Y Y Y Yij i ji

n

i

n

− − +==∑∑ d i2

11

ANALYSE DE VARIANCE À PLUSIEURS CRITÈRES DE CLASSIFICATION - 69

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

statistique est comparée à la distribution de Khi carré. Si il y a des égalités, alors un facteur de correction doit d'abord être appliqué à la statistique.

Effectifs inégaux (Plan non-balancé)Les formules abrégées de calcul des sommes des carrés données dans les manuels de statistique s'appliquent aux cas où les effectifs sont égaux à tous les niveaux de tous les facteurs. Les formules sont différentes (et cauchemardesques) lorsque les effectifs sont inégaux. Les bons logiciels statistiques permettent d'analyser les designs expérimentaux où les effectifs sont inégaux. Par exemple avec SAS, les procédures GLM permettent de le faire, alors que les procédures ANOVA ne fonctionnent qu'avec des effectifs égaux.

70 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

CORRÉLATION - 71

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

CorrélationLa corrélation est une mesure de l'association linéaire entre deux variables. Le coefficient de corrélation de Pearson entre deux variables (X et Y) avec n paires d’observations calculée par:

où x et y dénotent les déviations de X et Y par rapport à leur moyenne respective. Le coefficient de corrélation peut varier de -1 (corrélation négative parfaite) à +1 (corrélation positive parfaite).

Le carré du coefficient de corrélation, r2, est appelé le coefficient de détermination. Il correspond à la proportion de la variabilité d’une variable qui peut être “expliquée” par l’autre. Le r2 varie donc entre 0 et 1.

Hypothèses implicites

1. Normalité: Pour chaque X, les valeurs de Y sont normalement distribuées; et pour chaque Y, les valeurs de X sont normalement distribuées

(45)rxy

x y

i

n

i

n

i

n= =

= =

∑ ∑1

2

1

2

1

Figure 6. Corrélation entre X1 et X2

X1

X2

X2

X2

r = 0.9

r = 0.5

r = 0 r = 0

r = -0.5

r = -0.9

72 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

1. Homoscedasticité: La variance de X est indépendante de celle de Y, et vice-versa. Les variances de X et de Y ne sont pas néces-sairement égales.

2. Linéarité: La relation entre X et Y est linéaire.

Test de significationLa signification statistique des corrélations dépend de leur grandeur et de la taille de l'échantillon. Les estimés de corrélation ne sont généralement pas normalement distribués, sauf lorsque la corrélation de la population est 0. Dans ce dernier cas, la probabilité que l’échantillon provienne d'une population où la corrélation est égale à 0 peut être calculée par un test de t:

et n est le nombre d’observations. Cette valeur de t est alors comparée aux valeurs critiques de la distribution du t de Student avec n-2 degrés de liberté au seuil de probabilité α/2.

Si l'hypothèse nulle est que la corrélation de la population est une valeur différente de 0, il est alors nécessaire de transformer les valeurs théoriques et observées pour compenser pour la non-normalité de la distribution des coefficients de corrélation. La valeur observée (r) et la valeur théorique (ρ) doivent d'abord être transformées en z et ζ par:

(46)

(47)

(48)

t rsr

=

s rnr =−−

12

2

z rr

=+−LNMOQP

=+−LNMOQP

05 11

0 5 11

. ln

. lnζ ρρ

CORRÉLATION - 73

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Puis, on doit calculer la valeur de la variable Z (qui sera approximativement distribuée normalement) par:

La statistique Z obtenue peut alors être comparée aux valeurs critiques de la distribution normale standard.

Intervalles de confianceLes intervalles de confiances pour les corrélations doivent d'abord être calculés à partir des valeurs transformées (z), puis être reconvertis en unités standards.

L'intervalle de confiance de la corrélation transformée (z) est calculé par:

Les limites de l'intervalle de confiance des corrélations transformées peuvent alors être retransformées en unités standards par:

ou en se référant à un tableau de conversion approprié.

(49)

(50)

(51)

(52)

(53)

Z z

Z

=− ς

σ

σ Z n=

−1

3

z t z± ∞α σ2b g,

σ z n=

−1

3

r ee

X

X=−+

2

2

11

74 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Comparaison de deux corrélationsPour comparer deux coefficients de corrélation (r1 et r2, transformés en z1 et z2 selon l’équation 48) et tester si les échantillons ayant servi à leur calcul proviennent de populations qui ont la même corrélation, on calcule:

et on compare la statistique Z obtenue aux valeurs critiques de la distribution normale standard.

Corrélation de rangLorsque les données sont tirées de populations qui s'éloignent de la distribution binormale, la corrélation calculée ne peut être aisément utilisée pour un test d'hypothèse ou pour calculer un intervalle de confiance. Il est alors préférable de calculer une statistique de rang. Une statistique simple, quoique rarement utilisée en biologie, est la corrélation calculée en remplaçant les valeurs originales de X et de Y par leur rangs respectifs. Sa signification et son intervalle de confiance sont calculés comme pour la corrélation ordinaire.

La corrélation de rang de Spearman est une statistique très similaire à la corrélation simple de rang, mais elle est calculée à partir de la somme du carré de la différence de rang de X (RX) et du rang de Y (RY):

Des tableaux spéciaux doivent être consultés pour déterminer la probabilité associée à rs. Lorsqu'il y a des égalités, il faut alors ajuster les statistiques pour ces égalités, comme illustré à la section 18.9 dans Zar (1996), section 19.9 dans Zar (1999).

Une autre statistique souvent calculée est le tau de Kendall. Ce coefficient de corrélation de rang mène presque toujours à la même conclusion statistique que le coefficient de Spearman. Ces deux tests ont une puissance similaire, mais les tests basés sur le coefficient de Spearman sont, parait-il, plus puissants lorsque l'effectif est grand.

(54)

(55)

Z z z

n n

=−

−+

1 2

1 2

13

13

rR R

n ns

Xi Yii

n

= −−

−=∑

16 2

13

b g

RÉGRESSION LINÉAIRE SIMPLE - 75

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Régression linéaire simpleLa régression permet de détecter et de quantifier l'effet d'une variable indépendante sur une variable dépendante. Lorsque l'on applique une analyse de régressions, l'on assume que la variable indépendante est responsable d'une partie de la variation de la variable dépendante, mais que la variable dépendante n'affecte pas la variable indépendante.

Les régressions sont couramment utilisées en biologie. Non seulement elles permettent d'effectuer des tests d'hypothèse quant à l'effet d'une variable sur une autre, mais elles permettent également de prédire les valeurs de la variable dépendante dans certaines conditions et donc de quantifier l'effet de la variable indépendante. De plus, les régressions peuvent être utilisées pour corriger les biais potentiels lorsque des contrôles appropriés ne sont pas possibles, ou d'estimer les valeurs d'une variable à partir de mesure indirectes beaucoup plus facile à effectuer.

Régression vs CorrélationLes analyse de régression et de corrélation sont proches parentes. Plusieurs des calculs sont les mêmes, ainsi que plusieurs des statistiques qui sont calculées. Il existe toutefois des différences très importantes et ces deux analyses ne doivent pas être confondues. La corrélation mesure le degré d'association entre deux variables. La régression mesure l'intensité de l'effet d'une variable sur une autre. En régression il y a une cause et un effet implicite, et le but est de prédire la valeur de la variable dépendante. En corrélation il n'y a pas de cause et d'effet présumé, et le but est de quantifier le degré d'association entre deux variables. Le type d'échantillonnage requis pour une analyse de corrélation et pour la régression sont différents, et il est rarement possible d'effectuer une analyse de corrélation et de régression sur les mêmes données.

Le modèle général et les hypothèses implicitesLa régression linéaire simple consiste à estimer la valeur des coefficients du modèle suivant:

(56)Y bXi i i= + +α ε

76 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

où Xi et Yi sont les valeurs de X et Y pour l’observation i, α est l’ordonnée à l’origine, β est la pente et εi est la valeur résiduelle de l’observation i.

Hypothèses implicites1. Les valeurs résiduelles (εi) sont distribuées normalement

2. La variance des résidus est stable, i.e. elle est égale pour toutes les valeurs de X

3. La relation entre X et Y est linéaire

4. Il n'y a pas d'erreur de mesure sur X

Épreuves d’hypothèsesIl y a deux tests équivalents pour éprouver l’hypothèse que la pente (β) de la régression est égale à 0. Le premier est un test de t sur l’estimé de la pente divisé par son erreur-type. Le second test est un test de F comparant le carré moyen de la variabilité expliquée par le modèle à la variance résiduelle.

Test des hypothèses implicitesLes tests concernant les hypothèses implicites de l'analyse de régression ne peuvent généralement être effectués qu'après que la régression ait été calculée (analyse post-mortem...). Le seul postulat qui peut être facilement testé est celui concernant l'absence d'erreur de mesure sur la variable indépendante. Ce postulat n'est pas testé statistiquement, mais par référence à ce que l'on sait de la variable indépendante et de nos méthodes de mesure. En pratique, puisqu'il y a toujours une certaine quantité d'erreur de mesure, il faut que cette

Figure 7. Régression linéaire simple. Le but de la régression est de tracer une droite au travers du nuage de points observés. Cette droite est caractérisée par deux paramètres: l'ordonnée à l'origine et la pente. Les valeurs de ces deux paramètres sont calculées de manière à minimiser la variabilité résiduelle autour de la droite.

X

YVariabilitétotale

Variabilitérésiduelle

Ordonnéeà l’origine

Pente

RÉGRESSION LINÉAIRE SIMPLE - 77

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

erreur de mesure soit petite par rapport à l'étendue des valeurs de la variable indépendante. Des erreurs de mesures qui dépassent quelques pourcentages de l'étendue des valeurs de la variable indépendante biaisent les régressions (valeurs absolues de pentes calculées sous-estiment les valeurs absolues des pentes réelles).

Le postulat de normalité des résidus peut être testé en appliquant un des tests de normalité (Kolmogorov- Smirnov, Wilks-Shapiro, Lilliefors ou Khi carré) aux résidus.

Pour tester les deux autres postulats: homoscedasticité et linéarité, il est souvent utile d'examiner le graphique des résidus en fonction de la variable indépendante. L’examen de ce graphique permet souvent de détecter visuellement les violations de ces conditions implicites.

Lorsqu'il y a plusieurs mesures de la variable dépendante pour chaque valeur de la variable indépendante, il est possible de calculer un test statistique de linéarité (voir “Régression avec réplication” à la page 80) et d'homoscedasticité comme le test de Levene (voir “Différences entre deux variances” à la page 42).Il faut cependant garder à l’esprit que la puissance de ces tests est assez faible lorsque l’effectif est faible à chaque niveau de la variable indépendante.

Erreur type de la penteL’erreur type de la pente est un estimé de la déviation moyenne qui serait observée si la régression était recalculée sur d'autres ensembles de données similaires, obtenus de la même façon, avec le même effectif, et aux mêmes valeurs de X.

La variance de la pente est calculée comme l’indique l’équation 57 où le numérateur est la variance résiduelle, et le dénominateur est la somme du carré des écarts de la variable indépendante. L'erreur type de la pente est simplement la racine carrée de cette variance

L’examen de l'équation 57 révèle comment l'on peut réduire l'erreur type d'un estimé de pente. Le numérateur est hors de notre contrôle puisqu’il représente la variabilité qui n’est pas expliquée par la variable indépendante. Cependant, on peut facilement augmenter le dénominateur en mesurant les deux variables à des valeurs extrêmes de la variable indépendante. Plus l'étendue des valeurs de X sera

(57)ssxbYX22

2=∑

78 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

grand, plus petite sera l'erreur type de la pente, et donc plus grande sera la capacité à détecter une pente qui diffère significativement de 0 (la puissance sera plus grande).

Intervalles de confiance en régressionL'intervalle de confiance à 100 (1-α)% pour la pente peut être obtenu par:

où sb est l'erreur type de la pente

L'intervalle de confiance pour la valeur moyenne de Y à une valeur de X donnée est:

Cette équation devrait vous rappeler celle pour l'intervalle de confiance pour une moyenne. Le meilleur estimé de la moyenne de Y pour une valeur de X donnée est la valeur prédite par la régression. L'intervalle de confiance est calculé en multipliant la valeur critique de t (avec n-2 degrés de liberté car 2 paramètres on été estimés: l'ordonnée à l'origine et la pente), par l'erreur type de la moyenne (le terme sous le signe de la racine carrée).

Cette erreur type de la moyenne est calculée à partir de la variance résiduelle, du nombre d'observations, et d'un facteur de correction qui dépend de la distance entre le point pour lequel on prédit la valeur de Y et le centroïde des observations ayant servi à calculer la régression.

(58)

(59)

b t sn b± −α 2 2b g b g,

,Y t sn

X X

xn YX± +−L

NMM

O

QPP− ∑α 2 2

2

2

2

1b g b g

d i

RÉGRESSION LINÉAIRE SIMPLE - 79

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Les intervalles de confiance pour la moyenne sont typiquement représentés graphiquement par deux courbes, une de chaque coté de la droite de régression, formant ainsi une bande de confiance.

Les intervalles de confiances pour les valeurs individuelles de Y à une valeur de X donnée sont calculés par:

Ces deux équations (Eq. 59 et 60) pour les intervalles de confiances nous indiquent comment planifier des expériences qui mènent à de petits intervalles de confiances: 1) augmenter l'effectif, 2) augmenter l'étendue des valeurs de la variable indépendante.

Prédiction inverséeLes courbes de calibration sont un cas typique d’application de prédictions inversées. Par exemple, la mesure de la concentration de substances en solution est couramment effectuée à l'aide d'un spectrophotomètre. Les mesures d'absorbance ou de densité optique obtenues à l'aide du spectrophotomètre sont alors converties en concentrations à l'aide d'une courbe de calibration obtenue à partir d'échantillons ayant des concentrations connues. La courbe de calibration est typiquement obtenue en reliant la lecture obtenue par le spectrophotomètre (Y), à la concentration de la substance (X).

Figure 8. Intervalles de confiance pour les valeurs moyennes prédites et pour les valeurs individuelles de la variable dépendante (Y).

Y

X

Y

Moyennes

Observations

(60),Y t s

n

X X

xi n YX± + +−L

NMM

O

QPP− ∑α 2 2

2

2

21 1b g b g

d i

80 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

L'équation obtenue est ensuite manipulée algébriquement pour obtenir une équation donnant la concentration en fonction de la lecture obtenue.

Il semblerait plus direct et plus simple de régresser la concentration sur la valeur de lecture. Cette approche n'est pas désirable, toutefois, car on violerait alors la supposition d'absence d'erreur de mesure sur la variable indépendante.

Les calculs pour la prédiction inversée sont illustrés à la section 16.5 dans Zar (1996), section 17.5 dans Zar (1999) et dans Sokal and Rohlf (1995), Section 14.7. Graphiquement, les intervalles de confiance, peuvent être obtenu comme les valeurs de X où les limites des intervalles de confiance sur la lecture ont la même valeur que la valeur lue. La figure suivante (Fig. 9) illustre cette gymnastique.

Régression avec réplicationLorsqu'il y a plusieurs observations à chaque valeur de la variable indépendante, on peut effectuer un test de linéarité afin de vérifier l'un des postulats de l'analyse de régression. Les calculs sont présentés en détail par Zar (1996) à la section 16.7, Zar (1999) à la section 17.7 et dans Sokal et Rohlf (1995) à la section 14.5. La méthode consiste à partitionner la variabilité entre les observations à chaque valeur de X en deux: la variabilité qui peut être expliquée par la régression, et la variabilité due aux déviations à la linéarité; puis à comparer la déviation à la linéarité à la variation intragroupe. Si la relation entre X et Y est linéaire, alors la valeur de Y moyenne observée à chaque valeur de X va s'approcher de la valeur prédite par la régression lorsque l’échantillon est grand. Dans ce cas, la différence entre les

Figure 9. Méthode graphique pour le calcul de l'intervalle de confiance pour une prédiction inversée.

Lecture

Limiteinférieure

Limitesupérieure

Prédiction

RÉGRESSION LINÉAIRE SIMPLE - 81

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

valeurs moyennes de Y observées et les valeurs prédites seront dues uniquement à l'erreur d'échantillonnage. La probabilité associée au test de linéarité est la probabilité d'observée des moyennes de Y qui dévient autant des valeurs prédites que les valeurs moyennes observées si la relation est linéaire.

Certains auteurs appellent ce test un test de “manque d'ajustement” (lack of fit) parce que la méthode ne permet pas uniquement de tester si la relation est linéaire, mais également si le modèle est adéquat. En effet, la même approche peut être utilisée pour déterminer si la relation entre X et Y dévie d'une relation non-linéaire donnée. De plus, même si la relation entre X et Y est linéaire, le test pourrait nous amener à rejeter l'hypothèse de linéarité entre X et Y si un autre facteur affecte les valeur de Y à certaines valeurs de X. Un manque d'ajustement significatif ne signifie donc pas nécessairement que la relation n'est pas linéaire, mais indique toujours que le modèle n'est pas approprié et qu'il ne s'ajuste pas bien aux données.

La linéarité est une condition d’application très importante en régression si on veut effectuer des prédictions qui ne sont pas biaisées. Le test de linéarité ou de manque d'ajustement devrait donc être effectué à chaque fois que les données le permettent. Il est donc désirable d'avoir plusieurs mesures de la variable dépendante pour chaque valeur de la variable indépendante, et de distribuer également les valeurs de X dans la fenêtre d'observation. Même si les estimés les plus précis de la pente et des valeurs prédites sont obtenus en n'effectuant des mesures qu'aux valeurs extrêmes de X, il n'est généralement pas recommandé de planifier une expérience de cette façon car on ne peut alors tester la linéarité de la relation.

Transformation des donnéesLes données biologiques doivent très souvent être transformées avant d'être analysées par régression. Ces transformations visent à corriger les violations des postulats de l'analyse de régression: normalité, linéarité, homoscedasticité.

Les transformations de la variable indépendante (X) sont effectuées uniquement pour linéariser la relation entre X et Y. Les transformations sur la variable dépendante (Y) visent soit à linéariser la relation, ou à stabiliser la variance, ou les deux. Si l’examen du diagramme de dispersion suggère que la variance des résidus augmente avec des valeurs croissantes de Y, la transformation logarithmique ou racine carrée de Y va souvent corriger cette hétéroscedasticité. Si la variance des résidus diminue lorsque Y augmente (c'est plus rare), alors une transformation exponentielle (carré, cube, etc.) est suggérée.

82 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Après transformation, on devrait toujours réexaminer la validité des postulats sur les données transformées, car un des effets secondaires de la plupart des transformations est d'affecter la stabilité de la variance des résidus ou la linéarité.

Les quatre graphiques de la figure suivante pourront vous être utiles si vous tentez de trouver une transformation permettant de linéariser la relation entre X et Y. Les graphiques représentent la forme de la relation entre les données brutes.

Figure 10. Relations de la forme Y=ea+bX qui peuvent être linéarisées par la transformation Y'=log(Y)

Figure 11. Relations de la forme Y = aXb qui peuvent être linéarisées par les transformations X'=log(X) et Y'=log(Y).

-4 -2 0 2 4

-4

-2

0

2

4

-4 -2 0 2 4

-4

-2

0

2

4

RÉGRESSION LINÉAIRE SIMPLE - 83

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

L’influence des valeurs extrêmes en régressionIl arrive fréquemment qu’on obtienne des valeurs extrêmes qui semblent être très différentes du reste des données récoltées au cours d’une expérience. Ces valeurs extrêmes peuvent être dûes à des erreurs de mesure ou de retranscription, mais peuvent aussi représenter des valeurs réelles. Il y a donc deux aspects importants lors de l’analyse des valeurs extrêmes: (1) comment détecter ces valeurs extrêmes, et (2) est-ce que ces valeurs extrêmes changent significativement les résultats de l’analyse.

Il y a plusieurs méthodes permettant de détecter les valeurs extrêmes. Si les valeurs sont normalement distribuées, on peut calculer la probabilité qu’une observation donnée fasse partie de la même population que le reste de l’échantillon. Les routines permettant de tracer des “box plots” font exactement cela et identifient les valeurs extrêmes qui ont une probabilité inférieure à un seuil donné (généralement 5%) de faire partie de la même population (présumée

Figure 12. Relations de la forme Y= a+b/X qui peuvent être linéarisées par la transformation X'=1/X

Figure 13. Relations de la forme 1/Y= a+bX qui peuvent être linéarisées par la transformation Y'=1/Y.

-4 -2 0 2 4

-4

-2

0

2

4

-4 -2 0 2 4

-4

-2

0

2

4

84 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

normale) que le reste de l’échantillon. Mais comme les données ne sont pas toujours tirées de populations normales, cette approche ne peut servir qu’à attirer notre attention et ne suffit pas pour poser un diagnostic.

On peut également examiner les résidus normalisés (“Studentized residuals”). Les observations qui ont des résidus normalisés élevés contribuent fortement à la variance résiduelle autour de la régression, mais peuvent ne pas affecter beaucoup la droite de régression. Le “leverage” mesure directement l’influence potentielle d’un point sur la droite, en fait il dépends uniquement de la distance entre la valeur de ce point et la moyenne de l’axe des X. Les points qui sont près de la moyenne on un faible potentiel d’influence sur la pente, ceux qui s’en éloignent on un fort potentiel d’influence (et donc un “leverage” élevé). Cependant, un point qui s’éloigne de la moyenne des X (et qui a un “leverage” élevé) peut avoir une influence minime sur la droite de régression si il tombe près de la droite qui serait estimée sans ce point. Le “leverage” ne mesure donc que le potentiel d’influence. Finalement, la distance de Cook combine les caractéristiques des deux mesures précédents (“leverage” et résidu normalisé) et mesure donc l’influence réelle qu’exerce un point sur la droite de régression.

Les observations qui ont un résidu normalisé, un “leverage” et une distance de Cook élevés sont donc à considérer avec attention en analyse de régression. La règle d’usage veut que des résidus normalisés ayant une valeur plus grande que 2.5 ou 3, des “leverages” plus élevés que 4/n où n est le nombre d’observations et des distances de Cook plus élevées que 1.0 méritent une attention particulière.

Si vous avez identifié certaines observations comme étant extrêmes, que faire ensuite? La question est de savoir si ces observations affectent significativement les résultats de l’analyse de régression. Pour y répondre, il suffit de refaire l’analyse sans ces valeurs extrêmes et de comparer les résultats à ceux obtenus avec toutes les observations. Si la pente et l’ordonnée à l’origine du sous-ensemble restent à l’intérieur des intervalles de confiance original, l’élimination des valeurs extrêmes a deux effets: (1) elle réduit l’effectif pour l’analyse, et (2) elle augmente la précision. Comme ces deux effets on un impact inverse sur la puissance, l’élimination des valeurs extrêmes peut augmenter ou diminuer la puissance des tests. Cependant, si l’effectif de départ est faible, l’élimination de une ou deux valeurs peut entraîner une perte considérable de puissance.

Si l’élimination des valeurs extrêmes a un effet significatif, alors il faut faire preuve de jugement. Si il y a une bonne raison de croire que ces valeurs sont réellement aberrantes, alors il convient de les éliminer. Sinon, on a trois choix: les inclure et ne présenter que ces résultats sur

RÉGRESSION LINÉAIRE SIMPLE - 85

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

l’ensemble complet, présenter les résultats de l’analyse sur l’ensemble complet et sur l’ensemble moins les valeurs extrêmes ou, enfin, récolter des données supplémentaires.

Régression pondéréeDans le modèle standard de régression, toutes les observations ont le même poids. Cela signifie que (du moins implicitement) l’on croit que l’erreur associée à chaque observation est la même. Cependant, si la variable dépendante est une moyenne, et que l’effectif varie d’une observation à l’autre, il semblerait plus juste de donner plus de poids aux moyennes de gros échantillons et moins de poids à celles provenant de petits échantillons. La régression pondérée permet de faire varier le poids de chaque observation. Lorsque la variable dépendante est une moyenne, on utilise généralement l’effectif des différentes moyennes comme poids dans l’analyse, ou encore l’inverse de la variance. Comme cela, les moyennes qui sont basées sur de gros échantillons, ou qui ont une variance faible, ont plus de poids dans l’analyse.

Quelques points à retenir• Une forte relation entre deux variables n'est pas suffisante pour

établir une relation de cause à effet. Si il y a une relation causale, on s'attend à une relation significative entre X et Y, mais une forte relation entre X et Y pourrait être causée par une autre variable affectant X et Y à la fois.

• N'oubliez pas que des régressions “significatives” seront obtenues par chance même si il n'existe pas de relation entre X et Y (envi-ron 5% du temps si les conditions d’application de la régression sont remplies, souvent plus si on viole certain des postulats).

• Attention aux grands échantillons. Lorsque l’effectif est élevé, la puissance de détection est grande, et il arrive souvent qu’on détecte une régression significative, mais avec une pente si faible qu’elle est biologiquement insignifiante.

• Attention aux petits échantillons. Il est facile d'obtenir des régres-sions très précises qui ne peuvent être répétées.

Attention aux extrapolations. Si l'étendue des valeurs de X n’est pas bien représentée par l’échantillon, il est possible que la relation ne soit pas linéaire. L'extrapolation des prédictions au dehors de l'étendue des valeurs échantillonnée ne vaut souvent pas grand chose, et l’interpolation entre des groupes d’observations est parsemée d’éceuils elle aussi.

86 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

ANALYSE DE COVARIANCE (ANCOVA) - 87

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Analyse de covariance (ANCOVA)L'ANOVA à plusieurs critères de classification permet d'analyser les résultats d'expériences au cours desquelles plusieurs facteurs (décrits par des variables discontinues) sont manipulés simultanément. La régression multiple, présentée à la section suivante, permet une analyse similaire lorsque les variables indépendantes sont continues. Cependant, dans plusieurs cas les variables indépendantes forment un mélange de variables continues (nécessitant un traitement par régression) et discontinues (nécessitant un traitement par ANOVA). Par exemple, on pourrait vouloir tester si la masse (variable continue) et le sexe (variable discontinue) affectent la vitesse de vol de différentes espèces d'oiseaux. Ou encore simplement vouloir tester si la vitesse de vol des mâles et des femelles, corrigée pour des différences de taille, est la même. L'analyse de covariance (ANCOVA) permet d'analyser ce type de données.

Le modèle d’ANCOVALe cas le plus simple d'analyse de covariance est lorsqu'il n'y a qu'une seule variable continue et que deux catégories de la variable discontinue. Le modèle est alors:

où i est l'indice des catégories de la variable discontinue, j est l'indice des observations dans chaque catégorie, µ est la moyenne générale, αi est la différence entre la moyenne du groupe i et la moyenne générale, β est la pente de la relation entre la variable dépendante et la variable indépendante continue, et est la moyenne de la variable indépendante continue pour la catégorie i.

Hypothèses implicitesLes hypothèses implicites lorsque l'on effectue une ANCOVA sont les mêmes que pour l'ANOVA et la régression:

1. Les résidus sont indépendants et distribués normalement.

2. Homoscedasticité. La variance des résidus est constante peu importe la valeur de X ou de la variable représentant les catégo-ries.

(61)Y X Xij i ij i ij= + + − +µ α β εd i

Xi

88 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

3. Absence d'erreur de mesure sur les variables indépendantes.

4. La relation entre Y et la variable indépendante continue est linéaire.

En plus, l’ANCOVA postule que:

5. La pente de Y sur X est la même pour tous les groupes.

L’ajustement des modèles en ANCOVADans le cas où il y a une variable indépendante continue (X1) et une variable indépendante discontinue X2 qui a plus d’un niveau, la question qui se pose est de savoir si la régression de Y sur X1 est la même peu importe le niveau de X2. Puisque la droite de régression est définie par deux paramètres, l’ordonnée à l’origine et la pente), cela revient à se demander si les pentes et/ou les ordonnées à l’origine sont les mêmes à tous les niveaux de X2.

L’analyse se fait par étapes, en ajustant une série de modèles débutant par le plus complexe. La signification statistique des termes inclus dans un modèle est évaluée en comparant la variabilité résiduelle du modèle à celle d’un modèle plus simple où le terme en question a été éliminé. La différence de variabilité résiduelle de ces deux modèles peut être attribuée au terme manipulé. On peut ainsi simplifier le modèle complexe en éliminant les termes qui n’expliquent pas une quantité significative de variabilité.

Pour une modèle contenant deux variables indépendantes, l’une continue et l’autre discontinue, le modèle complet est:

Notez que, contrairement au modèle d’ANCOVA (Eq. 61), l’équation du modèle complet (Eq. 62) ajuste une pente différente pour chaque niveau de la variable discontinue. En d’autres mots, ce modèle permet d’ajuster des régressions séparées pour chaque groupe. Le résultat de cet ajustement sur des données de vitesse de vol d’oiseaux mâles et femelles est illustré à la figure 14. Deux éléments sont retenus de

(62)Y X Xij i i ij i ij= + + − +µ α β εd i

ANALYSE DE COVARIANCE (ANCOVA) - 89

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

l’ajustement du modèle complet: la somme des carrés des écarts des résidus et le nombre de degrés de libertés qui lui est associée (n-2k-1), où k est le nombre de niveaux (groupes)

Le modèle complet est le plus complexe, mais cette complexité est-elle nécessaire? Pour répondre à cette question, on ajuste ensuite le modèle d’ANCOVA de l’équation 61. Ce modèle diffère du modèle complet (Eq. 62) en ce que la pente est la même pour tous les groupes. La différence de qualité d’ajustement entre le modèle complet et le modèle d’ANCOVA permet d’éprouver l’hypothèse que tous les groupes ont la même pentes. Il est évident que le modèle d’ANCOVA ne va pas ajuster les données aussi bien que le modèle complet puisque au moins une petite partie de la variabilité peut être attribuable aux différences de pente. Cependant, la question est de savoir si cette variabilité est statistiquement significative.

Graphiquement, le modèle d’ANCOVA pour l’exemple des vitesses de vol est illustré à la figure 15. La différence entre la somme des carrés des résidus du modèle complet et celle du modèle d’ANCOVA, divisée par son nombre de degrés de liberté (k-1), donne un carré moyen qui peut être comparé au carré moyen des résidus du modèle complet pour éprouver l’hypothèse nulle que toutes les pentes sont égales. Si cette hypothèse est rejetée, l’analyse s’arrête généralement ici et des régressions différentes sont ajustées pour chaque groupe. Si

Figure 14. Le modèle complet. Notez que deux régressions différentes sont ajustées, l’une pour les mâles et l’autre pour les femelles.

Intercepts et pentes différents

0 40 80 120Masse corporelle (g)

0

5

10

15

Vite

sse

de v

ol (m

/s)

MâlesFemelles

90 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

l’hypothèse nulle est acceptée, alors les données rencontrent la condition d’égalité des pentes et l’analyse du modèle d’ANCOVA se poursuit.

L’hypothèse que tous les groupes ont la même ordonnée à l’origine peut ensuite être éprouvée en ajustant le modèle le plus simple, une régression simple entre la variable dépendante et la variable indépendante continue. L’ajustement de ce modèle est illustré à la figure 16.

Figure 15. Le modèle d’ANCOVA. Ici la régression de la vitesse de vol sur la masse corporelle a une ordonnée à l’origine (intercept) différent pour chaque sexe, mais les pentes sont les mêmes.

Intercepts différents et pente commune

0 40 80 120Masse corporelle (g)

0

5

10

15

Vite

sse

de v

ol (m

/s)

MâlesFemelles

Intercepts différents et pente commune

0 40 80 120Masse corporelle (g)

0

5

10

15

Vite

sse

de v

ol (m

/s)

MâlesFemelles

Figure 16. Le modèle de régression simple, dans lequel les mâles et femelles sont considérés appartenir à la même population statistique.

Régression commune

0 40 80 120Masse corporelle (g)

0

5

10

15

Vite

sse

de v

ol (m

/s)

MâlesFemelles

Régression commune

0 40 80 120Masse corporelle (g)

0

5

10

15

Vite

sse

de v

ol (m

/s)

MâlesFemelles

ANALYSE DE COVARIANCE (ANCOVA) - 91

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

La somme des carrés des écarts des résidus de cette régression est alors calculée. La différence entre cette somme et celle du modèle d’ANCOVA mesure la variabilité qui est attribuable aux différences d’ordonnées à l’origine. Cette somme des carrés, divisée par le nombre de degrés de libertés (k-1) est alors comparée au carré moyen des résidus du modèle complet. Si l’hypothèse nulle d’égalité des ordonnées à l’origine est rejetée, alors on peut utiliser les procédures de comparaisons multiples pour identifier quels groupes diffèrent les uns des autres. Si l’hypothèse nulle est acceptée, on rapporte alors généralement la régression simple puisque ni la pente, ni l’ordonnée à l’origine ne diffère significativement entre les groupes.

92 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

RÉGRESSION MULTIPLE - 93

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Régression multipleLa régression multiple est une méthode qui permet d'estimer les coefficients de modèles qui décrivent ou de prédisent la valeur d'une variable dépendante en fonction de plusieurs variables indépendantes continues. Elle permet également de tester des hypothèses concernant les coefficients de chacun des termes du modèle qui est ajusté aux données. Le principe général et les conditions d’application sont les mêmes que pour la régression simple. Toutefois, l'inclusion de plusieurs facteurs permet de construire des modèles qui sont plus réalistes et généraux que ceux qui peuvent être construit à partir d'une seule variable.

Le modèle généralLe modèle général pour la régression multiple avec k variables indépendantes est:

où α est l’ordonnée à l’origine du modèle, βj est le coefficient de régression partielle de la variable dépendante sur la variable indépendante j, Xj est la valeur de la variable indépendante j et εi est le résidu de l’observation i. Dans cette équation (Eq. 63), le coefficient de régression partielle est égal à la pente de le régression linéaire de Y su la variable indépendante j lorsque toutes les autre variables sont maintenues constantes.

Lorsque l’on veut comparer l’effet relatif de chaque variable indépendante sur la variable dépendante, on a besoin de la version normalisée de l’équation de régression. Pour obtenir cette version normalisée, les variables sont d’abord normalisées en soustrayant leur moyenne puis en divisant par l’erreur-type:

où Yi l’observation i de la variable dépendante Y, Xij est l’observation i de la variable indépendante j, et sont leur moyennes, et sY et

sont leur écart-type. En utilisant le modèle de l’équation 63 sur les

(63)

(64)

Y Xi j ijj

k

i= + +=

∑α β ε1

Y Y Ys

XX Xsi

i

Yij

ij j

X j

* *;=−

=−

Xj YsXj

94 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

données normalisées, on obtient les coefficients normalisés de régression partielle qui sont reliés aux coefficients de régression partielle non-normalisés (βj) de l’équation (63) par

Ces coefficients normalisés de régression partielle donnent le taux de changement de Y (en unités d’écart-type) par écart-type de Xj lorsque toutes les autres variables sont maintenues constantes. Comme l’effet des différentes échelles de mesures est éliminé, les coefficient normalisés de régression partielle donne un indice de l’impact relatif de chaque variable indépendante sur la variable dépendante.

Hypothèses implicitesLes hypothèse implicites sont les mêmes que pour la régression linéaire simple:

1. Les résidus sont indépendants et distribués normalement.

2. Homoscedasticité des résidus

3. Linéarité des relations entre Y et tous les X.

4. Pas d’erreur de mesure sur les variables indépendantes.

5. L’effet de chaque variable indépendante est additif (i.e. il n’y a pas d’interactions)

Les conséquences des violations des conditions d’application sont généralement les mêmes que pour la régression linéaire simple.

Épreuves d'hypothèsesLa signification statistique du modèle complet peut être éprouvée par un test de F comparant le carré moyen de la régression à la variance résiduelle. Ce test permet de dire si au moins un des coefficients de régression partielle est différent de zéro.

Cependant, une régression multiple significative n’implique pas nécessairement que toutes les variable aient des coefficients de régression partielle différents de zéro.

(65)

βj'

β βj jX

Y

s

sj' =

RÉGRESSION MULTIPLE - 95

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

La signification statistique des coefficients de régression est généralement éprouvée par des tests de t. Toutefois, cette signification peut être également éprouvée par une approche faisant intervenir la somme des carrés supplémentaire expliquée par chacun des termes du modèle.

MulticolinéaritéUn des problèmes les plus courants en régression multiple est celui de la multicolinéarité, la corrélation entre les variables indépendantes. Idéalement, les variables indépendantes utilisées dans une régression multiple devraient être orthogonales, c'est-à-dire qu'il ne devrait exister aucune corrélation entre elles. Dans cette situation idéale, les estimés de coefficients de régression partielle pourraient être obtenus à partir de régressions simples. Par exemple, si il n'y a aucune corrélation entre les deux variables indépendantes (X1 et X2) dans un modèle à deux variables, alors on pourrait obtenir les estimés de tous les coefficients par 2 régressions simples: la première étant la régression de Y sur X1, et la deuxième étant la régression des résidus de la première sur la seconde variable indépendante (X2) tel que dans l’équation 66.

Les coefficients du modèle de régression multiple pourraient alors être obtenu en remplaçant dans la première équation de régression par la partie de droite de la deuxième équation de régression comme à l’équation 67.

En pratique, les données biologiques s'approchent rarement de cette situation idéale et il y a toujours une certaine quantité de corrélation entre les variables indépendantes qui fait que cette méthode simple du calcul des coefficients et de l'ordonnée à l'origine donne des estimés incorrects.

Dans les cas extrêmes, où les 2 variables indépendantes sont parfaitement corrélées, il est impossible d'obtenir les coefficients de régression partielle par des régression simples.

(66)

(67)

Y a b X

a b XYX

YX YX X

= + +

= + +1 1 1

2 2 2

1

1 1 2

ε

ε ε

Y a b X a b X

Y a a b X b XYX X

YX X

= + + + +

= + + + +1 1 1 2 2 2

1 2 1 1 2 2

1 2

1 2

ε

εb g

96 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Dans cette situation, si on estime l'équation de régression simple entre Y et X1, on inclue implicitement l'effet de X2, et la pente calculée est biaisée. Si on procédait par la suite à la régression simple entre les résidus et la deuxième variable indépendante, on conclurait que X2 n'a pas d'effet sur Y. Si on avait commencé par estimer l'effet de X2, on aurait obtenu la conclusion contraire. Ce cas extrême ne se produit pas souvent, et fait joyeusement planter les programmes de régression multiple.

Les données réelles se situent la plupart du temps quelque part entre ces deux extrêmes: aucune corrélation ou corrélation parfaite entre les variables indépendantes. Le long de ce gradient, une augmentation de la corrélation entre les variables indépendantes va faire augmenter les estimés d'erreur standard et diminuer la puissance.

La multicolinéarité est souvent un problème de plan expérimental, et les messages d’erreur que les programmes statistiques donnent ne devraient pas être pris à la légère. Imaginez une expérience dans laquelle les connaissances en statistiques des étudiants de Carleton et de l’Université d’Ottawa serait comparée, mais où les étudiants de Carleton de l’échantillons seraient en première année, et ceux d’ici seraient de cette classe. La différence observée (enfin, j’espère qu’il y en aurait une!) entre les deux groupes pourrait être attribuée soit aux différences entre universités ou encore aux différences entre les cours suivis par les étudiants, ou aux deux. Mais cette expérience ne pourrait trancher entre ces hypothèses.

En pratique, les conséquences de ce problème sont: 1) une inflation de l'estimé de l'erreur standard des coefficients et 2) une grande sensibilité des coefficients estimés et des erreurs standards à de petits changements dans les données. Cependant, les estimés des coefficients de régression partielle ne sont pas biaisés.

Détection de la multicolinéaritéLa multicolinéarité est un problème pratique, ce n'est pas une violation des conditions d’application de la régression. Ce problème pratique diminue la précision des estimés. Il n'est donc pas nécessaire de tester la multicolinéarité, mais il est souvent informatif d'avoir une mesure de son importance dans un cas particulier.

Plusieurs indices peuvent aider à détecter la présence d'un problème de multicolinéarité:

RÉGRESSION MULTIPLE - 97

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Un R2 élevé mais peu de variables significatives. Un signe fiable: le test de F sur le modèle complet rejette l'hypothèse nulle que tous les coefficients de régression sont égaux à zéro, mais les tests de t sur les variables du modèles donnent une indication contraire.

Fortes corrélations entre les variables indépendantes. La matrice de corrélation des variables indépendantes permet souvent d'identifier les paires de variables qui sont fortement corrélées.

Fortes corrélations partielles entre les variables indépendantes.

Si l'une des variables indépendante est une fonction linéaire de plusieurs autres, les corrélations partielles seront alors élevées.

Valeurs propres, indice de condition, et facteur d'inflation de la variance. La plupart des logiciels de régression multiple permettent de calculer l'un de ces indices de multicolinéarité. Les calculs de ces indice sont complexes et apparentés aux calculs utilisés en analyse des composantes principales. Les valeurs propres sont proportionnelles aux dimensions orthogonales de l'enveloppe à k dimensions dans l'espace multidimensionnel des k variables indépendantes. Lorsqu'il n'y a pas de corrélations entre les variables indépendantes, cette enveloppe est une sphère multidimensionnelle et les valeurs propres sont égales. Lorsqu'il y a des corrélations, l'enveloppe est allongée le long de certains des axes et les valeurs propres varient. L'indice de condition est calculé à partir des valeurs propres en calculant la racine carrée du rapport de la plus grande valeur propre sur la plus petite. Le facteur d'inflation de la variance est aussi calculé à partir des valeurs propres.

Solutions au problème de multicolinéarité

Récolter des données supplémentaires

La meilleure solution, mais aussi la moins pratique. Lorsque l'on a identifié quelles variables sont fortement corrélées, il est alors possible de récolter des données supplémentaires qui réduiront la corrélation entre les variables indépendantes.

Éliminer certaines des variables indépendantes

La solution la plus simple. Si certaines des variables indépendantes sont colinéaires, alors l'ensemble des données est inadéquat pour tester le modèle complet. Par contre, l'élimination d'une variable qui

98 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

influence vraiment la variable dépendante risque de mener à des coefficients biaisés pour les variables restantes. Le remède peut donc être pire que le mal dans certains cas.

Régression sur les composantes principales ou “Ridge régression”

Ces deux techniques avancées proposent des solutions de compromis. Elles mènent à des estimés des coefficients qui sont biaisés, mais qui ont des erreurs types plus petites que les coefficients de régression multiple. Draper et Smith (1981) donnent un exposé assez clair et abordable de ces deux techniques.

Sélection des variables indépendantesA partir d'un ensemble de variables indépendantes qui potentiellement affectent la variable dépendante, on veut souvent extraire un modèle qui permet de bien prédire la variable dépendante. Il y a plusieurs approches possibles pour trouver le “meilleur” modèle; cependant ces diverses approches ne donnent pas toujours le même résultat.

Une partie du problème vient du fait qu'il y a plusieurs définition du “meilleur” modèle. Ce peut être celui qui a le coefficient de détermination multiple (R*2) le plus élevé, celui qui a la variance résiduelle la plus petite, celui qui a le R2 le plus élevé pour un nombre donné de variables indépendantes, celui qui a le R2 le plus élevé mais qui ne contient que des termes significatifs, etc.

Un deuxième aspect du problème est qu’il n’y a pas d’accord unanime ni de recette infaillible pour trouver le modèle qui réponds le mieux à une série de critères. Si le nombre de variables indépendantes est petit, il est possible d’estimer tous les modèles possibles et d’appliquer les critères de sélection adoptés. Mais dès qu’il y a plus d’une demi-douzaine de variables, le nombre de modèles à ajuster devient rapidement astronomique. Il faut alors recourir à une procédure quelconque pour réduire le nombre de modèles à ajuster.

Il y a deux approches communes. Dans la première, on commence avec une seule variable indépendante, et on en ajoute d’autres, une à la fois, jusqu’à ce que le coefficient de détermination n’augmente plus. C’est l’approche par sélection progressive (forward selection). Dans la seconde, on commence avec toutes les variables et on élimine graduellement celles qui ne contribuent pas significativement à réduire la variance résiduelle. C’est l’élimination rétrograde (backward elimination).

L’approche par sélection progressive a une faiblesse. Une variable qui est dans le modèle y reste, même si elle a une contribution insignifiante lorsque d’autres variables indépendantes sont ajoutées.

RÉGRESSION MULTIPLE - 99

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

L’élimination rétrograde a une faiblesse équivalente: lorsqu’une variable a été éliminée, elle ne peut plus être réadmise dans le modèle, même si elle est une bonne variable prédictrice lorsque d’autres variables ont été éliminées.

Pour résoudre ce problème, les régressions pas-à-pas (stepwise forward ou stepwise backward) peuvent être utilisées. Dans ces algorithmes de sélection de variables indépendantes, à chaque étape, les variables qui restent sont évaluées pour inclusion ou exclusion.

Les algorithmes de sélection des variables les plus utilisés sont les suivants:

Toutes les régressions

A partir de k variables indépendantes, calculer tous les modèles possibles qui incluent 1, 2,..., k variables. Choisir le meilleur modèle à partir des critères établis au préalable.

Désavantages: Le nombre de régressions à calculer est 2k-1 (1023 régressions avec 10 variables indépendantes). Cette méthode coûte cher en temps d'ordinateur (et en papier). Le problème de la définition du “meilleur” modèle reste entier.

Avantages: Si le “meilleur” modèle existe il sera trouvé.

Sélection progressive

A chaque pas, évaluer toutes les variables qui ne sont pas encore dans le modèle, et inclure celle qui est la plus significative. Arrêter lorsqu'il ne reste plus de variables significatives. Le critère utilisé pour évaluer la signification est un test de F qui mesure si la variabilité additionnelle qui pourrait être expliquée par cette variable est significative. Le processus arrête lorsque toutes les variables qui restent n’atteignent pas le seuil critique de probabilité pour entrer dans le modèle (p to enter).

Désavantages: Si il y a multicolinéarité, peut ne pas trouver le “meilleur” modèle. Peut calculer jusqu'à 2k-1 régressions. Certaines variables qui étaient significatives peuvent devenir non-significatives plus tard lors de l'inclusion de nouvelles variables dans le modèle.

Avantages: En général, cette procédure estime seulement une fraction de tous les modèles possibles.

100 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Élimination rétrograde

Commencer avec le modèle complet qui inclue les k variables indépendantes. A chaque pas, éliminer la variable qui est la moins significative du modèle jusqu'à ce que toutes les variables restantes soient significatives. Le critère utilisé est ici aussi un test de F au seuil déterminé par l’usager (p to remove).

Désavantages: Si il y a multicolinéarité, cet algorithme peut ne pas trouver le “meilleur” modèle.

Avantages: C'est rapide, au plus k régressions seront calculées,

Régression pas à pas

Évaluer toutes les variables pour trouver le meilleur modèle avec une variable indépendante. Ensuite, à chaque pas ajouter la variable qui est la plus significative dans les variables qui restent, puis éliminer les variables qui sont dans le modèle et qui sont devenues non-significatives lors de l'inclusion de la dernière variable. On doit spécifier les seuils de probabilités critique pour l’inclusion et l’exclusion des variables (p to enter et p to remove)

Désavantages: Pour empêcher l'algorithme d'entrer dans une boucle sans fin, le niveau alpha pour l'inclusion de nouvelles variables doit différer du niveau pour l'exclusion des variables dans le modèle. Si il y a multicolinéarité, alors peut ne pas trouver le “meilleur” modèle.

Régression curvilinéaire (polynomiale)Les relations entre variables biologiques sont rarement linéaires, ce qui rend l'analyse de régression (simple ou multiple) peu appropriée pour l'analyse de ces données. Deux solutions s'offrent lorsqu'il n'est pas possible de linéariser la relation par une transformation: l'emploi d'une méthode de régression non-linéaire, ou l'ajustement d'une régression multiple avec des termes de degrés croissants de la variable indépendante. Le choix entre ces deux options devrait être dicté par la théorie ou par la forme de la relation entre les deux variables.

En régression polynomiale, on considère des modèles dans lesquels la variable dépendante est une fonction polynomiale d’une variable indépendante:

(68)Y X X Xi i i i i= + − + +α β β β ε1 22

33 ...

RÉGRESSION MULTIPLE - 101

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Il est important de réaliser que les régressions polynomiales sont presque toujours des ajustements empiriques, et que la signification biologique des termes X 2, X 3, etc peut être inconnue; ils ne sont utilisés que pour améliorer l’ajustement. La procédure habituelle implique d’ajuster d’abord un modèle linéaire, puis d’ajouter un terme quadratique pour évaluer si il permet un ajustement significativement supérieur. Si c’est le cas, ce terme quadratique est retenu et on répète les étapes pour l’inclusion d’un terme cubique.

Par exemple, examinez le diagramme suivant illustrant la biomasse des larves de mouches noires sur des roches dans un ruisseau en fonction de la vitesse du courant au-dessus des roches:

Ce graphique suggère que la biomasse des larves augmente avec la vitesse du courant jusqu'à 80 cm/s, puis se stabilise. On pourrait ajuster une régression simple à ces données

0 40 80 120Vitesse du courant (cm/s)

10

100

1000

Biom

ass e

des

larv

e s (m

g/m

-2)

0 40 80 120Vitesse du courant (cm/s)

10

100

1000

Bio

mas

s e d

es la

rve s

(mg/

m-2

)

102 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Les résidus de cette régression suggèrent toutefois que la relation n'est pas linéaire. On devrait alors tenter d'ajuster un modèle curvilinéaire de la forme:

log Bi = a + β1v + β2v2 +εi

qui donnerait un bien meilleur ajustement:

La signification du terme de deuxième degré est évaluée comme pour n'importe quelle variable en régression multiple. Par définition, les termes d'ordre supérieur seront fortement corrélés entre eux et le problème de multicolinéarité sera toujours présent en régression curvilinéaire (ou polynomiale). Cette forte multicolinéarité ne devrait pas vous empêcher d’utiliser la régression polynomiale lorsque nécessaire puisque, malgré les grandes erreurs-types des coefficients, l’effet de la variable indépendante sur la variable dépendante sera bien décrit par le polynôme.

L'extrapolation de modèles de régression est toujours dangereuse. L'extrapolation de régressions curvilinéaires est presque toujours ridicule. Les coefficients des termes d'ordre supérieur (2, 3, 4,...) sont toujours estimés avec peu de précision, et de petites modifications aux données changent souvent les coefficients considérablement. Quoique les prédictions de l'abondance des larves des modèles d'ordre 2, 3, ou 4 sont semblables dans les conditions échantillonnées, elles diffèrent dramatiquement en dehors de ces conditions.

Variables indicatricesL'utilisation de variables indicatrices (dummy variables) est une alternative à l'ANCOVA qui permet d'inclure des variables discontinues dans un modèle de régression multiple.

0 40 80 120Vitesse du courant (cm/s)

10

100

1000

Biom

ass e

des

larv

e s (m

g/m

-2)

RÉGRESSION MULTIPLE - 103

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

En revenant à l'exemple de la vitesse de vol des mâles et des femelles d'oiseaux de différentes tailles utilisé pour illustrer l'ANCOVA, on pourrait réécrire le modèle d'ANCOVA complet par:

où Zi est une variable indicatrice qui prend la valeur de 0 lorsque l'oiseau est un mâle, et la valeur de 1 lorsque l'oiseau est une femelle.

Ce modèle ajuste en fait deux régression séparées, la première pour les mâles (Z=0):

et la seconde pour les femelles (Z=1):

Le test d'égalité des pentes entre les deux sexes peut être fait à partir de la somme des carrés supplémentaires calculée par différence comme en ANCOVA, ou plus simplement par un test de t sur l'estimé du coefficient γ2.

En général, on peut tenir compte de r groupes en introduisant (r-1) variables indicatrices.

(69)

(70)

(71)

Y X Z ZXi i i i i= + + + +α β γ γ ε2

Y Xi i i= + +α β ε

Y Xi i i= + + + +α γ β γ ε1 2b g b g

104 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

RÉGRESSION PONDÉRÉE, PROBIT, NORMIT, LOGIT ET NON-LINÉAIRE - 105

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Régression pondérée, probit, normit, logit et non-linéaire

Cette section introduit plusieurs sujets avancés en régression. Une brève description de chacune des méthodes et de leur utilité est donnée. Des informations complémentaires pourront être obtenues dans Draper et Smith (1981), McCullagh et Nelder (1983) ou Finney (1978).

Régression pondéréeIl arrive souvent que, dans un ensemble de données analysées par régression, certaines des observations soient “meilleures” que d'autres. Par exemple, si plusieurs méthodes différentes sont utilisées, il est probable que certaines des méthodes donnent des résultats plus précis. On devrait alors donner une plus grande influence à ces données obtenues par les méthodes les plus précises. De plus, si la précision diffère entre les méthodes, la variance des résidus ne sera pas constante entre les méthodes. Les données violeront alors l'une des conditions d’application de l'analyse de régression.

La solution consiste à transformer les données brutes de manière à stabiliser la variance. Cette transformation diffère de toutes celles vues jusqu'à présent en ce qu'elle ne peut être une fonction directe des valeurs de X et de Y, mais doit plutôt être une fonction de la variance des observations. Comme il n'est pas possible de transformer les données facilement de cette façon pour solutionner le problème, on pondérera plutôt les valeurs lors du calcul de la régression.

Les poids donnés aux observations sont en général proportionnels à l'inverse de leur variance. On doit donc d'abord obtenir un estimé de la variance pour chacune des observations utilisées pour la régression. Par exemple, ce peut être un estimé pour chacune des méthodes de mesure utilisées. Dans les cas où l'on utilise des moyennes, ce serait la variance de ces moyennes qui devrait être utilisée.

Régression probit, normit et logitCes trois types de régression (en fait seulement deux puisque probit et normit sont à toutes fin utiles la même chose) sont utilisées typiquement pour des bioessais ou encore pour prédire le pourcentage de réponses en fonction d'une variable continue.

106 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Par exemple, supposons que vous aimeriez décrire la toxicité d'un composé pour les organismes aquatiques de manière à pouvoir établir une norme acceptable pour les émissions de ce composé dans l'environnement. La méthode établie et de faire un bioessai au cours duquel vous exposerez des organismes à des diverses concentrations (doses) et mesurerez la mortalité. Idéalement, vous obtiendrez un histogramme de la dose létale pour plusieurs individus qui permettrait de décrire la sensibilité des organismes à ce composé. A partir de ces données, il serait alors aisé de déterminer une concentration acceptable, c'est-à-dire une concentration à laquelle très peu d’individus seraient affectés.

Malheureusement cette mesure directe de la concentration létale n'est pas facile à obtenir. Elle implique une exposition répétée du même individu à des concentrations croissantes du composé jusqu'à ce que mort s'en suive. C'est long et le nombre élevé de manipulations augmente les possibilités d'erreur. Une alternative est d'exposer des groupes différents d’individus à des doses différentes et de mesurer leur pourcentage de mortalité. Il s'agit ensuite d’estimer une fonction qui décrira ce pourcentage de mortalité en rapport avec la dose.

Fréq

uenc

e

0

5

10

15

20

25

4 6 8 10Dose

RÉGRESSION PONDÉRÉE, PROBIT, NORMIT, LOGIT ET NON-LINÉAIRE - 107

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Il y a deux problèmes lorsque l'on tente de calculer la régression entre le pourcentage de mortalité et la dose. Le premier est que cette relation n'est généralement pas linéaire:

Il faut donc transformer ces pourcentages de manière à linéariser la relation. Il y a trois transformations qui sont couramment utilisées: normit, probit, et logit. La transformation normit traduit les pourcentages en équivalents d'écart type d'une distribution normale standard. La transformation probit est une survivante d'avant l'avènement des ordinateurs. Il s'agit de la transformation normit à laquelle on a ajouté 5 de manière à éliminer les valeurs négatives (et réduire les erreur de calcul manuel). La transformation logit est:

où p est la proportion de mortalité.

Figure 17. Relation typique entre la dose et la mortalité.

4 6 8

0

20

40

60

80

100

120

Dose

Pou

rcen

tage

de

mor

talit

é

(72)′ =−FHGIKJY pp

ln1

108 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Dans la plupart des cas, ces trois transformations vont linéariser convenablement la relation entre la dose et le pourcentage de réponses. Le choix de la transformation est alors une question d'habitude ou de disponibilité.

Le deuxième problème avec des données de ce type et que la variance du pourcentage de mortalité (même transformé) n'est pas constante. La variance de cette valeur est une fonction de la taille de l’échantillon (le nombre d'organismes testés à cette dose) et du pourcentage de mortalité de la population. Ce dernier point pose une difficulté supplémentaire puisque les valeurs pour la population sont rarement connues. La solution implique de d'abord régresser les données transformées sur la dose, de prédire le pourcentage de mortalité de la population à partir de cette régression ordinaire, puis de calculer la variance des observations à partir de l'estimé de cette régression. On fait alors une deuxième régression, pondérée cette fois par l'inverse de la variance calculée à la première étape. Ce cycle est ensuite répété jusqu'à convergence des estimés. Les coefficients obtenus sont ceux reliant le pourcentage de mortalité transformé (logit ou normit) à la dose. Le calcul d'une dose acceptable est alors un cas de prédiction inversée.

Figure 18. Relation typique entre la dose et la mortalité qui a été linéarisée en appliquant la transformation normit ou logit.

Pro

bit o

u lo

git

Dose

-5

-4

-3

-2

-1

0

1

2

3

4

5

4 6 8

RÉGRESSION PONDÉRÉE, PROBIT, NORMIT, LOGIT ET NON-LINÉAIRE - 109

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Régression non-linéairePlusieurs modèles en biologie ne peuvent être linéarisés par une transformation. Par exemple le modèle écologique de la croissance logistique:

où r est le taux intrinsèque de croissance de la population et k est la capacité limite de l'environnement. L'intégrale de ce modèle est:

où N0 est le nombre initial d’individus dans la population.

A partir de données historique de l'abondance d'une population, on peut vouloir estimer r et k. Malheureusement on ne peut utiliser la régression simple car l'équation ci-dessus ne peut être linéarisée par une transformation.

Les technique de régression non-linéaire permettent d'estimer les paramètres et leur erreur type. Il existe plusieurs approches différentes mais elles partagent la même stratégie. En partant d'estimés initiaux pour les paramètres désirés, explorer d'autres valeurs possibles pour ces paramètres de manière à améliorer l'ajustement. Pour certains de ces algorithmes, c'est l'utilisateur qui décide du critère de qualité d'ajustement. (ce peut être de minimiser la somme des carrés des écarts comme en régression, mais ce pourrait être autre chose). La plupart des programmes permettent également d'estimer les erreurs types. Ces estimes seront généralement corrects assymptotiquement, mais leur distribution n'est pas nécessairement normale. Par conséquent, les tests de t qui peuvent être effectués ne sont qu'approximatifs.

Une mise en garde.

Les algorithmes ont des forces et des faiblesses. Dans bien des cas, les algorithmes donnent tous une réponse semblable et qui est sensée. Dans d'autres cas tous les algorithmes s'écrasent misérablement. Il est de bon ton de comparer les résultats obtenus par plus d'une méthode

(73)

(74)

dNdt

rN k Nk

=−b g

N kN et rt=

+1 0

110 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

et de comparer les résultats obtenus à partir de divers estimés initiaux. Le comportement pathologique de ces algorithmes est trop commun pour croire les réponses obtenues sans en vérifier le réalisme.

TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES - 111

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Tableaux de contingence et modèles log-linéaires

Les tableaux de contingences sont utilisés pour éprouver l’indépendance des fréquences d’observations dans 2 catégories ou plus entre 2 groupes (ou plus). Les statistiques calculées sont le khi-carré (X 2) ou le G couvertes à la section “Tests d'ajustement à une distribution théorique” à la page 27. Les tableaux de contingence pourraient être utilisés, par exemple, pour comparer l’efficacité de deux fongicides pour contrôler la tavelure de la pomme. On éprouverait alors l’hypothèse d’indépendance du nombre de pommiers infectés (vs non-infectés) en fonction du type de fongicide. L’hypothèse nulle serait alors l’indépendance des fréquences d’infection en rapport avec le type de fongicide.

X 2 et test de GConsidérons l’exemple suivant. On pense que l’habitat des canards eider mâles et femelles de l’Est de la Baie d’Hudson n’est pas la même après l’éclosion des oeufs: les femelles resteraient avec leur couvée dans les lagons interdidaux alors que les mâles se déplaceraient vers les bancs d’algues et la haute mer. Au cours de l’été 1994, les données de fréquence suivantes ont été obtenues près de Churchill au Manitoba

Pour calculer le X 2 ou G pour ce tableau de contingence, ont doit avoir un estimé de la fréquence attendue de mâles et de femelles dans chaque habitat si l’hypothèse nulle est vraie, i.e. si le rapport des sexe est indépendant de l’habitat. Dans ce cas, la probabilité qu’un canard pris au hasard soit observé dans un lagon est égale à la fraction des observations qui ont été faites dans cet habitat, soit 64/160 = 0.4. La probabilité que n’importe quel canard soit un mâle est égale à la proportion de mâles dans l’échantillon, soit 97/160 = 0.60625. Donc, si le rapport des sexe est indépendant de l’habitat, la probabilité qu’un canard soit (a) un mâle et (b) dans un lagon est simplement le produit

Habitat Mâles Femelles Total

Lagons 30 34 64

Bancs d’algues 55 25 80

Haute mer 12 4 16

Total 97 63 160

112 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

des deux probabilités: (0.4)(0.60625) = 0.2425. Donc, si les mâles et les femelles utilisent les mêmes habitats, on s’attend à 160(0.2425) = 38.8 canards mâles dans les lagons.

La fréquence attendue, dans l’habitat i des canards du sexe j, peut être calculée par l’équation suivante, où Ri est le nombre total de canards dans l’habitat i, Cj est le nombre total de canards du sexe j observés et N est le nombre total de canards observés

Les statistiques X 2 et G peuvent être calculées par:

Les valeurs obtenues pour ces deux statistiques sont ensuite comparées à la distribution du χ2 avec (n-1)(m-1) degrés de liberté pour éprouver l’hypothèse nulle, où n est le nombre de rangées et m le nombre de colonnes du tableau de contingence.

Dans l’exemple précédent, les valeurs calculées pour le khi-carré et G sont 8.67 et 8.69 respectivement. Ces valeurs sont comparées aux valeurs critiques de χ2 avec (3-1)(2-1) = 2degrés de liberté, ce qui donne une probabilité d’environ 1% d’observer ces fréquences si le rapport des sexes ne change pas entre les habitats.

Les tests de khi-carré et de G pour éprouver des hypothèses d’indépendance dans des tableaux de contingence sont sujets aux même contraintes que les tests d’ajustement à une distribution théorique. Les échantillons doivent être raisonnablement grands et les fréquences attendues ne devraient pas être inférieures à 5.

Lorsqu’il y a seulement 4 cellules (un tableau 2x2), il est possible d’utiliser un test qui est plus fiable pour les petits échantillons, le test exact de Fisher (vois Sokal et Rohlf (1995), p. 730-736). L’ajustement

(75)

(76)

(77)

f ij

fR CNiji j=

Xf f

fij ij

ijj

m

i

n2

2

11

=−

==∑∑e j

G f f R R C C N Nij ij i i j jj

m

i

n

j

m

i

n

= − − +LNM

OQP====

∑∑∑∑21111

ln ln ln ln

TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES - 113

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

pour continuité (Section “Facteurs de correction pour le test de khi-carré et de G lorsqu'il n'y a que deux catégories” à la page 28) peut être utilisé pour obtenir un test plus conservateur.

Subdivision d’un tableau de contingence

Lorsque l’on rejette l’hypothèse d’indépendance, il est souvent utile d’identifier quel “traitement” est responsable de la dépendance. Dans l’exemple précédent sur les canards eider, un examen sommaire du tableau de contingence suggère que la plus grosse différence se situe entre le lagon et les deux autres milieux puisque dans les bancs d’algues et en haute mer il y a beaucoup plus de mâles que de femelles. L’approche générale est de trouver l’ensemble des plus grands sous-tableaux homogènes, c’est à dire les sections du tableau de contingence où on ne peut rejeter l’hypothèse nulle d’indépendance. On commence donc avec la plus petite section possible (un tableau 2x2), et on ajoute des colonnes ou des rangées jusqu’à ce que l’on rejette l’hypothèse d’indépendance. Le résultat final est un ensemble des sous-tableaux de taille maximale qui sont homogènes, mais qui diffèrent significativement les uns des autres. Dans notre exemple, la procédure est assez simple puisqu’il n’y a que trois sous-tableaux possibles (lagon-bancs d’algues, lagon-haute mer, et banc d’algues-haute mer), mais pour des tableaux de contingence avec plusieurs rangées et colonnes cela peut être extrêmement laborieux.

Un erreur fréquente

Les statistiques de khi-carré et de G doivent toujours être calculées à partir des fréquences observées et attendues, jamais les proportions ou les pourcentages.

Modèles log-linéairesLe concept de dépendance ou d’interaction peut être étendu aux tableaux de contingence à plusieurs critères de classification dans lesquels on examine l’effet de plus d’un facteur. Supposons qu’on veuille tester l’effet de la température (haute ou basse) et de l’humidité (haute ou basse) sur le nombre de plantes infectées par un pathogène. Dans ce cas on aurait besoin d’un tableau de contingence à trois critères de classification: État de la plante (infectée, non-infectée), Température (haute, basse) et Humidité (haute, basse).

114 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

L’analyse de tableaux de contingence est en fait une procédure d’ajustement de modèles. Pour un tableau de contingence à deux critères de classification, on a le modèle

où est le logarithme naturel de la fréquence attendue dans la rangée i et la colonne j du tableau, représentent les effets des catégories i et j des facteurs A et B respectivement et est un terme d’interaction représentant la dépendance de la catégorie i du facteur A sur la catégorie j du facteur B. L’hypothèse nulle qui est éprouvée avec une statistique X 2 ou G, est que est zéro. Pour un tableau avec trois facteurs (A, B et C), l’équation équivalente est

Notez que dans ce cas il y a trois interactions du deuxième degré et une interaction du troisième degré.

L’analyse de tableaux de contingences à plusieurs facteurs de classification procède de façon hiérarchique en éprouvant une série de modèles débutant par le plus complexe. Dans le cas d’un tableau à trois facteurs, on commence par éprouver l’hypothèse nulle que

= 0, ce qui peut se faire en ajustant un modèle qui ne contient pas ce terme:

Pour un tableau à trois facteurs avec a catégories du facteur A, b du facteur B et c du facteur C, la statistique G pour l’interaction ABC est obtenue en calculant

Notez que dans presque toutes les analyses statistiques visant à éprouver des hypothèses sur l’existence d’interactions (tableaux de contingence, ANOVA, ANCOVA, régression multiple) les tests sont

(78)

(79)

(80)

(81)

ln f ijk i j ij= + + +µ α β αβb g

ln f ijkα βi jet

αβb gij

αβb gij

ln f ijk i j k ij ik jk ijk= + + + + + + +µ α β γ αβ αγ βγ αβγb g b g b g b g

αβγb gijk

ln f ijk i j k ij ik jk= + + + + + +µ α β γ αβ αγ βγb g b g b g

G ff

fABC ijkijk

ijkk

c

j

b

i

a

=FHGIKJ===

∑∑∑2111

ln

TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES - 115

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

effectués en ajustant deux modèles: l’un avec le terme d’interaction et l’autre sans. Dans le cas d’un tableau avec trois facteurs, la statistique obtenue par l’équation 81 est simplement une mesure de la réduction de la qualité d’ajustement lorsque l’on exclue le terme représentant l’interaction du troisième degré. Si cette réduction n’est pas significative, alors cela signifie que l’interaction n’est pas significative. Si ce terme est significatif, cela veut dire que l’interaction entre les facteurs A et B (ou B et C, ou A et C) dépend du niveau facteur C (ou A ou B). Dans ce cas, on devrait faire des tests séparés d’indépendance pour chaque niveau de l’un des facteurs.

D’un autre côté, si le terme d’interaction du troisième degré n’est pas significatif, on peut l’éliminer et essayer d’ajuster un modèle plus simple. Pour un tableau avec trois facteurs, il y a trois modèles à éprouver, chacun excluant l’interaction du troisième degré et l’une des interactions du deuxième degré dans l’équation 81. Les interactions qui sont significatives (dont l’exclusion entraîne une dégradation significative de la qualité d’ajustement) sont conservées, les autres sont éliminées. Cependant, puisque l’on éprouve l’hypothèse d’une interaction en présence des deux autres (on compare un modèle avec deux interactions du deuxième degré à un modèle qui en contient 3), on ne peut conclure que parce que les deux interactions AB et AC ne sont pas significatives, alors que le modèle

donne un ajustement approprié. Cette inférence n’est justifiée que si l’on éprouve la signification de l’interaction BC en l’absence des deux autres interactions.

Le résultat final de cette procédure hiérarchique d’ajustement de modèle est le modèle le plus parcimonieux qui s’ajuste convenablement aux données, un modèle dont tous les termes d’interactions sont significatifs. C’est à partir de ce modèle que les conclusions sont tirées.

Tous les logiciels qui permettent d’estimer des modèles log-linéaires estiment les fréquences attendues selon le modèle ajusté et produisent des mesures des résidus, les déviations entre les fréquences attendues et observées. Si le modèle est bon, alors les résidus sont relativement petits et il n’y a pas de pattern évident des signes des résidus dans le tableau. Si il y en a, alors on devrait considérer une analyse plus approfondie du tableau. La valeur critique d’un résidu est difficile à établir d’une façon générale, mais pour un tableau avec trois facteurs

(82)ln f ijk i j k jk= + + + +µ α β γ βγb g

116 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

(A, B et C), ayant a, b et c niveaux respectivement, un résidu d’un modèle avec ν degrés de libertés ne devrait pas avoir une valeur absolue plus grande que

où est la valeur de khi-carré avec un degré de liberté et α = 0.05.

(83)νχ . ,05 12

abc

χ . ,05 12

PERMUTATION ET BOOTSTRAP - 117

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Permutation et BootstrapMalgré tous vos efforts, il arrivera que vos données s'éloigneront trop des conditions d’application des statistiques paramétriques que vous aimeriez utiliser et que vous ne trouverez pas d'alternative non paramétrique. La tentation sera alors grande de ne pas faire de statistiques et de simplement décrire les résultats. Vous devrez résister à cette tentation si vous désirez convaincre vos collègues. Il existe une alternative, mais elle implique généralement l’écriture de programmes d'ordinateur. Deux approches sont ici décrites brièvement.

Tests de permutationCette catégorie de tests ne s'applique qu'aux épreuves d'hypothèses. L'idée générale implique trois étapes:

1. Considérez l’échantillon obtenu comme l'un des échantillons pos-sibles d'événements, échantillons ayant tous la même probabilité d'existence

2. Énumérez toutes ces possibilités

3. En examinant la distribution de toutes ces possibilités, évaluez si l’échantillon obtenu est suffisamment improbable pour rejeter l'hypothèse nulle.

Par exemple, supposons que vous désirez tester si deux échantillons suivants de deux observations proviennent de deux populations ayant la même moyenne

Échantillon 1 10, 20 Échantillon 2 21, 25

Étape 1 . Calculez la moyenne pour chaque échantillon (15 et 23).Calculez la valeur absolue de la différence entre les moyennes (8).

Étape 2 . Générez toutes les paires possibles d'échantillons de deux observations et calculez la valeur absolue de la différence entre les deux moyennes:

10, 20 vs 21, 25 (8)10, 21 vs 20, 25 (7)10, 25 vs 20, 21 (3)20, 25 vs 10, 21 (7)20, 21 vs 10, 25 (3)21, 25 vs 10, 20 (8)

118 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Étape 3. Comparer la valeur observés aux valeurs possibles.

Il y a 6 valeurs possibles pour la valeur absolue de la différence entre les deux moyennes. De ces six valeurs, 2 (33%) sont égales ou plus élevées que la valeur de 8 observée. Il est donc probable que ces deux moyennes viennent de la même population

Cet exemple est trivial, mais le principe peut facilement être étendu à des situations plus complexes. Avec de grands échantillons il est souvent peu pratique de calculer toutes les combinaisons possibles. Dans ce cas, on prendra un échantillon aléatoire de ces possibilités.Cet échantillon devra être grand (idéalement plus de quelques centaines), et servira à comparer la valeur observée à la distribution de la statistique lors des permutations.

BootstrapCette approche permet de tester des hypothèses et de calculer des intervalles de confiance. Elle est appropriée lorsque les échantillons ne sont pas trop petits.

Le principe général implique deux étapes:

1. Échantillonner, avec remplacement, l’échantillon original et calcu-ler la statistique désirée. Répéter cette étape un grand nombre de fois (200-500)

2. A partir de la distribution des estimés bootstrap, déterminer les limites d'un intervalle de confiance au niveau de signification désiré.

Par exemple, supposons que vous désirez calculer un intervalle de confiance de la pente d'une régression calculée avec 10 observations.

Étape 1. Choisir au hasard, avec remplacement, 10 observations dans l’échantillon de 10.

Étape 2. Calculer la régression, garder la valeur de la pente.

Étape 3. Répéter 500 fois les étapes 1 et 2.

Étape 4. Mettre en ordre croissant les 500 pentes obtenues. Calculer les limites de l'intervalle de confiance à 95% comme la valeur de la 12ième et 487ième observation.

Pour tester l'hypothèse nulle, comparer la valeur prédite par l’hypothèse nulle à l'intervalle de confiance.Si la valeur prédite est incluse dans l’intervalle de confiance, accepter l’hypothèse nulle.

PERMUTATION ET BOOTSTRAP - 119

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

CommentairesCes deux approches peuvent être utilisées dans tous les cas que vous pouvez imaginer. Comme les données biologiques violent généralement les conditions d’application des tests paramétriques, ces deux approches peuvent leur être préférables. Cependant, elles requièrent de nombreux calculs qui ne peuvent être effectués qu'à l'aide d'ordinateurs en rédigeant des programmes spécifiques. Les tests non-paramétriques standards sont aussi puissants que les tests de permutation et le bootstrap, mais requièrent beaucoup moins de calculs.

120 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

EXERCICES DE LABORATOIRE - 121

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Exercices de laboratoireLes exercices de laboratoire que vous retrouverez dans les pages qui suivent sont conçus de manière à vous permettre de développer une expérience pratique en analyse de données à l'aide d'un logiciel (S-PLUS 6.0). S-PLUS est un logiciel très puissant et relativement convivial mais, comme tous les logiciels, il a des limites. En particulier il ne peut réfléchir à votre place, vous dire si l'analyse que vous tentez d'effectuer est appropriée ou sensée, ou interpréter biologiquement les résultats.

Quelques points importants à retenir

• Avant de commencer une analyse statistique, il faut d'abord vous familiariser son fonctionnement. Cela ne veut pas dire que vous devez connaître les outils mathématiques qui la sous-tende, mais vous devriez au moins comprendre les principes utilisés lors de cette analyse. Avant de faire un exercice de laboratoire, lisez donc la section correspondante dans les notes de cours. Sans cette lec-ture préalable, il est très probable que les résultats produits par le logiciel, même si l'analyse a été effectuée correctement, seront indéchiffrables.

• S-PLUS peut être utilisé de deux façons : (1) avec des lignes de commandes (command mode) et (2) en utilisant les menus. En mode menu, toutes les analyses sont réalisées en faisant des choix et en remplissant les formulaires des diverses fenêtres de S-PLUS. En mode commande, il faut taper les commandes désirées dans la fenêtre de commandes ou dans un fichier de commander pour indiquer à S-PLUS quoi faire. Notez que la plupart des exercices de laboratoire indiquent seulement comment effectuer les analyses en mode menu. Vous devriez cependant savoir que le mode com-mande est beaucoup plus flexible et qu'il permet de faire certaines choses plus efficacement que le mode menu. Pour cette raison, les utilisateurs expérimentés de S-PLUS préfèrent le mode com-mande et utilisent que rarement les menus.

• Les laboratoires sont conçus pour compléter les cours théoriques et vice versa. À cause des contraintes d'horaires, il se pourrait que le cours et le laboratoire ne soient pas parfaitement synchronisés. N'hésitez donc pas à poser des questions sur le labo en classe ou des questions théoriques au laboratoire.

• Travaillez sur les exercices de laboratoire à votre propre rythme. Certains exercices prennent beaucoup moins de temps que d'autres et il n'est pas nécessaire de compléter un exercice par

122 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

séance de laboratoire. En fait deux séances de laboratoire sont prévues pour certains des exercices. Mêmes si vous n'êtes pas notés sur les exercices de laboratoire, soyez conscient que ces exercices sont essentiels. Si vous ne les faites pas, il est très peu probable que vous serez capable de compléter les devoirs et l'exa-men final. Prenez donc ces exercices de laboratoire au sérieux !

LABO- INTRODUCTION À S-PLUS - 123

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Labo- Introduction à S-PLUSAprès avoir complété cet exercice de laboratoire, vous devriez pouvoir utiliser les menus de S-PLUS pour :

• Ouvrir des fichiers de données S-PLUS

• Faire des diagrammes de dispersion

• Calculer des statistiques descriptives

• Importer et exporter des fichiers

• Manipuler des données dans le chiffrier

• Créer des sous-ensembles de cas

• Transformer des données

• Trier des données

• Produire des graphiques

• Administrer les données, les graphiques, et les rapports

Notez que les exercices qui suivent ne font qu'effleurer l'ensemble des fonctions disponibles dans S-PLUS. Lorsque vous serez familiarisés avec cet environnement, vous devriez explorer par vous-même les autres fonctions. Les manuels en ligne vous seront d'un grand secours. Les fichiers d'aide ne sont pas à dédaigner non plus !

Pour chaque séance de laboratoire, vous devriez avoir en main une disquette. Elle vous servira à sauvegarder votre travail.

Le cahier de bord, une habitude à prendreJe vous recommande de garder des notes détaillées sur vos analyses avec S-PLUS. Une méthode des plus simple est de d'abord ouvrir un document dans le traitement de texte de votre choix, par exemple Word ou WordPerfect. Les résultats apparaissant dans les fenêtres de S-PLUS peuvent alors être simplement copiés-collés en utilisant la commande Cut/Copy du menu Edit de S-PLUS. Les graphiques peuvent aussi être copiés de S-PLUS à votre traitement de texte.

Quelques points à considérer. Premièrement, pour éviter d'avoir à recommencer du début si (lorsque…) le serveur tombe en panne, vous devriez sauvegarder votre travail à intervalles rapprochés. Deuxièmement, la fenêtre Report de S-PLUS où apparaissent les résultats ne peut contenir qu'une quantité limitée de texte. Si vos fichiers de sortie sont très longs ou que vous faites plusieurs analyses à la queue l'une de l'autre, il est fort possible que vous perdiez les

124 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

premières pages de résultats. Troisièmement, lorsque vous produisez un résultat que vous aimeriez garder, ajoutez-y une courte note décrivant ce que vous avez fait, pourquoi vous avez fait cette analyse et quelle est la conclusion que vous en faites. Nous savons par expérience qu'il est très difficile d'essayer de se souvenir de ce que l'on a fait et surtout pourquoi seulement à partir des fichiers de sortie S-PLUS…

Ouvrir un fichier de données S-PLUSPour ouvrir un fichier de données dans S-PLUS, choisir Data-Select Data au menu de la fenêtre principale de S-PLUS. Si c’est la première fois que vous ouvrez un fichier de données en particulier en S-PLUS, vous devriez choisir le bouton Import File de la boîte de dialogue Select Data, et cliquez OK. Dans la boîte de dialogue Import File, vous pouvez naviger (Browse) pour le fichier que vous voulez ouvrir (notez bien qu’ici vous pouvez choisir plusieurs types de fichiers d’autres logiciels pour ouvrir en S-PLUS). Dès que vous avez choissi le bon fichier, cliquez OK.

Ouvrez le fichier TUTDAT.SDD. Ce fichier contient des données sur des marais de la région d'Ottawa, en particulier leur superficie, le nombre d'espèces d'oiseaux, de mammifères et de plantes qui y sont retrou-vées, etc.

Lorsque vous ouvrez ce fichier, les données apparaitront dans une nouvelle fenêtre en S-PLUS, appeller TUTDAT. Les fichiers de données qui ont déjà été ouverts en S-PLUS sont entreposés dans une base de données interne. Ils peuvent être ouverts en sélectionnant le bouton Existing Data dans la boîte de dialogue Select Data et ensuite en choisissant le fichier approprié dans le menu Existing Data

Notez que quand vous faites plusieurs fonctions en S-PLUS, en créant des graphiques et en générant des résultats graphiques ou statistiques, des nouvelles fenêtres s’ouvriront. Vous pouvez passer d'une fenêtre à l'autre en pesant simultanément sur CTRL-Tab. La dimension des fenêtres peut être changée en cliquant-pressant sur un coin ou une bordure et ensuite en déplaçant la souris.

Création de diagrammes de dispersion

La premièe étape de toute analyse statistique est d’examiner les don-nées. Pour créer un diagramme de dispersion, choisir Graph- 2D Plot à la barre du menu principal. Vous avez plusieurs choix dans la boîte de

LABO- INTRODUCTION À S-PLUS - 125

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

dialogue Insert Graph; choisissez Linear pour Axes Type et Scatter Plot (x, y1, y2, ...) pour Plot Type. Cliquez sur OK. Dans la boîte de dialogue Line/Scatter Plot [1], choisissez le fichier de données avec lequel vous travaillez (TUTDAT), choisissez AREA1 du menu pour x Col-umns et PLANT du menu pour y Columns. Cliquez ensuite sur OK.

Un graphique de PLANT vs AREA(1) apparaîtra alors dans une nouvelle fenêtre appellée GS1. Vous pouvez éditer les caractéristiques du graphique en sélectionannt les différents éléments et en changer leurs propriétés. Par example, vous pouvez changer le titre des axes en cli-quant une fois sur le titre (des boutons verts apparaîtront autour du titre sélectionné) et en cliquant une deuxième fois pour ouvrir une boîte où vous pourrez changer le nom, la fonte, la largeur, etc. Dès que vous êtes satisfaits des modifications, cliquez à l’extérieur du boîte pour accepter les changements (ne cliquez pas sur Enter). Vous pou-vez sélectioner les axes ou les symboles en cliquant une fois autour du milieu de l’axe (un bouton vert apparaîtra au milieu de l’axe) ou sur les symboles (un bouton vert apparaîtra sur un seul symbole) pour changer les propriétés de ces composantes du graphique. D’habitude, il suffit de cliquer directement sur l’élément choisi pour ensuite changer les options de ces éléments (soit la largeur des symboles, la couleur, les lignes, etc).

S-PLUS a un très grand répertoire de types de graphiques. Vous pouvez faire des diagrammes de dispersion, des histogrammes, et même des graphiques en 3 dimensions. Essayons un graphique en trois dimensions.

50 300 550 800 1050 1300 1550 1800AREA1

0

50

100

150

200

250

PLAN

T

126 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Cliquez sur Graph-3D Plot dans le menu principal de S-PLUS. Dans la boîte de dialogue Insert Graph, choissisez 3D pour Axes Type et 3D Scatter Plot (x, y, z) pour Plot Type. Dans la boîte Graph Sheet, mettez le nom PLANT-HOURS-AREA DISPERSION pour renommer la fenêtre qui sera produite. Cliquez OK.

Une deuxième boîte de dialogue ouvrira maintenant, 3D Line/Scatter Plot [1]. Dans l’étiquette Data to Plot, choisissez AREA1 pour le x Col-umns, HRS pour le y Columns, et PLANT pour le z Columns.

Dans le panneau Line, choisissez un style de ligne coupée pour Drop Line Attributes.

LABO- INTRODUCTION À S-PLUS - 127

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Dans l’étiquette Symbol, changez the style de symbole à un losange plein (Diamond, solid), la couleur à rouge, et le Height à 0.20.

Cliquez OK et une nouveau graphique devrait apparaître dans une fenêtre appellée PLANT-HOURS-AREA DISPERSION. Expérimentez en changeant les éléments du graphique suivant les méthodes décrites plus haut.

Si vous désirez examiner les relations entre plusieurs paires de variables dans vos données, vous pouvez créer une matrice de diagrammes de dispersion à partir du menu Graph-2D Plot. Dans la boîte de dialogue Insert Graph, choisissez Matrix pour Axes Type et Scatter Plot Matrix (x1..xn) (cela devrait être votre seule option) pour Plot Type. Renommez le Graph Sheet en quelque chose d’utile et cliquez sur OK. Dans l’étiquette Data to Plot de la boîte de dialogue Scatter Plot Matrix [1], choisissez les variables que vous voulez

128 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

examiner dans le menu x-Columns. Vous devez utiliser le bouton CTRL pour sélectionnéeser dans le menu x Columns seulement. Cliquez sur OK.

Calculer des statistiques descriptives

Pour calculer des statistiques descriptives, sur le menu principal cliquez sur Statistitics-Data Summaries-Summary Statistics. Dans le pan-neau Data de la boîte de dialogue Summary Statistics, sélectionnez les variables pour lesquelles vous voulez produire des statistiques descrip-tives. Dans le panneau Statistics, sélectionnez les statistiques d’intérêt. Choisissez plusieurs variables du fichier TUTDAT et générez les statis-tiques descriptives. Les résultats pour le nombre d'espèces de plantes (PLANT), d'oiseaux (BIRD) et la superficie des marais (AREA1) sont reproduits ci-dessous :

*** Summary Statistics for data in: Tutdat ***

AREA1 PLANT BIRD

Min: 3.5000 27.000000 5.000000

Mean: 277.4469 131.241379 37.051724

Median: 144.5500 137.000000 35.500000

Max: 1641.7000 248.000000 112.000000

Total N: 58.0000 58.000000 58.000000

NA's : 0.0000 0.000000 0.000000

SE Mean: 45.8136 7.304264 2.546889

Prenez-note qu’une nouvelle fenêtre a été crée quand vous avez fait cette fonction. Cela est la fenêtre Report, où sont mis tous les résultats des analyses statistiques. Vous pouvez sauvegarder des fichiers de rapports, mais c’est probablement mieux de copier à un fichier dans

PLANT

0

500

1000

1500

0 50 100 150 200 250

0 500 1000 1500

AREA1

0

50

100

150

200

250

HRS

0

20

40

60

80

0 20 40 60 80

LABO- INTRODUCTION À S-PLUS - 129

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

un traitement de texte seulement l’information pertinente, où vous pouvez annoter les résultats pour pouvoir mieux vous rappeler de ce que vous avez fait, comment, et pourquoi.

Importer/Exporter des fichiersLe chiffrier de S-PLUS (la fenêtre S-PLUS Data) n'est pas un véritable chiffrier et n'est pas particulièrement convivial pour entrer des données. La majorité des utilisateurs utilisent donc d'autres programmes pour entrer leurs données, par exemple Excel ou MS Access, et importent ensuite leurs données dans S-PLUS.

Suivez la même méthode pour l'importation des données d’un autre logiciel que vous avez faites pour ouvrir un fichier de format S-PLUS. Notez que vous avez un peu de flexibilité dans ce que vous importez d’un fichier en particulier(jetez un coup d’oeil à l’étiquette Options dans la boîte de dialogue Import From File). C’est une très bonne idée de toujours verifier que les données que vous avez ouvertes en S-PLUS sont réellement les données que vous voulez utiliser!

Pour exporter un fichier, assurez-vous d'abord que le fichier désiré se trouve dans le chiffrier S-PLUS, puis sélectionnez File-Export Data - To File et sélectionnez le répertoire où vous voulez sauvegarder le fichier, un format (par exemple.xls) et un nom de fichier.

Essayez d'importer le fichier AGE.XLS pour créer un fichier S-PLUS, puis exportez-le sous un autre format.

Manipulation de données dans le chiffrierC’est possible de manipuler les données avec S-PLUS, mais il faut faire attention car il y a seulement deux niveaux de retour en arrière pour annuler les changements que vous avez faits dans la fenêtre Data. Vous pouvez soit annuler votre action la plus récente ou vous pouvez restorer les données au format dans lesquels elles étaient au début de la session S-PLUS . CTRL-Z vous permet d’annuler l’action le plus récente. Pour restorer les données à l’état original, cliquez sur Edit-Restore Data Objects sur le menu principal. Dans la boîte de dialoque accompagnante, sélectionnez l’objet que vous voulez restorer, choisissez le bouton Restore to Initial State et cliquz sur OK. Rappellez vous que cela restore vos données à l’état initial de la session, ce qui veut dire que si vous avez importé les mêmes données plusieurs fois sans changer le nom du chiffrier dans une session de S-PLUS, vos données seront restorées à ce qu’elles étaient quand vous avez commencéer S-PLUS.

130 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Ouvrez le fichier TUTDAT dans S-PLUS et essayez de faire les opéra-tions suivantes :

Effacer une valeur.

Pour effacer une valeur, cliquez dans la cellule du chiffrier qui la contient et appuyez sur Delete (notez que le valeur est remplacée par NA).

Effacer une rangée (cas).

Cliquez sur le numéro de rangée (la première colonne ombrée dans le chiffrier) de la rangée que vous voulez effacer pour la sélectionner. Sélectionnez ensuite Data-Remove-Row au menu principal.

Effacer une colonne (variable).

Cliquez sur le nom de la variable (la première rangée ombrée dans le chiffrier) pour sélectionner toute la colonne. Sélectionnez ensuite Data-Remove-Column au menu principal.

Effacer un bloc de données.

Sélectionnez le bloc de valeurs à effacer en cliquant d'abord dans la cellule formant le coin gauche supérieur puis, en pressant sur le bouton de la souris, glissez le pointeur jusqu'à la cellule formant le coin droit inférieur. Relâchez le bouton de la souris quand le bloc désiré est entièrement sélectionné puis sélectionnez Delete au menu Edit. Notez que cette opération n'efface pas les rangées ni les colonnes, seulement le contenu des cellules sélectionnées qui sont remplacées par NA.

Changer une valeur.

Cliquez dans la cellule contenant la valeur à changer, inscrivez la nouvelle valeur et appuyez sur Tab sur le clavier. La valeur sera changée et le curseur se déplacera dans la cellule suivante dans la rangée.

Ajouter une nouvelle variable.

Déplacez le curseur dans la rangée contenant le nom des variables (la première rangée du fichier), juste après la dernière variable. Double-cliquez sur la cellule juste en dessous du nombre de la colonne, inscrivez le nom de la nouvelle variable et choisissez Enter pour accepter le nom. Avec la nouvelle variable toujours sélectionner, choisissez Data-Change Data Type au menu principal et selectionnez le type de donnée pour la nouvelle variable (ex. character, time/date,

LABO- INTRODUCTION À S-PLUS - 131

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

double precision). Cliquez sur OK pour accepter les modifications. Si vous essayez de changer une variable contenant des chaînes de caractères, S-PLUS vous donnera un message, dans la fenêtre Message, vous informant qu’il y avait des problèmes à convertir des cas contenant des chaînes de caractères.

Ajouter un nouveau cas.

Déplacez le curseur au bas du tableau jusqu'à la première cellule libre. Inscrivez la valeur désirée et appuyez sur Tab pour passer à la colonne (variable) suivante.

Insérer une colonne

Choisissez Insert-Column au menu principal. Dans la boîte de dialogue Insert Columns, inscrivez un nom pour la nouvelle colonne dans la boîte Name(s) et sélectionnez le nom de la colonne qui doit suivre celle de la nouvelle variable au menu Start Columns. Cliquez sur OK; une nouvelle colonne devrait apparaître juste avant la colonne que vous avez choisi, remplis soit avec NA ou des cellules nulles.

Créer des sous-ensembles de casIl arrive fréquemment qu'une analyse se concentre sur un sous-ensemble des observations contenues dans un fichier de données. Les cas sont d’habitude sélectionnes selon un critère en particulier. Pour utiliser un sous-ensemble de vos données en créant une graphique ou en performant une analyse, il faut entrer une expression dans la boîte Subset Rows qui peut être trouvée dans les boîtes de dialoques appartenant aux différentes fonctions que vous utilisez. Donc, si vous voulez travailler seulement avec les cas dans le fichier TUTDAT où la mesure a été faite par #1 (SURV=1), if faut entrer l’expression “SURV==1”dans le champ Subset Rows dans la boîte de dialoque pour l’analyse en question. Dans le cas des graphiques, vous pouvez toujours sélectionner les données sur un graphique qui a déjà été créé et cliquez-droite pour changer le Data to Plot. C’est dans la boîte de dialoque qui ouvre où vous pouvez entrer une expression pour visualiser seulement un sous-ensemble des données. Pour utiliser tous les cas dans un fichier, laissez le champ Subset Rows vide.

Dans la table qui suit se trouve une liste de commandes communes que vous allez probablement utiliser pour créer des expression en S-PLUS.

132 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

En utilisant les commandes en haut, essayez de faire un diagramme de dispersion de logpl vs logarea pour le sous-ensemble de cas où SURV=1 et HRS n’est pas "NA".

Dans certains cas, par exemple avec de très grands ensembles de données, vous voudrez créer des fichiers séparés pour les différents sous-ensembles. Cela est particulierement utile quand vous allez faire plusieurs analyses différentes sur les sous-ensembles. Pour ce faire, sélectionnez au menu principal Data-Subset. Dans la boîte de dialogue Subset, choisissez un fichier, les colonnes qui vous intéressent (la valeur par défaut est “ALL”), et inscrivez une expression de format S-PLUS dans le champ Subset Rows with. Dans le groupe Results, inscrivez un nom pour le nouveau fichier dans le champ Save In et cliquez OK. Une nouvelle fenêtre ouvrira avec le sous-ensemble

Operator Explication Operator Explication

== Égal à != Pas égal à

> Plus que < Moins que

>= Plus que ou égal à <= Moins que ou égal à

& Et vectorisé | Ou vectorisé

&& Et contrôle || Ou contrôle

! Pas

1.0 1.5 2.0 2.5 3.0LOGAREA

1.7

1.9

2.1

2.3

LOG

PL

LABO- INTRODUCTION À S-PLUS - 133

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

de données. Verifiez que les données sont celles que vouliez! Apprendre la syntaxe correcte de S-PLUS vous prendra un certain temps...

Transformer des données

Créer de nouvelles variables qui sont une fonction mathématique d'autres variables

Il est très souvent nécessaire de créer de nouvelles variables à partir de variables existantes. Par exemple, la densité des souris dans un champ est le nombre de souris dénombrées (N) divisé par la superficie du champ (A). Si votre fichier de données contient les valeurs de N et de A pour chaque site, vous pouvez calculer la densité en sélectionnant Data-Transform du menu principal et, dans la boîte de dialoque inscrivez D dans le champs Target column et N/A comme Expression (vous pouvez aussi utiliser les menus pour additioner les variables dans l’effort de minimiser les erreurs typographiques). Quand vous cliquez OK, une nouvelle colonne devrait apparaître dans le fichier, avec les valeurs de D calculés pour chaque cas. S'il y a des données manquantes de A ou de N, D sera aussi manquant. Notez que S-PLUS est intransigeant quant aux lettres majuscules/miniscules; il faut toujour entrer les noms des variables dans les expressions exactement comme ils sont dans le fichier de données.

En utilisant TUTDAT, créez une nouvelle variable VERT=BIRD+HERP-TILE+MAMMAL et ensuite un graphique de dispersion VERT vs LOGAREA.

0.5 1.0 1.5 2.0 2.5 3.0LOGAREA

0

40

80

120

VER

T

134 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

S-PLUS contient tout un répertoire de fonctions mathématiques standard : LOG (logarithme naturel), LOG10 (logarithme base 10), ABS (valeur absolue), etc.

Il est également possible de faire des transformations différentes pour divers sous-ensembles de cas. Par exemple, supposons que nous sachions que le chercheur #1 répertorie un habitat deux fois moins vite que le chercheur #2 et que ce dernier répertorie 3 hectares de marais à l'heure.

En utilisant TUTDAT, créez une nouvelle variable COVERAGE. Utilisez les expressions “If-else” pour faire des transformations conditionnelles. Dans le champ Expression du boîte de dialogue Transform, inscrivez la ligne suivante pour créer la nouvelle variable COVERAGE (que vous devez specifier dans le champ Target Column de la boîte de dialogue Transform):

ifelse((SURV==1), HRS*3*0.5, ifelse(SURV==2, HRS*3, "NA"))

Etudiez cette expression pour être certain que vous comprenez ce qu’elle fait. D’abord, elle cherche dans la colonne SURV et, pour chaque cas où SURV=1, elle calcule un valeur pour COVERAGE en multipliant HRS*3*0.5. Ensuite, elle cherche pour tous les cas où SURV n’est pas égale à 1 et détermine si SURV=2. Pour chaque cas où SURV=2, elle calcule un valeur pour coverage en multipliant HRS*3. Enfin, elle donne un valeur de “NA” pour tous les cas qui n’ont pas été touchés. Essayez maintenant de changer cette expression pour inclure une troisième critère où COVERAGE=HRS*3*1.5 pour tous les cas où SURV=3.

Créer de nouvelles variables qui sont des fonctions logiques ou relationnelles d'autres variables

Il est parfois nécessaire de créer des variables qui représentent des groupes de cas. Par exemple, supposons qu'on doive regrouper tous les marais de l'échantillon en trois catégories : petit (<50 ha), moyen (50 - 100 ha) et grand (> 100 ha). Pour ce faire, on pourrait procéder comme suit : au menu Data du chiffrier, sélectionner Create Categories. Dans la boîte de dialogue Create Categories, choisissez la Source Column de laquelle vous voulez définir les catégories (AREA1) et une Target Column où vous voulez avoir les nouvelles catégories (inscrivez SIZE.CLASS). Dans la groupe Numeric Column, selectionnez le bouton Cut Points et dans le champ Cut Points inscrivez “50, 100”. Cliquez sur OK. Une nouvelle variable, SIZE.CLASS devrait apparaître dans le chiffrier, avec des valeurs “3.59 THUR 50.0”, “50.0 THRU 100.0”, et “100.00 THUR 1641.7” qui se sont déterminés sur si AREA1 est moins de 50.0 ha, entre 50 et 100 ha,

LABO- INTRODUCTION À S-PLUS - 135

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

our plus larges de 100 ha, respectivement. On peut ensuite créer des étiquettes (Labels) en utilisant Data, Recode, et choisissant SIZE.CLASS dans le champ Columns dans la boîte de dialoque ouverte. Dans la groupe Values, choisissez la première option dans le champ Current Value (100.00 THRU 1641.7) et dans le champ New Value inscrivez “LARGE”. Cliquez sur Apply. Maintenant, sélectionnez les intervales moyennes et petites et donnez des étiquettes “MEDIUM” et “SMALL”, respectively, en cliquant sur Apply après chaque groupe. Essayez !

Problème avec S-PLUS: En utilisant les fenêtres et menus avec l’example en haut, S-PLUS ne réussit pas à changer les valeurs pour les cas moyens et petits, et c’est à cause du fait que les catégories qui ont été crées pour ces deux groupes ont des espaces juste devant leurs chiffres (i.e., “ 50.00+thur...” et “ 3.59+thu...). Pour contourner ce problème, vous devriez utiliser les lignes de commandes pour renommer la variable. Premièrement, ouvrez la fenêtre History (Window-History-Display-OK). Ensuite, ouvrez la fenêtre Commands (Window-Commands Window). Dans la fenêtre, trouvez la ligne de code où vous avez essayé de renommer la classe de taille moyenne (reproduite ci-bas, elle devrait apparaître sur une ligne dans l’History).Tutdat <- menuRecode(data = Tutdat, variable = list("SIZECLASS"), current.value = "50.00+ thru 100.0", new.value = "Medium")

Vous devez répeter cette ligne de code mais inscrivez un espace avant le 50.00. Pour faire cela, copiez la ligne de la fenêtre History et collez-la après le “>” dans la fenêtre Commands. S-PLUS va probablement essayer tout de suite d’exécuter cette commande. Pour rappeller la commande, tappez une fois sur la flèche montante (up arrow) sur le clavier. Ensuite, mettez votre curseur juste avant le 50.00, ajoutez une espace, et appuyez sur Enter. La nouvelle commande devrait apparaître comme ce qui suit:Tutdat <- menuRecode(data = Tutdat2, variable = list("SIZECLASS"), current.value = " 50.00+ thru 100.0", new.value = "Medium")

Répetez cela pour la petite classe de taille, en ajoutant deux espaces avant du 3.49 sur la ligne de commande.

Calculer les rangs

De nombreuses statistiques non-paramétriques sont calculées sur les rangs des données plutôt que sur les valeurs brutes. Pour transformer la valeur d'une variable en son rang, sélectionnez Data-Transform au menu principal, puis inscrivez le nom d’une nouvelle pour variable pour recevoir les rangs dans le champ Target Column. Ensuite, dans le champ Add to Expression, sélectionnez la Variable que vous voulez

136 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

transformer en rangs, et choisissez rank de la liste des Functions disponibles. Cliquez sur Add (une expression devra apparaître dans la boîte Expression), suivi par OK. Une nouvelle colonne devrait apparaître dans le chiffrier contenant les rangs de vos données.

Essayez de calculer les rangs pour la variable représentant l'aire des marais (AREA1) dans TUTDAT.

Trier des donnéesPour trier des données, sélectionnez Data-Restructure-Sort au menu principal. Dans la boîte de dialogue Sort Columns et dans la groupe From, choisissez le fichier que vous voulez trier, les colonnes à trier (le défaut est ALL), et dans le champ Sort By choisissez la ou les colonnes sur lesquelles vous voulez baser le tri. Vous pouvez triez par plusieurs colonnes on pesant sur CTRL et en cliquant sur plusieurs variables dans le menu. Dans la groupe To, sélectionnez un fichier pour recevoir le triage (vous pouvez choisir le même fichier pour trier en place, ou vous pouvez créer un nouveau fichier), et les colonnes pour recevoir les résultats du triage (celles-ci doivent être du même nombre que celles dans le champ From). Vous pouvez trier en ordre croissant ou décroissant. Cliquez sur OK.

Triez les marais de TUTDAT en ordre croissant de densité d'espèces de vertébrés (VERTDEN), calculée comme le nombre d'espèces de vertébrés (BIRD + MAMMAL + HERPTILE) divisé par la superficie du marias (AREA1).

Produire des graphiquesEn plus des diagrammes de dispersion, S-PLUS permet de faire plusieurs autres graphiques. Les plus communs sont décrits ici, mais soyez conscients que S-PLUS offre beaucoup plus de possibilités que ce qui est décrit ici.

Histogramme

Les options Histogram (x) et Histogram with Density Line (x) dans la fenêtre Graph-2D Plots peuvent être utilisés pour créer des histogrammes. S-PLUS produit des histogramme en comptant le nombre de cas dans chaque catégorie de la variable désignée, par exemple le nombre de marais dans TUTDAT qui sont petits, moyens ou grands, ou le nombre de marais ayant un nombre donné d’espèces de plantes. Pour produire un histogramme du nombre d’espèces de plantes, choisir Histogram (x) dans la fenêtre Insert Graph du menu

LABO- INTRODUCTION À S-PLUS - 137

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Graph-2D Plots. Cliquez sur OK et, dans la boîte de dialogue qui ouvre, choisissez la variable à utiliser dans le champ x Columns (PLANT). Cliquez sur OK. Le résultat est un histogramme du nombre d’espèces de plantes dans les marais. Pour changer l'apparence du graphique, sélectionnez de différents éléments sur le graphique propre (soit, les symboles, les axes, les titres des axes, etc), cliquez-droite, et changez les options jusqu'à ce que vous soyez satisfait du résultat.

Diagrammes de probabilité

Vous pouvez comparer visuellement la distribution de vos données à des distributions théoriques en utilisant la routine Q-Q Normal with line dans la boîte de dialogue Insert Graph. Après avoir choisi cette option, choisissez PLANT pour le y Columns, laissez le champ x Columns vide, et cliquez sur OK. Le graphique produit par S-PLUS permet de détecter une déviation par rapport à une distribution normale. En effet, si PLANT était distribué normalement, les points s'aligneraient approximativement sur la ligne diagonale . Notez que les points forment plutôt un S, ce qui suggère une distribution bimodale (quelque chose que vous avez peut être soupçonné en regardant l’histogramme!).

0 25 50 75 100 125 150 175 200 225 250PLANT

0

2

4

6

8

10

12

138 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Box plots

Les Box plots permettent de comparer visuellement différents groupes. Par exemple, supposons que vous vouliez comparer la taille des mâles et des femelles, un box plot illustrerait comment la distribution des tailles diffère entre les deux. Pour faire un Box plot, sélectionnez Box Plot (x, grouping-optional) dans la boîte de dialogue Insert Graph et cliquez OK. Choissisez une variable représentant les groupes à comparer (dans l'exemple, ce serait la taille et le sexe respectivement) pour le champ x Columns et la variable dont vous voulez comparer la distribution pour le champ y Columns et cliquez sur OK.

Pour essayer, sélectionnez PLANT comme variable Y (Y-variable) et SIZE.CLASS comme X variable. Le graphique qui en résulte décrit comment la distribution de la richesse spécifique varie selon les trois catégories de marais. Dans un box plot, la ligne près du centre de la boîte représente la valeur médiane, les extrémités de la boîte (les charnières) représentent le premier et troisième quartile. L'étendue représentée par la boîte contient donc 50% des valeurs. Le restant des données sont représentées par les “clotûres” et les valeurs extrêmes sont représentés par des symboles.

-3 -2 -1 0 1 2Normal Distribution

0

50

100

150

200

250

PLAN

T

LABO- INTRODUCTION À S-PLUS - 139

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Administrer les données, les graphiques, et les rapports de sortie avec Object ExplorerPendant que vous faites des analyses et fonctions en S-PLUS, plusieurs fenêtres vont être crées pour les graphiques, les rapports de sorties, et les données. Le Object Explorer est l’interface qui vous permet d’organiser les objets crées en S-PLUS. Object Explorer fonctionne un peu comme Windows Explorer, dans le sens que ça vous permet de bouger, renommer, et copier des fichiers de différents dossiers. Les différences principales entre les deux sont 1) le fait que Object Explorer est spécifique à S-PLUS et vous permet de travailler seulement avec des fichiers crées en S-PLUS et 2) les dossiers dans Object Explorer ne représentent pas les vraix objets; par contre, ils sont des raccourcis aux objets, vous permettant de les organiser visuellement.

Ouvrez Object Explorer en cliquant le bouton sur la barre d’outils standards. Une nouvelle fenêtre ouvrira en S-PLUS, divisée en deux carreaux qui offrent deux vues différents des objets, leurs éléments, et leurs attributs. Défilez parmis les différents objets pour avoir une idée des options qui vous sont présentées dans Object Explorer.

Small Medium LargeSIZE_CLASS

0

50

100

150

200

250

PLAN

T

140 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

La fenêtre de gauche d’Object Explorer montre les dossiers et les objets dans un ordre hiérarchique. Chaque feuille de données que vous avez déjà ouvert en S-PLUS apparaîtra sous l’item Data dans la fenêtre de gauche. En cliquant sur les différentes feuilles de données, vous pourrez voir dans la fenêtre de droite ce que chaque feuille contient. Ici vous pouvez renommer les feuilles de données, effacer des feuilles de données, changer les propriétés des colonnes. Les graphiques que vous avez produits durant la session courante apparaîtront sous l’item Graphs dans la fenêtre de gauche, et vous pouvez changer les attributs des graphiques dans Object Explorer. La même principe s’applique pour l’item Reports.

Dès que vous avez ouvert un fichier de données en S-PLUS, il est entreposé dans votre répertoire de travail jusqu’à ce que vous l’enleviez physiquement. Tout les changements que vous faites à un fichier de données sont effectués sur le fichier dans le répertoire de travail mais pas dans le fichier original. Cela protège votre fichier original contre la corruption, mais vous devez toujours vous rappeller comment un fichier en S-PLUS a changé en comparaison avec le fichier originale. Probablement vous trouverez que, de temps en temps, il sera sage de re-ouvrir le fichier original dans un nouveau fichier de données en S-PLUS, pour vous assurer que vous travaillez avec les bonnes données. Soyez toujours conscients des fichiers que vous avez crées en jetant un coup d’oeil à l’Object Explorer. Donnez des noms utiles au fichiers, et effacez les feuilles de données dont vous n’avez plus besoin. Ces petits efforts vont vous sauver plusieurs difficultés à long terme, vont minimiser l’espace utilisé dans le répertoire de travail, ce qui devrait aider à optimiser la vitesse de S-PLUS.

LABO- INTRODUCTION À S-PLUS - 141

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Si vous voulez sauvegarder une graphique en quittant S-PLUS, vous pouvez le faire, et choisir un répertoire approprié pour l’y mettre (de la même façon que vous feriez pour n’importe quel autre type de fichier). Notez bien que quand vous sauvegardez un graphique, en fait ce sont les lignes de codes nécessaires pour créer le graphique qui sont sauvegardées et non l’image elle-même. Alors, si vous esssayez plus tard de re-ouvrir le graphique, mais que vous avez déjà effacé ou renommé le fichier de données, le graphique n’ouvrira pas. Si vous voulez sauvegarder seulement l’image, vous êtes probablement mieux de l’exporter, en utilisant File-Export Graph, et ensuite l’ouvrir plus tard dans un traitement de texte.

Suivez le même processus pour sauvegarder les rapports de sortie (Reports) pour une session S-PLUS. Les rapports sont sauvegardés comme des fichiers texte qui sont facilement ouverts dans les traitements de texte. Les rapports ne dépendent pas du fichier de données original. Rappellez-vous que quand vous avancez dans ce cours, vous allez génerer plusieurs rapports de sorties, et beaucoup de ces rapports ne seront pas utiles pour vous plus tard. Alors, nous vous suggérons de copier et coller seulement l’information pertinente dans un fichier ouvert dans un traitement de texte. Ajoutez des notes pour vous rappeller ce que vous avez fait pour produire le rapport, ce que les résultats veulent dire, et pourquoi vous avez fait cette analyse en particulier.

142 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

LABO- COMPARAISON DE DEUX ÉCHANTILLONS - 143

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Labo- Comparaison de deux échantillonsAprès avoir complété cet exercice de laboratoire, vous devriez pouvoir :

• Utiliser S-PLUS pour examiner visuellement les données

• Utiliser S-PLUS pour comparer les moyennes de deux échan-tillons distribués normalement

• Utiliser S-PLUS pour comparer les moyennes de deux échan-tillons qui ne sont pas normalement distribués

• Utiliser S-PLUS pour comparer les moyennes de deux échan-tillons appareillés

• Utiliser S-PLUS pour comparer les médianes et les variances de deux échantillons

• Utiliser S-PLUS pour comparer les distributions de deux échan-tillons

Examen visuel des donnéesUne des premières étapes dans toute analyse de données est l’examen visuel des données par des graphiques et statistiques sommaires pour détecter les distributions sous-jacentes, les valeurs extremes et les tendances dans vos données. Cela commence souvent avec des graphiques de vos données (histogrammes, diagrammes de probabilité, Box plots, etc.) qui vous permettent d’évaluer si vos données sont normales, si elles sont correlées les unes aux autres, ou s’il y a des valeurs suspectes dans le fichier.

Supposons que l'on veuille comparer la distribution en taille des esturgeons de The Pas et Cumberland House. La variable FKLNGTH dans le fichier STURGDAT.SDD représente la longueur (en cm) à la fourche de chaque poisson mesurée de l'extrémité de la tête à la base de la fourche de la nageoire caudale. Pour commencer, examinons si cette variable est normalement distribuée. On ne va pas tester pour la normalité à ce stade-ci; la présomption de normalité dans les analyes paramétriques s’applique aux résidus et non aux données brutes. Cependant, si les données brutes ne sont pas normales, vous avez d’habitude une très bonne raison de soupçonner que les résidus vont aussi être non-normales.

Une excellente façon de comparer visuellement une distribution à la distribution normale est de superposer un histogramme des données observées à une courbe normale. Pour ce faire, il faut procéder en

144 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

deux étapes : 1) indiquer à S-PLUS que nous voulons créer un histogramme superposé à une courbe normale, 2) spécifier qu’on veut que les graphiques soient faits pour les deux sites.

En utilisant les données du fichier STURGDAT.SDD, générez les histo-grammes et les distributions normales ajustées aux données de FKL-NGTH à The Pas et Cumberland House. Sélectionnez Graph-2D Plot et Histogram with Density Line (x) comme Plot Type. Cliquez sur OK et dans la boîte de dialogue suivante choisissez FKLNGTH dans le champ x Columns. Dans l’étiquette Options de la même boîte, metter le Num-ber of bars à 25 (ou quelque chose du genre: la valeur par défaut est trop petite pour avoir une bonne idée de la distribution). Cliquez sur OK et un histogramme devrait apparaitre dans une nouvelle fenêtre.

Les données reprensentées dans cette figure sont pour tous les cas, mais nous sommes intéressés à voir comment les distributions varient avec LOCATION.

Alors, cliquez dans l’espace blanc dans le cadre du graphique pour sélectionner le graphique et cliquez avec le bouton droit pour ouvrir la boîte de menu. Choisissez Multipanel. Dans la boîte de dialogue 2D Graph (1), choisissez Condition dans le champ Panel Type et puis choisissez LOCATION comme Conditioning Column du champ Column List.

24.9606328.31181

31.6629935.01417

38.3653541.71654

45.0677248.41890

51.7700855.12126

58.4724461.82362

65.17480

FKLNGTH

0.00

0.02

0.04

0.06

0.08

0.10

LABO- COMPARAISON DE DEUX ÉCHANTILLONS - 145

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Cliquez sur OK. L’histrogramme devrait être maintenant divisé en deux panneaux par LOCATION. D’après votre inspection visuelle, est-ce que les deux échantillons sont distribués normalement?

Les graphiques suggèrent que pour Cumberland House les données se rapprochent de la normalité, mais que les données de The Pas ne suivent pas très bien la distribution normale

En utilisant la routine Q-Q Normal with Line (x) à la fenêtre Graphs-2D Plot, faites des graphiques de probabilité pour chaque site en utilisant essentiellement le même processus à celui décrit en haut (rappellez vous de mettre une variable seulement pour le champ y Columns et

24.96063 38.36535 51.77008 65.17480 78.57953FKLNGTH

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.00

0.02

0.04

0.06

0.08

0.10

0.12

LOCATION: Cumberland

LOCATION: The_Pas

146 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

non pas pour le champ x Columns). Cette autre façon de représenter les données vous porte-t-elle à changer votre conclusion sur la nor-malité des données?

L’inspection visuelle de ces graphiques suggère que cette variable est distribuée approximativement suivant la loi normale dans chaque échantillon, quoiqu’il y ait une certaine leptokurtose (distribution trop haute et serrée) à The Pas et que les données de Cumberland s’approchent plus d’une distribution normale.

Puisque nous sommes intéressées à savoir si les poissons de deux locations se varient en taille, c’est probablement une bonne idée de créer une graphique qui compare les deux groupes de données. Un Box plot se convient très bien pour cette tache.

Créez un Box plot de FKLNGTH par LOCATION. Que pouvez-vous con-clure des différences de taille entre les deux sites?

-3 -2 -1 0 1 2 3Normal Distribution

30

60

30

60

FKLN

GTH

LOCATION: Cumberland

LOCATION: The_Pas

LABO- COMPARAISON DE DEUX ÉCHANTILLONS - 147

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Il n’y a pas de grands différence de taille entre les deux sites, mais la taille des poisson à The Pas est peut être plus variable, avec une plus large étandue de taille et des valeurs extrèmes (définies par les valeurs qui sont > 1.5*l’étandue inter-quartile) à chaque bout de la distribution.

Comparer les moyennes de deux échantillons indépendants : comparaisons paramétriques et non paramétriques

Pour éprouver l'hypothèse nulle d'égalité de la longueur à la fourche à The Pas et Cumberland House, allez à Statistics-Compare Samples - Two samples - t-Test. Inscrivez FKLNGTH comme Variable 1 et LOCA-TION comme Variable 2. Cliquez sur la boîte Variable 2 is a Grouping Variable. Ciquez sur OK. Que concluez-vous?

S-PLUS program for examining data## Code for generating histograms and density plots (this is done

on Sturgdat data, but could also be done on subsets)##

par(mfrow = c(2, 2))

hist(Sturgdat$FKLNGTH, subset=Sturgdat$LOCATION=="The_Pas",

main="The Pas")

qqnorm(Sturgdat$FKLNGTH, subset=Sturgdat$LOCATION=="The_Pas",

main="The Pas")

qqline(Sturgdat$FKLNGTH)

hist(Sturgdat$FKLNGTH, subset=Sturgdat$LOCATION=="Cumberland",

main="Cumberland")

qqnorm(Sturgdat$FKLNGTH, subset=Sturgdat$LOCATION=="Cumberland",

main="Cumberland")

qqline(Sturgdat$FKLNGTH)

par(mfrow=c(1,1))

Cumberland The_PasLOCATION

20

30

40

50

60

70

FKLN

GTH

148 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Standard Two-Sample t-Test

data: x: FKLNGTH with LOCATION = Cumberland , and y: FKLNGTH with LOCATION =

The_Pas

t = 2.0685, df = 183, p-value = 0.04

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

0.0769729 3.2588904

sample estimates:

mean of x mean of y

45.03778 43.36984

Éprouvez la même hypothèse nulle en allant à Statistics - Compare Samples - Two Samples - Wilkoxon Rank Test. Utilisez les mêmes critères que pour le t-test. À partir des résultats des analyses paramétrique et non-paramétrique, que concluez-vous ? Pourquoi ?

Wilcoxon rank-sum test

data: x: FKLNGTH with LOCATION = Cumberland , and y: FKLNGTH with LOCATION =

The_Pas

rank-sum normal statistic with correction Z = 1.7776, p-value = 0.0755

alternative hypothesis: true mu is not equal to 0

En se fiant au test de t, on rejette donc l’hypothèse nulle. Il y a une différence significative (mais pas hautement significative) entre les deux moyennes des longueurs à la fourche.

Notez que si l’on se fie au test de Wilcoxon, il faut accepter l’hypothèse nulle. Les deux tests mènent donc à des conclusions contradictoires. La différence significative obtenue par le test de t peut provenir en partie d’une violation des conditions d’application du test (normalité et homoscedasticité). D’un autre coté, l’absence de différence significative selon le test de Wilcoxon pourrait être dûe au fait que, pour un effectif donné, la puissance du test non-paramétrique est inférieure à celle du test paramétrique correspondant. Compte-tenu 1) des valeurs de p obtenues pour les deux tests, et 2) le fait que pour des grands échantillons (des effectifs de 84 et 101 sont considérés grands) le test de t est considéré robuste, il est raisonable de rejeter l’hypothèse nulle.

Avant d’accepter les résultats du test de t et de rejeter l’hypothèse nulle qu’il n’y a pas de différences de taille entre les deux sites, il est important de déterminer si les données rencontrent les conditions de normalité des résidus et d’égalité des variances. L’examen préliminaire suggèrait que les données sont à peu près normales mais qu’il y avait peut être des problèmes avec les variances (puisque l’étendue des données pour The Pas était beaucoup plus grande que celle pour Cumberland). On peut examiner ces conditions d’application plus en détail en examinant les résidus, qui doivent être générés par la routine ANOVA.

LABO- COMPARAISON DE DEUX ÉCHANTILLONS - 149

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Recalculez le même modèle par la routine Statistics-ANOVA-Fixed Effects. Choisissez STURGDAT comme Data Set, FKLNGTH comme vari-able Dependent et LOCATION comme variable Independent. Au pan-neau Results, dans le groupe Saved Results, sélectionnez STURGDAT et cliquez dans les boîtes Residuals et Fitted Values pour sauvegarder les résidus et valeurs estimées dans le chiffrier. Dans le panneau Plot, cliquez sur les options Residuals vs Fit et Residuals Normal QQ. Cliquez sur OK.

*** Analysis of Variance Model ***

Short Output:

Call:

aov(formula = FKLNGTH ~ LOCATION, data = Sturgdat, na.action = na.exclude)

Terms:

LOCATION Residuals

Sum of Squares 127.581 5456.805

Deg. of Freedom 1 183

Residual standard error: 5.460642

Estimated effects may be unbalanced

Df Sum of Sq Mean Sq F Value Pr(F)

LOCATION 1 127.581 127.5808 4.278564 0.04000208

Residuals 183 5456.805 29.8186

On va examiner les détails de ce fichier de sortie plus tard dans le cours, quand on va étudier les ANOVAs. Pour le moment il suffit de noter que la probabilité associée à l’ANOVA est la même que celle du test de t. C’est parce que le test de t est un cas spécial d’ANOVA.

Jettez un coup d’oeil au chiffrier. Il devrait y avoir deux nouvelles colonnes (FIT et RESIDUALS). La colonne FIT est la valeur estimée par le modèle, qui dans ce cas correspond exactement à la moyenne de chaque groupe (faites la vérification vous-même en calculant les statistiques de sommaire pour chaque LOCATION et comparez ces valeurs à celles dans la colonne FIT). Les valeurs dans la colonne RESIDUALS sont simplement les différences entre les valeurs brutes pour FKLNGTH et les valeurs estimées .

150 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Maintenant, jettez un coup d’oeil aux graphiques qui ont été crées quand vous avez fait l’ANOVA. Le premièr graphique est un diagramme de probabilité des résidus. Notez que les résidus suivent, plus ou moins, une ligne droite,ce qui suggère ue la normalité n’est pas un problème. On peut quand même faire un test formel pour la normalité des résidus en utilisant le test Kolmogorov-Smirnov (KS).

Allez à Statistics-Compare Sample-One Sample -Komolgorov Smirnov GOF. Dans la boîte de dialoque choisissez STURGDAT comme Data set et RESIDUALS dans le champ Variable. Cliquez sur OK.

One sample Kolmogorov-Smirnov Test of Composite Normality

data: residuals in Sturgdat

ks = 0.0445, p-value = 0.5

alternative hypothesis:

True cdf is not the normal distn. with estimated parameters

sample estimates:

mean of x standard deviation of x

-1.086593e-016 5.445783

Le test Kolmogorov-Smirnov nous dit qu’il n’y a pas de raison de rejeter l’hypothèse nulle que les données sont distribuées normalement. Alors, les résidus semblent être distribués normalement et on conclue que la condition de normalité pour le test de t a été satisfaite.

Quantiles of Standard Normal

Res

idua

ls

-3 -2 -1 0 1 2 3

-20

-10

010

2025

8

101

LABO- COMPARAISON DE DEUX ÉCHANTILLONS - 151

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Le deuxième graphique illustre l’étendue des résidus autour des valeurs estimées pour les deux groupes et permet d’évaluer visuellement l’homogénéité des variances. Si les variances étaient égales, l’étendue verticale des deux groupes devrait être à peu près la même. Le graphique illustre que l’étendue verticale est plus large pour le groupe avec la moyenne la plus petite, ce qui suggère qu’on a des problèmes avec les variances. On peut tester cette condition formellement en examinant les différences entre les moyennes des valeurs absolues des résidus.

Créez une nouvelle variable, ABSRES, qui est la valeur absolue de RESIDUALS, en utilisant Data-Transform au menu principal. La fonc-tion ABS vous donnera la valeur absolue pour la variable choisie.

Ensuite, faites un test de t (ou une ANOVA, à votre goût) avec ABSRES comme variable dépendante et LOCATION comme variable inépen-dante. Vous devriez obtenir:

Standard Two-Sample t-Test

data: x: absres with LOCATION = Cumberland , and y: absres with LOCATION =

The_Pas

t = -3.3969, df = 183, p-value = 0.0008

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-2.6678835 -0.7074314

sample estimates:

mean of x mean of y

3.273057 4.960715

Fitted : LOCATIONR

esid

uals

43.5 44.0 44.5 45.0

-20

-10

010

20

25

8

101

152 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

D’après ce test, on peut rejeter l’hypothèse nulle que les variances sont égales (parce que P<0.05). Cela confirme nos soupçons et veut dire qu’on devra effectuer un test qui ne présume pas de l’égalité des variances.

Refaites le test de t orginal comme précédemment, avec FKLNGTH et LOCATION. Cette fois ci, désélectionnez Assume Equal Variances dans le panneau Test de la boîte de dialogue Two-sample t Test. Que con-cluez vous?

Welch Modified Two-Sample t-Test

data: x: FKLNGTH with LOCATION = Cumberland , and y: FKLNGTH with LOCATION =

The_Pas

t = 2.1556, df = 169.863, p-value = 0.0325

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

0.1405078 3.1953556

sample estimates:

mean of x mean of y

45.03778 43.36984

Sur la base de ces résultats, on peut conclure qu’il y a évidence (mais faible) pour rejeter l’hypothèse nulle qu’il n’y a pas de différence dans la taille de poissons entre les deux sites. On a utilisé une modification du test de t pour tenir compte du fait que les variances ne sont pas égales et nous sommes sastifaits que la condition de normalité des résidus a été remplie. Alors, FKLNGTH à Cumberland est plus grande que FKLNGTH à The Pas.

LABO- COMPARAISON DE DEUX ÉCHANTILLONS - 153

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Comparer les moyennes de deux échantillons appareillésDans certaines expériences les mêmes individus sont mesurés deux fois, par exemple avant et après un traitement ou encore à deux moments au cours de leur développement. Les mesures obtenues lors de ces deux événements ne sont pas indépendantes, et des comparaisons de ces mesures appariées doivent être faites.

Le fichier SKULLDAT.SDD contient des mesures de la partie inférieure du visage de jeunes filles d'Amérique du Nord prises à 5 ans, puis à 6 ans (données de Newman and Meredith, 1956)

Utilisez Statistics - Compare Samples - Two samples - t-Test pour éprouver l'hypothèse que la figure à 5 ans et à 6 ans a la même largeur en assumant que les mesures viennent d'échantillons indépendants. Pour ce faire utiliser WIDTH dans le champ Variable 1 et AGE dans le champ Variable 2. Cliquez dans la boîte Variable 2 is a Grouping Vari-able. Cliquez sur OK. Que concluez-vous?

Standard Two-Sample t-Test

data: x: WIDTH with AGE = 5 , and y: WIDTH with AGE = 6

Programme S-PLUS pour comparer deux échantillons indépendants### t-test on location of Sturgdat data ###

menuTTest2(data = Sturgdat, x = FKLNGTH, y = LOCATION, groups.p =

T, mu = 0, alternative = "two.sided", t.paired = "Two-sample t",

var.equal = T, conf.level = 0.95, print.object.p = T)

### Wilcoxon signed rank test ###

menuWilcoxTest2(data = Sturgdat, x = FKLNGTH, y = LOCATION,

groups.p = T, mu = 0, alternative = "two.sided", w.paired = "Rank

Sum", exact = T, correct = T, print.object.p = T)

### Run anova to examine residuals

SturgTtest <- aov(FKLNGTH~LOCATION, data=Sturgdat,

na.action=na.exclude)

## plot residuals

qqnorm(resid(SturgTtest))

qqline(resid(SturgTtest))

plot(fitted(SturgTtest), resid(SturgTtest))

## test for normality and equal variances

ks.gof(resid(SturgTtest))

ssType3(aov(abs(resid(SturgTtest))~Sturgdat$LOCATION,

na.action=na.exclude))

### t-test on location of Sturgdat data assuming unequal variances

###

menuTTest2(data = Sturgdat, x = FKLNGTH, y = LOCATION, groups.p =

T, mu = 0, alternative = "two.sided", t.paired = "Two-sample t",

var.equal = F, conf.level = 0.95, print.object.p = T)

154 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

t = -1.7812, df = 28, p-value = 0.0857

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.43000032 0.03000032

sample estimates:

mean of x mean of y

7.461333 7.661333

En utilisant cette fois WIDTH5 et WIDTH6 comme variables 1 et 2, laissez la boîte Variable 2 is a Grouping Variable vide, et cliquez sur la bou-ton Paired t-Test. Quelle est votre conclusion ? Comparez aux résul-tats précédents et expliquez les différences.

Paired t-Test

data: x: WIDTH5 in Skulldat , and y: WIDTH6 in Skulldat

t = -19.5411, df = 14, p-value = 0

alternative hypothesis: true mean of differences is not equal to 0

95 percent confidence interval:

-0.224171 -0.179829

sample estimates:

mean of x - y

-0.202

La première analyse a comme supposition que les deux échantillons de filles de 5 et 6 ans sont indépendants, alors que la deuxième analyse a comme supposition que la même fille a été mesurée deux fois, une fois à 5 ans, et la deuxième fois à 6 ans.

Notez que, dans le premier cas, on accepte l’hypothèse nulle, mais que le test apparié rejette l’hypothèse nulle. Donc, le test qui est approprié (le test apparié) indique un effet très significatif de l’âge, mais le test inapproprié sugg‘re que l’âge n’importe pas. C’est parce qu’il y a une très forte corrélation entre la largeur du visage à 5 et 6 ans:

6.8 7.0 7.2 7.4 7.6 7.8 8.0WIDTH5

7.0

7.4

7.8

8.2

WID

TH6

LABO- COMPARAISON DE DEUX ÉCHANTILLONS - 155

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

avec r = 0.993. En présence d’une si forte corrélation, l’erreur-type de la différence appariée de largeur du visage entre 5 et 6 ans est beaucoup plus petit que l’erreur-type de la différence entre la largeur moyenne à 5 ans et la largeur moyenne à 6 ans. Par conséquent, la statistique t associée est beaucoup plus élevée pour le test apparié, la puissance du test est plus grande, et la valeur de p plus petite.

Répétez l'analyse en utilisant l’alternative nonparamétrique, le test Wil-coxon signed-rank. (Statistics-Compare Samples-Two Samples-Wilkoxon Rank Test; entrez WIDTH5 et WIDTH6 comme Variable 1 et 2, et cliquez sur le bouton Signed Rank pour faire une test Wilcoxon appareillés). Que concluez-vous?

Wilcoxon signed-rank test

data: x: WIDTH5 in Skulldat , and y: WIDTH6 in Skulldat

signed-rank normal statistic with correction Z = -3.3814, p-value = 0.0007

alternative hypothesis: true mu is not equal to 0

Donc on tire la même conclusion qu’avec le test de t apparié et conclue qu’il y a des différences significatives entre la taille des crânes de filles agées de 5 et 6 ans (quelle surprise!).

Comparer la médiane et la variance de deux échantillonsBUMPDAT.SDD est un ensemble de données célèbres récoltées par Hermon Bumpus, biologiste à Brown University à la fin du XIXe siècle. Juste après une forte tempête le 1er février 1898, Bumpus ramassa 49 moineaux moribonds sur le campus. La moitié environ d'entre eux moururent, et Bumpus vit la possibilité d'étudier la sélection naturelle avec ces oiseaux. Il prit 8 mesures de chaque oiseaux et en mesura également la masse. BUMDAT.SDD contient 5 mesures morphologiques : TOTLNGTH la longueur totale, ALAR la longueur des ailes, HEAD la longueur de la tête et du bec, HUMERUS la

Programme S-Plus pour échantillons appareillés

### Working with Skulldat data

## First, a regular 2 sample ttest

menuTTest2(data = Skulldat, x = WIDTH, y = AGE, groups.p = T, mu =

0, alternative = "two.sided", t.paired = "Two-sample t", var.equal

= T, conf.level = 0.95, print.object.p = T)

## Next, a paired t-test

t.test(Skulldat$WIDTH5, Skulldat$WIDTH6, paired=T)

plot(Skulldat$WIDTH5, Skulldat$WIDTH6)

wilcox.test(Skulldat$WIDTH5, Skulldat$WIDTH6, paired=T)

156 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

longueur de l'humérus et STERNUM la longueur du sternum. Toutes les mesures sont en mm. Le fichier contient aussi la variable SURVIVAL$ qui indique si l'oiseau a survécu ou non (Bumpus 1898).

À l'aide des données de Bumpus, éprouvez l'hypothèse que la longueur totale médiane (TOTLNGTH) des oiseaux qui ont survécu est la même que celle de ceux qui sont morts. Pour ce faire, calculez d'abord la médiane pour tout l'échantillon des 49 oiseaux. Puis allez à Data-Transform-Let… pour créer une nouvelle variable TEMP = TOTLNGTH - (la valeur de la médiane). Puis utilisez Transform encore pour créer une autre variable CLASS qui sera ‘above’ si temp => 0 et ‘below’ si temp < 0. Finalement, utilisez la routine Statistics-Compare Sam-ples-Counts and Proportions-Chi-squared Test et faites un test d'indépendance. Dans la boîte de dialogue, choisissez SURVIVAL et CLASS comme Variables 1 et 2 et cliquez sur OK. Que concluez-vous ?

Pearson's chi-square test with Yates' continuity correction

data: SURVIVAL and class from data set Bumpdat

X-square = 0.4917, df = 1, p-value = 0.4832

Donc on accepte l’hypothèse nulle que les médianes ne diffèrent pas entre le groupe des survivants et des non survivants.

Éprouvez l'hypothèse que la variance de la longueur de l'humérus des survivants est plus petite que celle de ceux qui n'ont pas survécu en faisant le test de Levene d'égalité des variances. Pour ce faire, calculez d'abord la moyenne de l'ensemble des valeurs, puis utilisez Data-Transform pour créer une nouvelle variable HUMERDIV = ABS (HUMERUS - la moyenne des longueurs de l'humerus) qui représente la valeur absolue de la déviation à la moyenne. La code pour faire une transfor-mation en S-PLUS pour créer HUMERDIV: ifelse((SURVIVAL=="no"), abs(HUMERUS-18.446429), abs(HUMERUS-18.5))

Comparez ensuite la moyenne de cette nouvelle variable entre les deux échantillons avec une test de t. Que concluez-vous ?

Standard Two-Sample t-Test

data: x: humerdiv with SURVIVAL = no , and y: humerdiv with SURVIVAL = yes

t = 1.9812, df = 47, p-value = 0.0534

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.003088363 0.403598505

sample estimates:

mean of x mean of y

0.5145408 0.3142857

LABO- COMPARAISON DE DEUX ÉCHANTILLONS - 157

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Notez que les probabilités données sont pour un test bilatéral, alors que l’hypothèse biologique suggère un test unilatéral avec des survivants moins variables que les non-survivants. La probabilité associée au test unilatéral est simplement p/2 puisque le l’hypothèse bilatérale a deux régions de rejets, une dans chaque queue de la distribution. (Vous pouvez spéecifier un test bilatéral quand vous faites le test de t, en choisissant greater dans le champ Alternative Hypothesis de la boîte de dialogue Two-sample t Test. Essayez le pour vous convraicre que vous arrivez au même résultat).

Etant donné que le test est unilatéral, on peut maintenant rejeter l’hypothèse nulle que les variances sont égales et conclure que les survivants son moins variables que les non-survivants.

Comparer la distribution de deux échantillonsDans certains cas on veut comparer non seulement les moyennes et les variances, mais également la forme de la distribution toute entière. Par exemple, certains traitements peuvent ne pas affecter la moyenne ou la variance mais changer certains autres moments comme la kurtose ou la symétrie.

Éprouvez l'hypothèse que la longueur de la tête est la même pour les survivants et les non-survivants. Utilisez Statistics-Compare Sam-ples-Two Samples- Kolmogorv Smirnov GOF et utilisez HEAD comme variable dépendante et SURVIVAL comme variable de groupe. Que con-cluez-vous ?

Two-Sample Kolmogorov-Smirnov Test

data: x: HEAD with SURVIVAL = no , and y: HEAD with SURVIVAL = yes

ks = 0.1429, p-value = 0.9444

alternative hypothesis:

cdf of x: HEAD with SURVIVAL = no does not equal the

cdf of y: HEAD with SURVIVAL = yes for at least one sample point.

Programme S-PLUS pour comparer les médianes et les variances

### Working with Bumpdat data

chisq.test(Bumpdat$SURVIVAL, Bumpdat$class)

summary(aov(abs(resid(aov(HUMERUS~SURVIVAL, data=Bumpdat,

na.action=na.exclude)))~SURVIVAL, data=Bumpdat,

na.action=na.exclude))

158 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

On accepte donc l’hypothèse nulle que les deux distributions sont similaires. Cette analyse révèle donc qu’on n’a pas de raison de rejeter l’hypothèse nulle que les distributions sont les mêmes alors que l’analyse précédente a démontré que les variances diffèrent. Cette apparente contradiction peut être expliquées par le fait que le test de Kolmogorov-Smirnov compare tous les moments des deux distributions, alors que le test de Levene ne compare que le deuxième moment (la variance). Le test de Levene est donc plus puissant.

RéférencesBumpus, H.C. (1898) The elimination of the unfit as illustrated by

the introduced sparrow, Passer domesticus. Biological Lectures, Woods Hole Biology Laboratory, Woods Hole, 11 th Lecture: 209 - 226.

Newman, K.J. and H.V. Meredith. (1956) Individual growth in skele-tal bigonial diameter during the childhood period from 5 to 11 years of age. Amer. J. Anat. 99: 157 - 187.

Programme S-Plus pour comparer 2 distributions### Comparing distributions

menuKsGof2(data = Bumpdat, x = HEAD, y = SURVIVAL, groups.p = T,

print.object.p = T)

LABO- ANOVA À UN CRITÈRE DE CLASSIFICATION - 159

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Labo- ANOVA à un critère de classificationAprès avoir complété cet exercice de laboratoire, vous devriez être capable de :

• Utiliser S-PLUS pour effectuer une analyse de variance paramétri-que à un critère de classification, suivie de comparaisons multiples

• Utiliser S-PLUS pour vérifier si les conditions d'application de l'ANOVA paramétrique sont rencontrées

• Utiliser S-PLUS pour faire une ANOVA à un critère de classifica-tion non-paramétrique

• Utiliser S-PLUS pour transformer des données de manière à mieux rencontrer les conditions d'application de l'ANOVA para-métrique.

ANOVA à un critère de classification et comparaisons multiplesL'ANOVA à un critère de classification est l'analogue du test de t pour des comparaisons de moyennes de plus de deux échantillons. Les conditions d'application du test sont essentiellement les mêmes, et lorsque appliqué à deux échantillons ce test est mathématiquement équivalent au test de t.

En 1961-1962, le barrage Grand Rapids était construit sur la rivière Saskatchewan en amont de Cumberland House. On croit que durant la construction plusieurs gros esturgeons restèrent prisonniers dans des sections peu profondes et moururent. Des inventaires de la population d'esturgeons furent faits en 1954, 1958, 1965 et 1966. Au cours de ces inventaires, la longueur à la fourche (FRKLNGTH) et la masse (RNDWGHT) furent mesurées (pas nécessairement sur chaque poisson cependant). Ces données sont dans le fichier DAM10DAT.SDD.

Visualiser les données

À partir des données du fichier DAM10DAT.SDD, vous devez d’abord changer le type de donnée de la variable YEAR, pour que S-PLUS traite YEAR comme une variable discontinue (factor) plutôt que continue. Allez à Data-Change Data Type, entrez YEAR dans le champ Column, et changez le New Type à Factor.

160 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Ensuite, visualisez les données comme dans le labo pour les tests de t. Créez un histogramme avec ligne de densité, un diagramme de proba-bilité, et un Box plot par année. Que vous révèlent ces données?

33.50 46.78 60.06 73.34

33.50 46.78 60.06 73.34

FKLNGTH

0.00

0.05

0.10

0.15

0.20

0.00

0.05

0.10

0.15

0.20

1954 1958

1965 1966

-2 0 2

-2 0 2

Normal Distribution

40

70

40

70

FKLN

GTH

1954 1958

1965 1966

LABO- ANOVA À UN CRITÈRE DE CLASSIFICATION - 161

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Il semble que la taille des esturgeons est un peu plus petite après la construction du barrage, mais les données sont très variables et les effets ne sont pas parfaitement clairs. Il y a peut être des problèmes de normalité avec les échantillons de 1954 et 1966, et il y a probablement des valeurs extrèmes dans les échantillons de 1958 et 1966. On va continuer en testant les conditions d’application de l’ANOVA. Il faut d’abord faire l’analyse et examiner les résidus.

1954 1958 1965 1966YEAR

30

40

50

60

70

FKLN

GTH

162 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Vérifier si les conditions d'application de l'ANOVA paramétrique sont rencontrées

L'ANOVA paramétrique a trois conditions principales d'application : 1) les résidus sont normalement distribués, 2) la variance des résidus est égale dans tous les traitements (homoscedasticité) et 3) les résidus sont indépendants les uns des autres. Ces conditions doivent être rencontrées avant qu’on puisse se fier aux résultats de l’ANOVA paramétrique.

Faites une ANOVA à un critère de classification sur FKLNGTH en choisissant Statistics, ANOVA, Fixed effects. Entrez FKLNGTH comme la variable Dependent et YEAR comme la variable Independent. Puisque nous sommes seulement intéressés à savoir si les conditions d’application sont satisfaites, on va résister à la tentation de regarder les résultats de l’ANOVA en dé-sélectionnant toutes les boîtes du groupe Printed Results dans le panneau Results. Dans le panneau Saved Results, sélectionnez les boîtes Fitted Values et Residuals et sélectionnez DAM10DAT commed Data Set. Dans le panneau Plot,

Programme S-PLUS pour visualiser les données

### First, recode the year column to character

Dam10dat <- convert.col.type(target = Dam10dat, column.spec =

list("YEAR"), column.type = "factor")

## Code for generating histograms and density plots##

par(mfrow = c(2, 2))

hist(Dam10dat$FKLNGTH, subset="Dam10dat$YEAR=='1954'",

main="1954")

hist(Dam10dat$FKLNGTH, subset=Dam10dat$YEAR=="1958", main="1958")

hist(Dam10dat$FKLNGTH, subset=Dam10dat$YEAR=="1965", main="1965")

hist(Dam10dat$FKLNGTH, subset=Dam10dat$YEAR=="1966", main="1966")

par(mfrow=c(1,1))

par(mfrow = c(2, 2))

qqnorm(Dam10dat$FKLNGTH, subset=Dam10dat$YEAR=="1954",

main="1954")

qqline(Dam10dat$FKLNGTH)

qqnorm(Dam10dat$FKLNGTH, subset=Dam10dat$YEAR=="1958",

main="1958")

qqline(Dam10dat$FKLNGTH)

qqnorm(Dam10dat$FKLNGTH, subset=Dam10dat$YEAR=="1965",

main="1965")

qqline(Dam10dat$FKLNGTH)

qqnorm(Dam10dat$FKLNGTH, subset=Dam10dat$YEAR=="1966",

main="1966")

qqline(Dam10dat$FKLNGTH)

par(mfrow=c(1,1))

### Now, make a box plot to visualize the data

plot.factor(Dam10dat$YEAR, Dam10dat$FKLNGTH)

LABO- ANOVA À UN CRITÈRE DE CLASSIFICATION - 163

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

choisissez Residuals vs Fit et Residuals Normal QQ. Cliquez sur OK. Que concluez-vous?

D’après les graphiques, on peut douter de la normalité et de l’homogénéité des variances. Notez qu’il y a un point qui ressort vraiment avec un forte valeur résiduelle (cas numéro 59) et qu’il ne s’aligne pas bien avec les autres valeurs : c’est la valeur extrême qui avait été détectée plus tôt. Ce point fera sans doute gonfler la variance résiduelle du groupe auquel il appartient.

Des tests formels nous confirmeront ou infirmeront nos conclusions faites à partir de ces graphiques.

Quantiles of Standard Normal

Res

idua

ls

-2 -1 0 1 2

-10

010

20

87

23

59

Fitted : YEAR

Res

idua

ls

43 44 45 46 47 48

-10

010

20

87

23

59

164 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Faites un test Kolmogorov-Smirnov sur les résidus de l’ANOVA.

One sample Kolmogorov-Smirnov Test of Composite Normality

data: Dam10dat$residuals

ks = 0.1013, p-value = 0.0046

alternative hypothesis:

True cdf is not the normal distn. with estimated parameters

sample estimates:

mean of x standard deviation of x

-1.505387e-016 5.143493

Ce test confirme nos soupçons: les résidue ne sont pas distribués normalement. Il faut cependant garder à l’esprit que la puissance est grande et que même de petites déviations de la normalité sont suffisantes pour rejeter l’hypothèse nulle.

Pour éprouver plus formellement l'hypothèse d'égalité des variances (homoscedasticité), utilisez Data-Transform pour calculer la valeur absolue des résidus (ABSRES = ABS(RESIDUALS)). Faites une ANOVA sur ABSRES (Test de Levene). Vous avez besoin ici seulement des résul-tats imprimés et non pas des graphiques.

*** Analysis of Variance Model ***

Short Output:

Call:

aov(formula = absres ~ YEAR, data = Dam10dat, na.action = na.exclude)

Terms:

YEAR Residuals

Sum of Squares 108.083 1413.692

Deg. of Freedom 3 114

Residual standard error: 3.521478

Estimated effects may be unbalanced

Df Sum of Sq Mean Sq F Value Pr(F)

YEAR 3 108.083 36.02755 2.905257 0.03782483

Residuals 114 1413.692 12.40081

Le valeur de p vous dit que vous pouvez rejeter l’hypothèse nulle qu’il n’y a aucune différence dans les variances entre les années. Alors, nous concluons que les variances ne sont pas homogènes.

1

1

LABO- ANOVA À UN CRITÈRE DE CLASSIFICATION - 165

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Faire l’ANOVA

Faites une ANOVA sur FKLNGTH en choisissant Statistics, ANOVA, Fixed effects. Entrez FKLNGTH comme la variable Dependent et YEAR comme variable Independent. Notez qu’une expression devrait appa-raître dans le champ Formula, où FKLGNTH~YEAR. Cette formule vous dit que S-PLUS va estimer un model de FKLGNTH en fonction de YEAR. Dans le panneau Results, choisissez toutes les boîtes du groupe Printed Results et cliquez sur OK. Que concluez-vous?

*** Analysis of Variance Model ***

Short Output:

Call:

aov(formula = FKLNGTH ~ YEAR, data = Dam10dat, qr = T, na.action =

na.exclude)

Terms:

YEAR Residuals

Sum of Squares 485.264 3095.295

Deg. of Freedom 3 114

Residual standard error: 5.210731

Estimated effects may be unbalanced

Df Sum of Sq Mean Sq F Value Pr(F)

YEAR 3 485.264 161.7547 5.95744 0.0008246026

Residuals 114 3095.295 27.1517

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

YEAR 3 485.264 161.7547 5.95744 0.0008246026

Residuals 114 3095.295 27.1517

Programme S-PLUS pour visualiser les résiduss, calculer le test de K-S et celui de Levene

### make a QQ plot of the residuals of the above

### analysis then add a line

qqnorm(resid(aov(FKLNGTH~YEAR, Dam10dat)))

qqline(resid(aov(FKLNGTH~YEAR, Dam10dat)))

### plot resids agains the fitted values

plot(fitted(aov(FKLNGTH~YEAR, Dam10dat)), resid(aov(FKL-

NGTH~YEAR, Dam10dat)))

### Run a K-S GOF test on residuals

ks.gof(resid(aov(FKLNGTH~YEAR, Dam10dat)))

### Run a Levene's on Abs(Residuals) and print only the summary

### table

summary.aov(aov(abs(residuals)~YEAR, Dam10dat))

1

2

3

4

166 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Estimated Coefficients:

(Intercept) YEAR1 YEAR2 YEAR3

45.86604 0.09360707 -1.867088 -0.3848038

Estimated K Coefficients for K-level Factor:

$"(Intercept)":

(Intercept)

45.86604

$YEAR:

1954 1958 1965 1966

2.158285 2.345499 -3.349373 -1.154411

Tables of means

Grand mean

46.298

YEAR

1954 1958 1965 1966

48.024 48.212 42.517 44.712

rep 37.000 26.000 12.000 43.000

La commande pour faire la routine ANOVA.

Version abrégée du tableau ANOVA.

Le tableau d'ANOVA indiquant les sommes de carrés séquentielles et la probabilité que toutes les moyennes sont égales.

Le tableau ANOVA de la version Type III ce qui est, dans ce cas, identique au tableau par défaut de Type I. Les sommes des carrés sont partielles, et ce sont ces valeurs qu’on va utiliser pour tester nos hypothèses.

Tableau des coefficients estimés pour les termes inclus dans le modèle.

Tableau des moyennes pour chaque groupe et la moyenne pour toutes l’ensemble des données .

D’après ces résultats on peut rejeter l’hypothèse nulle: il y a une forte évidence d’une différence de fklngth entre les années (parce que P<0.05). Notez que ce n’est pas toujours nécessaire de faire imprimer tout les résultats de l’ANOVA, mais vous devriez être familiers avec les différents éléments.

5

6

1

2

3

4

5

6

LABO- ANOVA À UN CRITÈRE DE CLASSIFICATION - 167

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Les comparaisons multiples

Répétez la même procédure pour l’ANOVA, mais cette fois en sélec-tionnant seulement les options par défauts dans l’étiquette Results et ensuite en choisissant de faire des comparaisons multiples. Dans l’éti-quette Compare, choisissez YEAR pour le champ Levels of du groupe Variable, laissez la Comparison type à mca (ce qui veut dire que S-PLUS fera toutes les comparaisons possibles), et dans las groupe Options choisissez Bonferroni dans le champ Method. Sélectionnez la boîte Plot Intervals et laissez les autres options comme elles sont. Cliquez sur Apply. Ensuite répetez l’analyse en changeant seulement la Method à Scheffé et finalement à Tukey (ce sont des types différents de comparaisons multiples ). Que concluez-vous de ces analyses?

95 % simultaneous confidence intervals for specified

linear combinations, by the Bonferroni method

critical point: 2.6851

response variable: FKLNGTH

intervals excluding 0 are flagged by '****'

Estimate Std.Error Lower Bound Upper Bound

1954-1958 -0.187 1.33 -3.7700 3.39

1954-1965 5.510 1.73 0.8600 10.20 ****

1954-1966 3.310 1.17 0.1750 6.45 ****

1958-1965 5.690 1.82 0.8120 10.60 ****

1958-1966 3.500 1.29 0.0241 6.98 ****

1965-1966 -2.190 1.70 -6.7600 2.37

95 % simultaneous confidence intervals for specified

Programme S-PLUS d’ANOVA à un critère de classification

### Now, run the ANOVA on Fklngth by year

aov(FKLNGTH~YEAR, Dam10dat)

### It's also possible to create an ANOVA object that allows us to

### do other stuff with it

aov.FKLNGTH.YEAR <- aov(FKLNGTH~YEAR, Dam10dat)

summary(aov.FKLNGTH.YEAR) ### prints a summary of the ANOVA

qqnorm(resid(aov.FKLNGTH.YEAR)) ### makes a QQ plot of the resid-

### uals of the above analysis

qqline(resid(aov.FKLNGTH.YEAR)) ### adds a line to the above plot

plot(fitted(aov.FKLNGTH.YEAR),resid(aov.FKLNGTH.YEAR)) ### plots

### the residuals against the fitted values

1

2

3

168 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

linear combinations, by the Scheffe method

critical point: 2.8377

response variable: FKLNGTH

rank used for Scheffe method: 3

intervals excluding 0 are flagged by '****'

Estimate Std.Error Lower Bound Upper Bound

1954-1958 -0.187 1.33 -3.97000 3.60

1954-1965 5.510 1.73 0.59500 10.40 ****

1954-1966 3.310 1.17 -0.00301 6.63

1958-1965 5.690 1.82 0.53400 10.90 ****

1958-1966 3.500 1.29 -0.17400 7.17

1965-1966 -2.190 1.70 -7.02000 2.63

95 % simultaneous confidence intervals for specified

linear combinations, by the Tukey method

critical point: 2.6073

response variable: FKLNGTH

intervals excluding 0 are flagged by '****'

Estimate Std.Error Lower Bound Upper Bound

1954-1958 -0.187 1.33 -3.660 3.29

1954-1965 5.510 1.73 0.994 10.00 ****

1954-1966 3.310 1.17 0.266 6.36 ****

1958-1965 5.690 1.82 0.953 10.40 ****

1958-1966 3.500 1.29 0.125 6.88 ****

1965-1966 -2.190 1.70 -6.630 2.24

S-PLUS imprime d'abord quel type de comparaison est fait, et les niveaux pour les intervalles de confidence (le défaut est 95%).

Parmi les comparaison faites, celles qui sont suivies par “****” ont une différence qui est significativement différente de 0, indiquant une différence significative entre les deux groupes.

Ceux sont les différences estimées entre les années et leur erreurs types.

est une graphique des intervalles de confidence pour chaque comparaison. Ca vous permet de visualiser où sont les différences significatives (notez que seulement un des trois diagrammes est reproduit ici).

Les trois tests post-hoc mènent à la même conclusion. FKLNGTH varie d’une année à l’autre. Les différences significatives sont entre 2 groupes: 1954/58 et 1965/66 puisque toutes les comparaisons indiquent des différences significatives entre les années 50 et les

4

1

2

3

4

LABO- ANOVA À UN CRITÈRE DE CLASSIFICATION - 169

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

années 60 mais aucunes différences dans les années 50 et dans les années 60 (sauf pour le test de Scheffé qui montre qu’il n’y a pas de différences entre l’année 1966 et les années 1954 et 1958).

Répétez ces deux analyses (l’ANOVA et les comparaison multiples Bonferroni) en utilisant RDWGHT au lieu de FKLNGTH. Que concluez-vous ? Vos analyses supportent-elles l'hypothèse que la construction du barrage a causé une réduction du nombre de vieux et gros estur-geons ?

*** Analysis of Variance Model ***

Short Output:

Call:

aov(formula = RDWGHT ~ YEAR, data = Dam10dat, na.action = na.exclude)

Terms:

YEAR Residuals

Sum of Squares 1733.18 10673.37

Deg. of Freedom 3 80

Residual standard error: 11.55063

Estimated effects may be unbalanced

Df Sum of Sq Mean Sq F Value Pr(F)

YEAR 3 1733.18 577.7275 4.330234 0.007010046

Residuals 80 10673.37 133.4172

95 % simultaneous confidence intervals for specified

linear combinations, by the Bonferroni method

critical point: 2.7054

response variable: RDWGHT

intervals excluding 0 are flagged by '****'

Estimate Std.Error Lower Bound Upper Bound

1954-1958 5.72 4.12 -5.420 16.90

1954-1965 13.10 4.50 0.903 25.30 ****

1954-1966 8.14 2.86 0.388 15.90 ****

1958-1965 7.37 5.48 -7.460 22.20

1958-1966 2.42 4.24 -9.040 13.90

1965-1966 -4.95 4.61 -17.400 7.53

Commandes S-PLUS pour l’ANOVA suivie de comparaisons multiples### Run Multiple comparisons of means tests

mca.bon.FKLNGTH.YEAR <- multicomp(aov.FKLNGTH.YEAR, method="bon")

## Conducts a bonferroni

mca.bon.FKLNGTH.YEAR ## Prints the results

multicomp(aov.FKLNGTH.YEAR, method="tukey")

## Conducts a Tukey

multicomp(aov.FKLNGTH.YEAR, method="scheffe")

## Conducts a Scheffe

plot(mca.bon.FKLNGTH.YEAR)

## Plots the Bonferroni results

170 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

On voit encore une fois une différence significative entre les années, mais cette fois ci il y a seulement une différence significative entre l’année 1954 et les années 1965 et 1966. Les données de 1958 ne diffèrent pas des autres moyennes. Essayez de répeter ces analyses en utilisant les comparaisons Scheffe et Tukey pour vous confirmer que, dans ce cas, tous les tests donnent les mêmes résultats.

Donc, pour cette variable, il n’y a pas d’évidence que les esturgeons capturés en 1958 étaient différents de ceux capturés en 1965 ou 1966. La différence avec l’analyse précédente peut s’expliquer en partie par le faible effectif et la forte variance (pour RDWGHT) en 1958 et 1965; la puissance du test est donc plus faible que dans l’analyse avec FKLNGTH.

Notez que, pour sauver de l’espace, on a pas vérifié si RDWGHT a rencontré les conditions d’applications pour l’ANOVA. Cependant, cela devrait toujours êtes fait avant que les résultats de l’ANOVA soit acceptés conclusivement!

Dans l’ensemble, ces analyses supportent l’hypothèse que la construction du barrage E. B. Campbell a entraîné une perte de gros esturgeons âgés.

Transformations de données et ANOVA non-paramétriqueDans l’example précédent sur les différences annuelles de la variable fklgnth, on a noté que les conditions d’application de l’ANOVA n’étaient pas rencontrées. Si les données ne rencontrent pas les conditions de l'ANOVA paramétrique, il y a 3 options : 1) Ne rien faire. Si les effectifs dans chaque groupe sont grands, on peut relaxer les conditions d'application car l'ANOVA est alors assez robuste aux

Commandes S-PLUS pour l’NOVA sur RDWGHT et les tests post-hoc

### Run anova on RDWGHT values

aov.RDWGHT.YEAR <- aov(RDWGHT~YEAR, Dam10dat,

na.action=na.exclude)

summary(aov.RDWGHT.YEAR) ### print a summary of the ANOVA

qqnorm(resid(aov.RDWGHT.YEAR)) ### make a QQ plot of the residu-

als of the above analysis

qqline(resid(aov.RDWGHT.YEAR)) ### add a line to the above plot

plot(fitted(aov.RDWGHT.YEAR),resid(aov.FKLNGTH.YEARLOG)) ### plot

the residuals against the fitted values

ks.gof(resid(aov.RDWGHT.YEAR)) ### test residuals

summary(aov(abs(resid(aov.RDWGHT.YEAR))~YEAR, Dam10dat,

na.action=na.exclude)) ### variances ok?

multicomp(aov.RDWGHT.YEAR, method="bon") ## Conducts a bonferroni

LABO- ANOVA À UN CRITÈRE DE CLASSIFICATION - 171

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

violations de normalité (mais moins aux violations d'homoscedasticité), 2) on peut transformer les données, ou 3) on peut faire une analyse non-paramétrique.

Refaites l'ANOVA de la section précédente après avoir transformé FKLNGTH en faisant le logarithme à la base de 10. Dans la boîte de dia-logue ANOVA, choisissez DAM10DAT comme Data Set, et cliquez sur le bouton Create Formula. Dans la boîte de dialogue Formula, cliquez sur le bouton Transformation. Dans la boîte de dialogue Transforma-tion, choisissez la variable FKLNGTH du champ Choose Variables, et puis cliquez sur le bouton Log 10: log10(x). LOG10(FKLNGTH) devrait apparaître dans le champ New Variables. Cliquez sur le bouton Add et ensuite cliquez sur OK. Vous devriez maintenant être encore dans la boîte de dialogue Formula, où vous pouvez maintenant sélectionnez la variable LOG10(FKLNGTH)et cliquez sur le bouton Response. Ensuite, sélectionnez year et cliquez sur le bouton Main Effect: (+). Le suivant devrait être maintenant inscrit dans le champ Formula: LOG10(FKL-NGTH)~YEAR. Notez que quand vous devenez plus comfortable avec S-PLUS vous allez pouvoir inscrivez ces formules directement dans les champs appropriés, sans devoir aller parmi tous les boîtes de dialogue. Cliquez sur OK pour retourner à la boîte de dialogue ANOVA, et con-tinuer à préparer l’ANOVA comme vous l’avez fait avant (i.e., sauveg-arder les résidus et les valeurs estimées et produire des graphiques des résidus). Avec les données transformées, est-ce que les problèmes qui avaient été identifiés disparaissent ?

*** Analysis of Variance Model ***

Short Output:

Call:

aov(formula = log10(FKLNGTH) ~ YEAR, data = Dam10dat, na.action =

na.exclude)

Terms:

YEAR Residuals

Sum of Squares 0.0401343 0.2428101

Deg. of Freedom 3 114

Residual standard error: 0.04615098

Estimated effects may be unbalanced

Df Sum of Sq Mean Sq F Value Pr(F)

YEAR 3 0.0401343 0.01337809 6.28105 0.000553981

Residuals 114 0.2428101 0.00212991

Alors, on a essentiellement le même résultat qu’on a eu avec l’ANOVA originale. En examinant les résidus on a:

172 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Les graphiques sont un peu mieux ici. Cependant, si on fait le test Kolmogorov-Smirnov sur les résidues, on a:

One sample Kolmogorov-Smirnov Test of Composite Normality

data: residuals in Dam10Dat

ks = 0.0979, p-value = 0.0074

alternative hypothesis:

True cdf is not the normal distn. with estimated parameters

sample estimates:

mean of x standard deviation of x

0 0.04555546

Si on refait le test de Levene sur les valeurs absolues des résidus, on obtient:

*** Analysis of Variance Model ***

Quantiles of Standard Normal

Res

idua

ls

-2 -1 0 1 2

-0.1

0-0

.05

0.0

0.05

0.10

0.15

0.20

116

23

59

Fitted : YEAR

Res

idua

ls

1.63 1.64 1.65 1.66 1.67 1.68

-0.1

0-0

.05

0.0

0.05

0.10

0.15

0.20

116

23

59

LABO- ANOVA À UN CRITÈRE DE CLASSIFICATION - 173

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Short Output:

Call:

aov(formula = abs(residuals) ~ YEAR, data = Dam10dat, na.action =

na.exclude)

Terms:

YEAR Residuals

Sum of Squares 0.0072093 0.1026947

Deg. of Freedom 3 114

Residual standard error: 0.03001384

Estimated effects may be unbalanced

Df Sum of Sq Mean Sq F Value Pr(F)

YEAR 3 0.0072093 0.002403093 2.667641 0.05105525

Residuals 114 0.1026947 0.000900831

Alors, on a toujours des problèmes avec la normalité et on est juste sur le seuil de décision pour l’égalité des variances. Vous avez le choix à ce point: 1) essayer de trouver une autre transformation pour mieux rencontrer les conditions d’application, 2) assumer que les données sont rencontrent suffisamment les conditions d’application, ou 3) faire une ANOVA non-paramétrique.

L'analogue non-paramétrique de l'ANOVA à un critère de classifica-tion le plus employé est le test de Kruskall-Wallis. Faites ce test (Sta-tistics-Compare Samples-K samples-Kruskall Wallis Rank Test) sur FKLNGTH et comparez les résultats à ceux de l'analyse paramétrique. Que concluez-vous?

Kruskal-Wallis rank sum test

Commandes S-PLUS pour l’ANOVA sur les données log-transformées### Run anova on Logged values

aov.FKLNGTH.YEARLOG <- aov(log10(FKLNGTH)~YEAR, Dam10dat)

summary(aov.FKLNGTH.YEARLOG) ### print a summary of the ANOVA

qqnorm(resid(aov.FKLNGTH.YEARLOG)) ### make a QQ plot of the

residuals of the above analysis

qqline(resid(aov.FKLNGTH.YEARLOG)) ### add a line to the above

plot

plot(fitted(aov.FKLNGTH.YEARLOG),resid(aov.FKLNGTH.YEARLOG)) ###

plot the residuals against the fitted values

ks.gof(resid(aov.FKLNGTH.YEAR)) ### test residuals

summary(aov(abs(resid(aov.FKLNGTH.YEARLOG))~YEAR, Dam10dat)) ###

variances ok?

Commande S-PLUS pour l’ANOVA non-paramétrique (Kruskal-Wallis )kruskal.test(Dam10dat$FKLNGTH, Dam10dat$YEAR)

174 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

data: FKLNGTH and YEAR from data set Dam10dat

Kruskal-Wallis chi-square = 15.7309, df = 3, p-value = 0.0013

alternative hypothesis: two.sided

La conclusion est donc la même qu’avec l’ANOVA paramétrique: on rejette l’hypothèse nulle que le rang moyen est le même pour chaque année. Donc, même si les conditions d’application de l’analyse paramétrique n’étaient pas parfaitement rencontrées, les conclusions sont les mêmes, ce qui illustre la robustesse de l’ANOVA paramétrique.

Examen des valeurs extrêmesVous devriez avoir remarqué au cours des analyses précédentes qu’il y avait peut être des valeurs extrêmes dans les données. Ces points étaient évidents dans le Box Plot de fklngth by year et ont été notés comme les points 59, 23, et 87 dans les diagrammes de probabilité des résidus et dans le diagramme de dispesion des résidus et des valeurs estimées. En général, vous devez avoir de très bonnes raisons pour enlever des valeurs extrêmes de la base de données (i.e. vous savez qu’il y a eu une erreur avec un cas). Cependant, il est quand même toujours valable de voir comment l’analyse change en enlevant des valeurs extrêmes de la la base de données.

Repetez l’ANOVA originale sur FKLNGTH et YEAR mais faites le avec un sous-ensemble de données. Le processus est le même qu’avant, sauf qu’il faut entrer une expression dans le champ Subset Rows with dans le groupe Data dans le panneau Model de la boîte de dialogue ANOVA:

C(1:22, 24:58, 60:86, 88:118)

Est-ce que les conclusions ont changé? Df Sum of Sq Mean Sq F Value Pr(F)

YEAR 3 367.506 122.5022 6.894152 0.000267004

Residuals 111 1972.358 17.7690

Ce qui est essentiellement le résultat obtenu précédemment. C’est à dire qu’il y a un effet significatif de YEAR sur FKLNGTH. Si on refait le test de Kolmogorov Smirnov sur les résidus, on obtient:

One sample Kolmogorov-Smirnov Test of Composite Normality

data: resid(aov.Damsubset)

ks = 0.0771, p-value = 0.0893

alternative hypothesis:

True cdf is not the normal distn. with estimated parameters

sample estimates:

mean of x standard deviation of x

2.703152e-017 4.159494

LABO- ANOVA À UN CRITÈRE DE CLASSIFICATION - 175

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

C’est donc un peu mieux et on peut accepter l’hypothèse nulle de normalité des données. Cependant, si on refait le test de Levene, on obtient:

Df Sum of Sq Mean Sq F Value Pr(F)

YEAR 3 92.4968 30.83225 5.068772 0.002507088

Residuals 111 675.1892 6.08279

Ce qui est pire que c’était avant qu’on ait enlevé les valeurs extrêmes.

L’élimination de trois valeurs extrêmes améliore un peu les choses, mais ce n’est pas parfait. On a toujours une problème avec les variances, mais les résidus sont maintenant normaux. Cependant, le fait que la conclusion qu’on tire de l’ANOVA originale ne change pas en elevant les points renforce le fait qu’on n’a pas une bonne raison pour enlever les points.

Commandes S-PLUS pour refaire l’ANOVA sur le sous-ensemble de donnéesaov.Damsubset <-aov(FKLNGTH~YEAR, Dam10dat, subset=c(1:22, 24:58,

60:86, 88:118))

summary(aov.Damsubset)

ks.gof(resid(aov.Damsubset))

summary(aov(abs(resid(aov.Damsubset))~YEAR, Damsubset))

176 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 177

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Labo- ANOVA à critères multiples : plans factoriels et hiérarchiques

Après avoir complété cet exercice de laboratoire, vous devriez être capable de :

• Utiliser S-PLUS pour faire une ANOVA paramétrique d'un plan factoriel avec deux facteurs de classification et réplication

• Utiliser S-PLUS pour faire une ANOVA paramétrique d'un plan factoriel avec deux facteurs de classification sans réplication

• Utiliser S-PLUS pour faire une ANOVA paramétrique d'un plan hiérarchique avec réplication

• Utiliser S-PLUS pour faire une ANOVA non paramétrique avec deux facteurs de classification

• Utiliser S-PLUS pour faire des comparaisons multiples

• Utiliser S-PLUS pour faire une ANOVA avec mesures répétées

Il existe une très grande variété de plans (designs) d'ANOVA que S-PLUS peut analyser. Cet exercice n'est qu'une introduction aux plans les plus communs. Vous trouverez plus d'explications sur les autres plans au Chapitres 16-18 de S-PLUS "Guide to Statistics Vol. 1".

Plan factoriel à deux facteurs de classification et réplicationIl est fréquent de vouloir analyser l'effet de plusieurs facteurs simultanément. L'ANOVA factorielle à deux critères de classification permet d'examiner deux facteurs à la fois, mais la même approche peut être utilisée pour 3, 4 ou même 5 facteurs quoique l'interprétation des résultats devienne beaucoup plus complexe.

Supposons que vous êtes intéressés par l'effet de deux facteurs : site (LOCATION, Cumberland House ou The Pas) et sexe (SEX, mâle ou femelle) sur la taille des esturgeons. Comme l'effectif n'est pas le même pour tous les groupes, c'est un plan qui n'est pas balancé. Notez aussi qu’il y a des valeurs manquantes pour certaines variables, ce qui veut dire que chaque mésure n’a pas été effectuée sur chaque poisson.

ANOVA a effets fixes (Modèle I)

Examinez d’abord les données en faisant des box plots de RDWGHT pour SEX et LOCATION des données du fichier STU2WDAT.SDD.

178 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Les graphiques montrent qu’aux deux sites les femelles sont probablement plus grandes que les mâles, mais que les tailles ne varient pas beaucoup d’un site à l’autre. La présence de valeurs extrêmes sur ces graphiques suggère qu’il y aura peut être des problèmes avec la condition de normalité des résidus.

Générez les statistiques sommaires pour RDWGHT par SEX et LOCATION.

SEX:female

LOCATION:Cumberland

RDWGHT

Min: 15.100000

1st Qu.: 20.400000

Mean: 27.373469

Median: 26.800000

3rd Qu.: 31.400000

Max: 55.600000

Total N: 51.000000

NA's : 2.000000

Std Dev.: 9.331438

-----------------------------------------------------------

SEX:male

LOCATION:Cumberland

RDWGHT

Min: 14.00000

1st Qu.: 19.22500

Mean: 22.14118

Median: 20.85000

3rd Qu.: 23.90000

Max: 35.60000

Total N: 34.00000

NA's : 0.00000

Std Dev.: 4.78939

-----------------------------------------------------------

SEX:female

LOCATION:The_Pas

RDWGHT

Min: 12.54000

1st Qu.: 19.14000

Mean: 27.97717

female maleSEX

40

90

40

90

RD

WG

HT

LOCATION: Cumberland

LOCATION: The_Pas

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 179

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Median: 27.39000

3rd Qu.: 33.88000

Max: 93.72000

Total N: 55.00000

NA's : 2.00000

Std Dev.: 12.53310

-----------------------------------------------------------

SEX:male

LOCATION:The_Pas

RDWGHT

Min: 4.730000

1st Qu.: 14.630000

Mean: 20.646522

Median: 20.790000

3rd Qu.: 24.942500

Max: 49.940000

Total N: 46.000000

NA's : 0.000000

Std Dev.: 9.917066

Ces résultats supportent l’interprétation des box plots: Les femelles sont plus grosses que les mâles, et le différences de taille entre les deux sites sont petites.

À l'aide du fichier STU2WDAT.SDD, faites une ANOVA factorielle à deux critères de classification en allant à Statistics, ANOVA, Fixed Effects et en inscrivant dans le champ Formula: RDWGHT~SEX+LOCA-TION+SEX:LOCATION. Notez bien que ceci est équivalent à la formule: RDWGHT~SEX*LOCATION. Les deux expression disent à S-PLUS de faire une ANOVA à deux facteurs, en examinant les effets principaux (SEX et LOCATION, dans ce cas) et leur intéraction (SEX:LOCATION). Vous pouvez inscrire ces expressions vous-même (n’oubliez pas que S-PLUS est sensible à la casse minuscule ou majuscule!) ou en cliquant sur le bouton Create Formula et ensuite en utilisant l’outil pour créer des expressions dans la boîte de dialoque qui s’ouvre. Dans le panneau Results, cliquez sur le bouton Type III Sums of Squares pour indiquer à S-PLUS que vous voulez les sommes de carrés partielles et non séquentielles (i.e., Type I). En plus, sauvegardez les résidus et créez des graphiques Residuals vs Fit plots and Residual QQ de la même façon que pour l’ANOVA à un critère de classification. Cliquez sur OK.

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

SEX 1 1745.36 1745.358 17.72204 0.0000405

LOCATION 1 8.78 8.778 0.08913 0.7656296

SEX:LOCATION 1 48.69 48.692 0.49441 0.4828844

Residuals 178 17530.36 98.485

Suite à l’ANOVA, on accepte deux hypothèses nulles: (1) que l’effet du sexe ne varie pas entre les sites (pas d’interaction significative) et (2) qu’il n’y a pas de différence de taille des esturgeons (peu importe le

180 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

sexe) entre les deux sites. D’un autre coté, on rejette l’hypothèse nulle qu’il n’y a pas de différence de taille entre les esturgeons mâles et les femelles, tel que suggéré par les graphiques.

Cependant, on ne peut se fier à ces résultats sans vérifier si les conditions d’application de l’ANOVA étaient rencontrées. Une examination des graphiques des résidus, en haut, montre que les résidue paraient être distribués plus ou moins normalement, avec si ce n’est des 3 valeurs extrêmes qui sont notées sur le diagramme de probabilité (cas 101, 24, & 71). D’après le graphique des résidus vs les valeurs prédites, on voit que l’étendue des résidus est plus ou moin égale pour les valeurs estimées, sauf encore pour 2 ou 3 cas. Si on éprouve la normalité, on obtient:

Quantiles of Standard Normal

Res

idua

ls

-2 -1 0 1 2

020

4060

71 24

101

Fitted : SEX * LOCATION

Res

idua

ls

22 24 26 28

020

4060

7124

101

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 181

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

One sample Kolmogorov-Smirnov Test of Composite Normality

data: Stu2wdat$residuals

ks = 0.0844, p-value = 0.003

alternative hypothesis:

True cdf is not the normal distn. with estimated parameters

sample estimates:

mean of x standard deviation of x

1.415229e-016 9.841383

Alors, il y a évidence que les résidus ne sont pas distribués normalement.

Nous allons utiliser le test de Levene pour examiner l’homoscédasticité des résidus, dans la même façon qu’on a fait pour l’ANOVA à un critère de classification. Cependent, on doit d’abord créer une nouvelle variable qui représente chaque combinaison possible des facteurs principaux (SEX et LOCATION) et ensuite on va faire une ANOVA à un critère de classification sur les résidus en utilisant cette nouvelle variable.

Creez une nouvelle variable, SEXLOC, en utilisant Data-Transform et en tapant ce qui suit dans le champ Expression field: PASTE(SEX, LOCA-TION). Ensuite, effectuez une ANOVA à un critère de classification sur la valeur absolue des RESIDUALS avec SEXLOC comme facteur de classification.

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

sexloc 3 521.508 173.8361 3.699944 0.01287272

Residuals 178 8363.054 46.9834

Si les résidus étaient homoscédastiques, on accepterait l’hypothèse nulle que le ABSRES moyen ne varie pas entre les niveaux de sexe et location (i.e., SEXLOC). Le tableau d’ANOVA ci-dessus montre que l’hypothèse est rejetée. Il y a donc évidence d’hétéroscédasticité. En bref, nous avons donc plusieurs conditions d’application qui ne sont pas respectées. La question qui reste est: ces violations sont-elles suffisantes pour invalider nos conclusions ?

182 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Répétez la même analyse avec les données du fichier STU2MDAT.SDD. Que concluez-vous ? Supposons que vous vouliez comparer la taille des mâles et des femelles. Comment cette comparaison diffère entre les deux ensembles de données ?

Commandes S-PLUS pour l’ANOVA factorielle à deux facteurs

### Run a 2way anova of RDWGHT by Sex, Location and print Type III

SS table

aov.RDWGHT <- aov(RDWGHT~SEX*LOCATION, Stu2wdat,

na.action=na.exclude)

ssType3(aov.RDWGHT) ### give a table of Type III SS (unweighted

SS)

### Plot residuals

par(mfrow=c(2, 2))

qqnorm(resid(aov.RDWGHT)) ### make a QQ plot of the residuals of

the above analysis

qqline(resid(aov.RDWGHT)) ### add a line to the above plot

plot(fitted(aov.RDWGHT),resid(aov.RDWGHT)) ### plot the residu-

als against the fitted values

par(mfrow=c(1,1))

### Test residuals for normality and variances

ks.gof(resid(aov.RDWGHT))

Stu2wdat <- menuTransform(data = Stu2wdat, variable.name = "Sex-

loc", expression = "paste(SEX, LOCATION)")

ssType3(aov(abs(resid(aov.RDWGHT))~Sexloc, Stu2wdat,

na.action=na.exclude))

female maleSEX

40

90

40

90

RD

WG

HT

LOCATION: Cumberland

LOCATION: The_Pas

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 183

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Notez que cette fois les femelles sont plus grandes que les mâles à Cumberland House, mais que c’est le contraire à The Pas. Quel est le résultat de l’ANOVA (n’oubliez pas qu’il faut choisir Type III sums of squares pour les résultats).

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

SEX 1 48.69 48.692 0.49441 0.4828844

LOCATION 1 8.78 8.778 0.08913 0.7656296

SEX:LOCATION 1 1745.36 1745.358 17.72204 0.0000405

Residuals 178 17530.36 98.485

Dans ce cas, le terme de l’intéaction (SEX:LOCATION) est maintenant significatife mais les effets principaux ne le sont pas. Vous trouverez utile ici de créer des graphiques pour les deux fichiers de données pour comparer les intéractions entre SEX et LOCATION. Le graphique d’intéraction montre les relations entre les moyennes de chaque combinaison de facteurs (appellés aussi les moyennes des cellules).

Faites un graphique d’intéraction avec le fichier de donnée STU2WDAT. Choisissez Statistics-Design-Interaction Plot du menu principal. Dans la boîte de dialogue choisissez le fichier de données, RDWGHT comme variable Dependent, et SEX et LOCATION comme variables Independent (n’oubliez pas que CTRL-cliquer vous permettde selec-tionner plusieurs variables à la fois, et que la première variable que vous sélectionnez sera mis sur l’axe X). Cliquez sur OK.

Commandes S-PLUS pour l’ANOVA à deux facteurs avec Stu2mdat

### Run a 2way anova of RDWGHT by Sex, Location and print Type III

SS table with Stu2mdat

aov.RDWGHT.Stu2m <- aov(RDWGHT~SEX*LOCATION, Stu2mdat,

na.action=na.exclude)

ssType3(aov.RDWGHT.Stu2m) ### give a table of Type III SS

(unweighted SS)

184 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Répetez ce processus avec le fichier STU2MDAT.

Il y a une différence importante entre les résultats obtenus avec STU2WDAT et STU2MDAT. Dans le premier cas, puisqu’il n’y a pas d’intéraction, on peut regrouper les données des deux niveaux d’un facteur (le sexe, par exemple) pour éprouver l’hypothèse d’un effet de l’autre facteur (le site). En fait, si on fait cela et calculons une ANOVA à un critère de classification (SEX$), on obtient:

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

SEX 1 1839.55 1839.553 18.83146 0.00002376599

Residuals 180 17583.31 97.685

SEX

mea

n of

RD

WG

HT

2224

2628

female male

LOCATION

CumberlandThe_Pas

SEX

mea

n of

RD

WG

HT

2224

2628

female male

LOCATION

The_PasCumberland

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 185

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Notez que la somme des carrées des résidus (17583.31) est presque égale à celle du modèle complet (17530.36) de l’ANOVA factorielle à deux facteurs. C’est parce que dans cette anova factorielle, le terme d’intéraction et le terme représentant l’effet du site n’expliquent qu’une partie infime de la variabilité.

D’un autre coté, si on essaie le même truc avec STU2MDAT, on obtient:Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

SEX 1 113.40 113.3992 1.057091 0.3052593

Residuals 180 19309.47 107.2748

Ici la somme des carrées des résidus (19309.47) est beaucoup plus grande que celle de l’ANOVA factorielle (17530.36) parce qu’une partie importante de la variabilité expliquée par le modèle est associée à l’interaction. Notez que si on n’avait fait que cette analyse, on concluerait que les esturgeons mâles et femelles ont la même taille. Mais en fait leur taille diffère; seulement la différence est à l’avantage des mâles à un site et à l’avantage des femelles à l’autre. Il est donc délicat d’interpréter l’effet principal (sexe) en présence d’une intéraction significative...

ANOVA à effets mixtes (Modèle III)

Les analyses qui précèdent négligent un point important: LOCATION est un facteur aléatoire et SEX est fixe. Par conséquent le modèle approprié d’ANOVA est de type III (mixte).

En utilisant l’option Fixed Effect de S-PLUS, nos avons précédemment traité cette ANOVA comme si elle était de Type I, et les termes principaux et celui d’interaction ont été testés en utilisant le carré moyen des résidus comem dénominateur des tests de F. Cependant, pour une ANOVA de type III, ces effets devraient être

Commandes S-PLUS pour les graphiques d’interactions### Make interaction plots

# for Stu2wdat - use interaction.plot when there are no NAs, else

use the menu option

interaction.plot(Stu2wdat$SEX, Stu2wdat$LOCATION,

Stu2wdat$RDWGHT)

menuInteractionPlot(data = Stu2wdat, dependent = "RDWGHT", inde-

pendent = "SEX,LOCATION", na.rm = T, both.var.orders = F, fun =

mean, rows = 1, columns = 1)

# for Stu2mdat

interaction.plot(Stu2mdat$SEX, Stu2mdat$LOCATION,

Stu2mdat$RDWGHT)

menuInteractionPlot(data = Stu2mdat, dependent = "RDWGHT", inde-

pendent = "SEX,LOCATION", na.rm = T, both.var.orders = F, fun =

mean, rows = 1, columns = 1)

186 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

testés en utilisant le carré moyen du terme d’interaction, ou en combinant la somme des carrés de l’erreur et de l’interaction (selon le statisticien consulté!).

En utilisant STU2WDAT, refaites un tableau d’ANOVA pour RDWGHT en considérant LOCATION comme facteur aléatoire et SEX comme un fac-teur fixe. Pour ce faire, vous devrez recalculer les valeurs de F pour SEX et LOCATION en utilisant le carré moyen de l’interaction SEX:LOCA-TION au lieu du carré moyen des résidus comem dénominateur. Le mieux c’Est de le faire à la mitaine ent travailalnt avec les Type III Sums of squares du tableau d’ANOVA. Pour calculer la probabilité associée à la statistique F, allez à la fenêtre de comamnde et tapez 1-PF(F, DF1, DF2), où F est la valeur de la statistique F que vous venez de calculer, et DF1 et DF2 sont les degrés de liberté pour le numérateur (SEX OU LOCATION) et denominateur (SEX:LOCATION), respectively.

Df Sum of Sq Mean Sq F Value Pr(F)

SEX 1 1745.36 1745.358 35.84486 0.1053601

LOCATION 1 8.78 8.778 0.18018 0.7444437

SEX:LOCATION 1 48.69 48.692 0.49441 0.4828844

Residuals 178 17530.36 98.485

Notez que maintenant la valeur de p pour SEX n’est plus significative. C’est parce que le carré moyen de l’erreur dans l’ANOVA initiale (48.692) est plus petit que celui associé à l’interaction (98.485), mais surtout parce que le nombre de degrés de liberté pour le dénominateur du test de F est passé de 178 à 1 seulement. En général, c’est beaucoup plus difficile d’obtenir des résultats significatifs quand les degrés de liberté pour le dénominateur sont petits.

Plan factoriel à deux facteurs de classification sans réplication Dans certains plans d'expérience il n'y a pas de réplicats pour chaque combinaison de facteurs, par exemple parce qu'il serait trop coûteux de faire plus d'une observation. L'ANOVA à deux critères de classification est quand même possible dans ces circonstances, mais il y a une limitation importante.

Comme il n'y a pas de réplicats, on ne peut estimer la variance du terme d'erreur. En effet on ne peut qu'estimer la somme des carrés associés à chacun des facteurs principaux, et la quantité de variabilité qui reste (Remainder Mean Square) représente la somme de la variabilité attribuable à l'interaction et au terme d'erreur. Cela a une implication importante : s'il y a une interaction, seul un modèle II d'ANOVA peut être entièrement testé et dans un modèle III d'ANOVA, seul l'effet fixe peut être testé (il est éprouvé en les

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 187

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

comparant au carré moyen associé avec le remainder MS). Dans le cas d'un modèle I ou pour l'effet aléatoire d'un modèle III on ne peut tester les effets principaux que si on est sur qu'il n'y a pas d'interaction.

Un limnologiste qui étudie Round Lake dans le Parc Algonquin prend une seule mesure de température (TEMP) à 10 profondeurs différentes (DEPTH, en m) à quatre dates (DATE$) au cours de l'été. Ses données sont au fichier 2WNRDAT.SDD.

À l'aide de la routine Statistics, ANOVA, Fixed Effects, effectuez une ANOVA à deux critères de classification en utilisant TEMP comme vari-able dépendante et DATE et DEPTH comme variables indépendantes (vous devez changer le type de données pour DEPTH pour que S-PLUS traite cette variable comme un facteur et non pas une variable con-tinue). Inscrivez l’expression qui suit dans le champ Formula: TEMP~SEX+DEPTH. Dans le panneau Results, choisissez Type III Sums of Squares. Sauvegardez les résidus et faites des graphiques Residuals vs Fit et Residual QQ comme d’habitude. Cliquez sur OK.

Le tableau d’ANOVA donne:

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

DATE 3 591.147 197.0489 16.36414 2.934657e-006

DEPTH 9 1082.820 120.3134 9.99155 1.450163e-006

Residuals 27 325.121 12.0415

Si on suppose que c’est un modèle III d’ANOVA (DATE aléatoire, DEPTH fixe), que concluez vous? (Indice: faites un graphique d’intéraction température en fonction de la profondeur et la date, pour voir ce qui se passe).

DEPTH

mea

n of

TE

MP

510

1520

25

0 1 2 3 4 5 6 9 12 15

DATE

aug1july1may1june1

188 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

La température diminue significativement en profondeur. Pour tester l’effet du mois (le facteur aléatoire), on doit présumer qu’il n’y a pas d’interaction entre la profondeur et le mois (donc que l’effet de la profondeur sur la température est le même à chaque mois). C’est peu probable: si vous faites un graphique de la température en fonction de la profondeur pour chaque mois, vous observerez que le profil de température change au fur et à mesure du développement de la thermocline. Bref, comme le profil change au cours de l’été, ce modèle ne fait pas de très bonnes prédictions.

Jetez un coup d’oeuil sur les graphiques des résidus:

Le test de Lilliefors sur les résidus donne KS = .120, p = .5, donc l’hypothèse de normalité ne semble pas être en doute. Pour l’égalité des variances, on peut seulement comparer entre les mois en utilisant les profondeurs comme réplicats (ou l’inverse). En utilisant les profondeurs commes réplicats, on obtient:

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

Nr2wdat$DATE 3 62.45713 20.81904 25.14283 5.985702e-009

Residuals 36 29.80911 0.82803

Il y a donc un problème d’hétéroscédasticité, comme on peut très bien voir dans le graphique des résidus vs les valeur estimées. Cette analyse n’est donc pas très satisfaisante: il y a des violations des conditions d’application et il semble y avoir une interaction entre DEPTH et DATE qui pourrait invalider l’analyse

Quantiles of Standard Normal

resi

d(ao

v.TE

MP

)

-2 -1 0 1 2

-4-2

02

4

fitted(aov.TEMP)

resi

d(ao

v.TE

MP

)

0 5 10 15 20

-4-2

02

4

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 189

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Plans hiérarchiquesUn design expérimental fréquent implique la division de chaque groupe du facteur majeur en sous-groupes aléatoires. Par exemple, une généticienne intéressée par l'effet du génotype sur la résistance à la dessiccation chez la drosophile effectue une expérience. Pour chaque génotype (facteur principal) elle prépare trois chambres de croissance (sous-groupes) avec une température et humidité contrôlées. Dans chaque chambre de croissance, elle place cinq larves, puis mesure le nombre d'heures pendant lesquelles chaque larve survit.

Le fichier NESTDAT.SDD contient les résultats d'une expérience sem-blable. Il contient trois variables : GENOTYPE, CHAMBER et SURVIVAL. Effectuez une ANOVA hiérarchique en allant à Statistics, ANOVA, Fixed Effects. Inscrivez SURVIVAL comme variable dépendante et GEN-OTYPE et CHAMBER %IN% GENOTYPE comme variables indépendantes. Le champ Formula devrait apparaitre comme: SURVIVAL~GENOTYPE / CHAMBER ou comme SURVIVAL~GENOTYPE + CHAMBER %IN% GENOTYPE. Choisissez Type III sums of squares et sauvegardez les résidue et graphiques, comme d’habitude.

Commandes pour l’ANOVA factorielle à deux facteurs sans réplication

## 2 way ANOVA, no reps

aov.TEMP <- aov(TEMP~DATE+DEPTH, Nr2wdat)

ssType3(aov.TEMP) ### print a summary of the ANOVA

### make plots of residuals

par(mfrow=c(2,1))

qqnorm(resid(aov.TEMP)) ### make a QQ plot of the residuals of

the above analysis

qqline(resid(aov.TEMP)) ### add a line to the above plot

plot(fitted(aov.TEMP),resid(aov.TEMP)) ### plot the residuals

against the fitted values

par(mfrow=c(1,1))

### test normality of residuals

ks.gof(resid(aov.TEMP))

ssType3(aov(abs(resid(aov.TEMP))~Nr2wdat$DEPTH))

ssType3(aov(abs(resid(aov.TEMP))~Nr2wdat$DATE))

## make an interaction plot

interaction.plot(Nr2wdat$DEPTH, Nr2wdat$DATE, Nr2wdat$TEMP)

190 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Que concluez-vous de cette analyse ? Que devrait être la prochaine étape ? (Indice : si l'effet de CHAMBER %IN% GENOTYPE n'est pas significatif, vous pouvez augmenter la puissance des comparaisons entre génotypes en regroupant les chambres de chaque génotype.). Faites-le ! N'oubliez pas de vérifier les conditions d'applications de l'ANOVA !

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

GENOTYPE 2 2952.220 1476.110 292.6081 0.0000000

CHAMBER %in% GENOTYPE 6 40.655 6.776 1.3432 0.2638893

Residuals 36 181.608 5.045

On conclue de cette analyse que la variation entre les chambres de croissance n’est pas significative, mais qu’on doit rejeter l’hypothèse nulle que tous les génotypes ont la même résistance à la dessiccation.

Comme l’effet hiérarchique CHAMBER %IN% GENOTYPE n’est pas significatif, on peut regrouper les observations pour augmenter le nombre de degrés de liberté:

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

GENOTYPE 2 2952.220 1476.110 278.9341 0

Residuals 42 222.263 5.292

Commandes S-PLUS pour l’ANOVA hiérarchique### Recode variable to factor

Nestdat <- convert.col.type(target = Nestdat, column.spec =

list("CHAMBER"), column.type = "factor")

### Nested ANOVA of Nestdat

aov.NEST <- aov(SURVIVAL~GENOTYPE / CHAMBER, Nestdat)

ssType3(aov.NEST) ### print a summary of the ANOVA

Commandes S-PLUS pour l’ANOVA après regroupement### Non-Nested ANOVA of Nestdat

aov.NONEST <- aov(SURVIVAL~GENOTYPE, Nestdat)

ssType3(aov.NONEST) ### print a summary of the ANOVA

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 191

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Donc on conclue qu’il y a une variation significative de résistance à la dessiccation entre les trois génotypes.

Le graphique suggère que la résistance à la dessiccation varie entre chaque génotype.

Lorsque vous aurez complété ce qui précède, faites des comparaisons multiples pour déterminer quels génotypes diffèrent significativement les uns des autres. Que concluez-vous ?

95 % simultaneous confidence intervals for specified

linear combinations, by the Bonferroni method

critical point: 2.4937

response variable: SURVIVAL

intervals excluding 0 are flagged by '****'

Estimate Std.Error Lower Bound Upper Bound

AA-Aa 9.87 0.84 7.77 12.0 ****

AA-aa 19.80 0.84 17.70 21.9 ****

Aa-aa 9.97 0.84 7.88 12.1 ****

AA Aa aaGENOTYPE

30

40

50

60

SU

RVI

VAL

Commandes S-PLUS pour les tests post-hoc de Bonferroni:

### Multiple comparisons among genotypes

mca.bon.NONEST <- multicomp(aov.NONEST, method="bon") ## Conducts

a bonferroni

mca.bon.NONEST

plot(mca.bon.NONEST)

192 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

On conclue donc que la résistance à la dessiccation (R), telle que mesurée par la survie dans des conditions chaudes et sèches, varie significativement entre les trois génotypes avec R(AA) > R(Aa) > R(aa).

Cependant, avant d’accepter cette conclusion, il faut éprouver les conditions d’application du test. Voici les diagnostics des résidus pour l’ANOVA à un critère de classification (non hiérarchique):

One sample Kolmogorov-Smirnov Test of Composite Normality

The Dallal-Wilkinson approximation, used to calculate

the p-value in testing composite normality,

is most accurate for p-values <= 0.10 .

The calculated p-value is 0.595 and so is set to 0.5 . in: dall.wilk(test,

nx)

((

(

))

)

AA-AaAA-aaAa-aa

0 2 4 6 8 10 12 14 16 18 20 22simultaneous 95 % confidence limits, Bonferroni method

response variable: SURVIVAL

Quantiles of Standard Normal

resi

d(ao

v.N

ON

EST)

-2 -1 0 1 2

-4-2

02

4

fitted(aov.NONEST)

resi

d(ao

v.N

ON

EST)

40 45 50 55

-4-2

02

4

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 193

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

data: resid(aov.NONEST)

ks = 0.0827, p-value = 0.5

alternative hypothesis:

True cdf is not the normal distn. with estimated parameters

sample estimates:

mean of x standard deviation of x

-3.454027e-017 2.247537

L’ANOVA sur ABSRES:

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

Nestdat$GENOTYPE 2 0.37575 0.187876 0.1023537 0.9029347

Residuals 42 77.09317 1.835552

Donc, toutes les conditions d’application semblent être rencontrées, et on peut donc accepter les conclusions. Notez que si l’on compare le carré moyen des résidus de l’ANOVA hiérarchique et de l’ANOVA à un critère de classification (5.045 vs 5.292), ils sont presque identiques. Cela n’est pas surprenant compte tenu de la faible variabilité associée aux chambres de croissance pour chaque génotype.

ANOVA non paramétrique avec deux facteurs de classificationL'ANOVA non paramétrique à deux critères de classification est une extension de celle à un critère de classification vue précédemment. Elle débute par une ANOVA faite sur les données transformées en rangs. Elle peut se faire sur des données avec ou sans réplicats.

À partir du fichier STU2WDAT.SDD, effectuez une ANOVA non paramétrique à deux facteurs de classification pour examiner l'effet de SEX et LOCATION sur RANK(RDWGHT). Pour ce faire, utilisez Statistics, ANOVA, Fixed Effects, et inscrivez le suivant dans le champs Formula: RANK(RDWGHT)~SEX*LOCATION ou RANK(RDWGHT)~SEX+LOCA-TION+SEX:LOCATION. Selectionnez Type III sums of squares ainsi que les graphiques des résidus, comme d’habitude.

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

SEX 1 58393.6 58393.63 22.49791 0.0000042

LOCATION 1 1128.2 1128.21 0.43468 0.5105359

SEX:LOCATION 1 1229.8 1229.82 0.47383 0.4921091

Commandes S-PLUS

### Rank transformed anova

aov.rank <- aov(rank(RDWGHT)~SEX*LOCATION, Stu2wdat,

na.action=na.exclude)

ssType3(aov.rank)

194 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

iduals 182 472383.5 2595.51

L'extension du test de Kruskall-Wallis de Schreirer-Ray-Hare se fait ensuite à la main. Il faut d'abord calculer la statistique H égale au rapport de la somme des carrées de l'effet testé, divisée par le carré moyen total. Le carré moyen total peut être obtenu en additionnant toutes les sommes des carrés du tableau d'ANOVA (incluant celle associée au terme d'erreur) et en divisant par l'effectif moins 1.

Testez l'effet de SEX et LOCATION sur RDWGHT. Que concluez-vous ? Comment ce résultat se compare-t-il à celui obtenu en faisant l'ANOVA paramétrique faite précédemment ?

On calcule la statistique H pouc chacun des termes. Les statistiques H sont ensuite comparer à une distribution théoretique χ2 en utilisant la command (dans la fenêtre Commands): 1-PCHISQ(H, DF), où H et DF sont les statistiques H calculées et les degrés de libertés, respectivement.

Hsex =58393.63/2881.27 = 20.3 (p = 6.620058e-006)

Hlocation = 1128.2/2881.27 = 0.39 (p = 0.5322994)

Hsex:location = 1229.8/2881.27 = 0.43 (p = 0.5119889)

Ces résultats sont semblables aux résultats de l’ANOVA non-paramétrique à deux critères de classification. Malgré la puissance réduite, il y a encore un effet significatif du sexe, mais ni interation ni effet du site.

Il y a toutefois une différence importante. Rappelez-vous que l’ANOVA paramétrique il y avait un effet significatif de SEX en considérant le problème comme un modèle I d’ANOVA. Cependant, si on traite le problème comme un modèle III, l’effet significatif de SEX peut en principe disparaître parce que le nombre de dl associés au CM de l’intéraction est plus faible que le nombre de dl du CM de l’erreur du modèle I. Dans ce cas ci, cependant, le CM de l’intéraction est environ la moitié du CM de l’erreur. Par conséquent, l’effet significatif de SEX pourrait devenir encore plus significatif si le problème est analysé (comme il se doit) comme une ANOVA de modèle III. Encore une fois on peut voir l’importance de spécifier le modèle adéquat en ANOVA.

Comparaisons multiplesLes épreuves d'hypothèses subséquentes en ANOVA à plus d'un critère de classification dépendent des résultats initiaux de l'ANOVA. Si vous êtes intéressés à comparer des effets moyens d'un facteur pour tous les niveaux d'un autre facteur (par exemple l'effet du sexe sur la

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 195

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

taille des esturgeons peu importe d'où ils viennent), alors vous pouvez procéder exactement tel que décrit dans la section sur les comparaisons multiples suivant l'ANOVA à un critère de classification. Pour comparer les moyennes des cellules entre elles, il faut spécifier l'interaction comme variable qui représente le groupe.

Le fichier WMCDAT2.SDD contient des mesures de consommation d'oxygène (O2CONS) de deux espèces (SPECIES) d'un mollusque (une patelle) à trois concentrations différentes d'eau de mer (CONC) (ces données sont présentées à la p. 332 de Sokal et Rohlf 1995).

Effectuez une ANOVA factorielle à deux critères de classification sur ces données en utilisant 02CONS comme variable dépendante et SPE-CIES et CONC comme les facteurs (il va probablement falloir changer le type de données du variable CONC à facteur). Que concluez-vous ?

Comme l’effectif dans chaque cellule est relativement petit, il faudrait idéalement refaire cette analyse avec une ANOVA non-paramétrique. Pour le moment, contentons nous de la version paramétrique.

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

CONC 2 181.3210 90.66051 9.483286 0.0003993

SPECIES 1 16.6381 16.63807 1.740379 0.1942381

CONC:SPECIES 2 23.9262 11.96310 1.251366 0.2965616

Le test d’homogénéité des variances donne (rappellez vous qu’il faut créer une nouvelle variable qui représente chaque combinaison des facteurs prinicipaux, en utilisant la fonction PASTE):

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

wmcdat2$SPPCONC 5 4.3127 0.862534 0.353993 0.8767781

Residuals 42 102.3365 2.436584

Les variances semblent donc égales. Le test de K-S pour la normalité donne:

One sample Kolmogorov-Smirnov Test of Composite Normality

data: resid(aov.Limpet)

ks = 0.1793, p-value = 0.0005

alternative hypothesis:

True cdf is not the normal distn. with estimated parameters

sample estimates:

mean of x standard deviation of x

-6.765422e-017 2.922842

Il y a donc évidence de non-normalité, mais à part ça tout semble aller. Comme l’ANOVA est relativement robuste à la non-normalité, on va regarder de l’autre coté. (Si vous voulez être plus saints que le pape, vous pouvez tourner une ANOVA non paramétrique. Vous arriverez aux mêmes conclusions.)

196 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

À la suite des résultats que vous venez d'obtenir, quelles moyennes voudriez-vous comparer ? Pourquoi? Effectuez ces comparaisons en refaisant l’ANOVA et choisir les comparaisons appropriées dans le panneau Compare de la boîte de dialogue ANOVA (utilisez Bonfer-roni). Que concluez-vous ?

On conclue donc qu’il n’y a pas de différence entre les espèces et que l’effet de la concentration ne dépends pas de l’espèce (il n’y a pas d’intéraction). Par conséquent, les seules comparaisons justifiables sont entre les concentrations:

95 % simultaneous confidence intervals for specified

linear combinations, by the Bonferroni method

critical point: 2.4937

response variable: O2CONS

intervals excluding 0 are flagged by '****'

Estimate Std.Error Lower Bound Upper Bound

50-75 4.64 1.09 1.910 7.36 ****

50-100 3.25 1.09 0.529 5.98 ****

75-100 -1.38 1.09 -4.110 1.34

Commandes S-PLUS

### ANOVA with multiple comparison of means

aov.Limpet <-aov(O2CONS~CONC*SPECIES, wmcdat2,

na.action=na.exclude)

ssType3(aov.Limpet)

### Test residuals

ks.gof(resid(aov.Limpet))

wmcdat2$SPPCONC = paste(wmcdat2$SPECIES, wmcdat2$CONC)

ssType3(aov(abs(resid(aov.Limpet))~wmcdat2$SPPCONC))

((

(

))

)

50-7550-10075-100

-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8simultaneous 95 % confidence limits, Bonferroni method

response variable: O2CONS

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 197

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Il y a donc une différence de consommation d’oxygène significative lorsque la salinité est réduite de 50%, mais pas à 25% de réduction.

Pour éprouver l’hypothèse que la consommation d’oxygène ne vaire pas entre les espèces à chaque concentration, effectuez une ANOVA non-paramétrique pour chaque concentration. Pour ce faire, vous devez d’abord changer l’organisation de votre fichier de données.

Allez à Data-Restructure-Unstack, et créez un nouveau fichier de don-née dans le champ To Data Set et dans le Group Column choisissez CONC. Cliquez sur OK et un nouveau fichier devrait apparaître où chaque groupe de colonnes représente une concentrations différente.

Ensuite, faites une ANOVA à un critère de classification pour chaque concentration.

Kruskal-Wallis rank sum test

data: X50.O2CONS and X50.SPECIES from data set wmcdat2test

Kruskal-Wallis chi-square = 0.0111, df = 1, p-value = 0.9162

alternative hypothesis: two.sided

Kruskal-Wallis rank sum test

data: X75.O2CONS and X75.SPECIES from data set wmcdat2test

Kruskal-Wallis chi-square = 0.3988, df = 1, p-value = 0.5277

alternative hypothesis: two.sided

Kruskal-Wallis rank sum test

data: X100.O2CONS and X100.SPECIES from data set wmcdat2test

Kruskal-Wallis chi-square = 3.1922, df = 1, p-value = 0.074

alternative hypothesis: two.sided

Notez que cette analyse suggère une différence presque significative à une CONC=100 entre les deux espèces alors que l’ANOVA à deux critères de classification indique qu’il n’y a pas d’effet de SPECIES ni de l’intéraction SPECIES:CONC. Rappelez-vous qu’il est possible d’observer des différences entre des paires de moyennes même lorsque l’ANOVA indique qu’il n’y a pas de différences entre toutes les moyennes. C’est ce qui se passe ici. Il n’est pas justifié de comparer

Commandes S-PLUS

### ANOVA with multiple comparison of means

aov.Limpet <-aov(O2CONS~CONC*SPECIES, wmcdat2,

na.action=na.exclude)

multicomp(aov.Limpet, focus = "CONC", method="bon", plot=T)

198 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

ces moyennes entre les espèces puisque l’ANOVA à deux critères de classification indique qu’on devrait accepter l’hypothèse nulle que les moyennes ne diffèrent pas entre SPECIES$.

Répétez les deux analyses précédentes sur les données du fichier WMC2DAT2.SYD. Comment les résultats se comparent-ils à ceux obte-nus précédemment ?

En utilisant WMC2DAT2.SYD, on obtient:

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

SPECIES 1 5.8381 5.83808 0.616212 0.4368642

CONC 2 28.9585 14.47926 1.528293 0.2287237

SPECIES:CONC 2 168.1512 84.07560 8.874222 0.0006101

Residuals 42 397.9138 9.47414

Dans ce cas ci, il y a une interaction significative, et il n’est par conséquent pas approprié de comparer les moyennes regroupées par espèce ou concentration. Ceci est clairement visualisez dans une graphique d’intéraction:

Comamndes S-PLUS ### First, unstack the columns

wmcdat2test <- menuUnstackColumns(target = wmcdat2test, tar-

get.col.spec = list("<END>"), source = wmcdat2,

source.col.spec = list("<ALL>"), type = "Group Column", group =

"CONC")

### Then run Kruskal-wallis on each concentration

kruskal.test(wmcdat2test$X50.O2CONS, wmcdat2test$X50.SPECIES)

kruskal.test(wmcdat2test$X75.O2CONS, wmcdat2test$X75.SPECIES)

kruskal.test(wmcdat2test$X100.O2CONS, wmcdat2test$X100.SPECIES)

LABO- ANOVA À CRITÈRES MULTIPLES : PLANS FACTORIELS ET HIÉRARCHIQUES - 199

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Toujours en utilisant les données de WMC2DAT2.SDD , comparez les 6 moyennes avec l’ajustement Bonferonni (spécifiez SPECIES dans le champ Adjust For du panenau Compare de la boîte de dialogue ANOVA et en choisissant CONC dans le champ Levels of .

95 % simultaneous confidence intervals for specified

linear combinations, by the Bonferroni method

critical point: 2.769

response variable: O2CONS

intervals excluding 0 are flagged by '****'

Estimate Std.Error Lower Bound Upper Bound

50.adj1-75.adj1 -1.3400 1.54 -5.600 2.920

50.adj1-100.adj1 -4.0100 1.54 -8.270 0.249

75.adj1-100.adj1 -2.6700 1.54 -6.930 1.590

50.adj2-75.adj2 4.9900 1.54 0.727 9.250 ****

50.adj2-100.adj2 4.9000 1.54 0.636 9.160 ****

75.adj2-100.adj2 -0.0913 1.54 -4.350 4.170

Ces comparaisons sont un peu plus difficiles à interpreter, mais l’analyse examine essentiellement les différences entre les concentrations de l’eau dans l’espèce A (nommé adj1) et pour les différences entre les concentrations dans l’espèce B (nommé adj2). Cette analyse indique que la différence principale est entre la concentration de 50% pour l’espèce B et les concentrations de 75 et 100% de l’espèce B, tandis qu’il n’y a aucunes différences significatives pour l’espèce A.

CONCm

ean

of O

2CO

NS

78

910

1112

50 75 100

SPECIES

AB

200 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Dans cette analyse on a utilisé le CM = 9.474 du modèle d’ANOVA pour comparer les moyennes. En ce faisant, on présume qu’il s’agit d’une situation d’ANOVA de modèle I, ce qui n’est peut-être pas le cas (CONC est certainement fixe, mais SPECIES peut être fixe ou aléatoire).

Quelques conseils

• Lorsque le nombre d'hypothèses à éprouver est grand, contrôlez pour le taux d'erreur de l'ensemble (experiment-wise error rate) en utilisant la correction de Bonferroni.

• Ne faites pas de tests post-hocs à moins qu'ils vous soient suggé-rés par l'ANOVA initiale.

LABO- CORRÉLATION LINÉAIRE ET RÉGRESSION LINÉAIRE SIMPLE - 201

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Labo- Corrélation linéaire et régression linéaire simple

Après avoir complété cet exercice de laboratoire, vous devriez être en mesure de :

• Utiliser S-PLUS pour produire un diagramme de dispersion pour illustrer la relation entre deux variables

• Utiliser S-PLUS pour faire des transformations simples

• Utiliser S-PLUS pour calculer le coefficient de corrélation de Pear-son entre deux variables et en évaluer sa signification statistique.

• Utiliser S-PLUS pour calculer la corrélation de rang entre des pai-res de variables avec le r de Spearman et le tau de Kendall.

• Utiliser S-PLUS pour évaluer la signification de corrélations dans une matrice de corrélation en utilisant les probabilités ajustées par la méthode de Bonferroni.

• Utiliser S-PLUS pour faire une régression linéaire simple.

• Utiliser S-PLUS pour évaluer si un ensemble de données rencon-tre les conditions d'application d'une analyse de régression simple.

Diagrammes de dispersionLes analyses de corrélation et de régression devraient toujours commencer par un examen des données. C'est une étape critique qui sert à évaluer si ce type d'analyse est approprié pour un ensemble de données.

Supposons que nous sommes intéressés à évaluer si la longueur d'esturgeons mâles dans la région de The Pas covarie avec leur poids. Pour répondre à cette question, regardons d'abord la corrélation entre FKLNGTH et RDWGTH.

Souvenez-vous qu'une des conditions d'application de l'analyse de corrélation est que la relation entre les deux variables est linéaire. Pour évaluer cela, commençons par un diagramme de dispersion :

En utilisant le fichier STURGDAT.SDD, faites un diagramme de dispersion avec une courbe LOESS. A partir de Graph, 2D Plot, sélectionnez Smoothing-Loess Plot (x, y1, y2, ..) du menu Plot Type dans la boîte de dialogue Insert Graph. Dans la boîte de dialogue Line/Scatter Plot [1], choisissez RDWGHT du champ x Columns, et FKLNGTH du champ y

202 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Columns. Est-ce que la dispersion des points suggère une bonne cor-rélation entre les deux variables ? La relation apparaît-elle linéaire ?

Ce graphique suggère une tendance plus curvilinéaire que linéaire. Malgré tout il semble y avoir une forte corrélation entre les deux variables.

Changez l’échelle des axes de linéaire à logarithmique. Pour ce faire, cliquez une fois sur l’axe y pour le sélectionner; ensuite cliquez-droite et choisissez Display/Scale au menu qui s’ouvre. Dans la groupe Axis Scaling, choisissez Log du menu Scaling. Cliquez OK et répetez pour l’axe x.

Maintenant, faites unediagramme de dispersion en utilisant une trans-formation à la racine carrée des deux variables. Vous devez trans-former ces variables vous même, en utilisant Data, Transform et en créant 2 nouvelles variables: SQRDWT et SQFKL, ex. SQRDWT = SQRT(RDWGHT).

10 30 50 70 90RDWGHT

20

30

40

50

60

70

FKLN

GTH

101 1023 4 5 6 7 8 9 2 3 4 5 6 7 8 9

RDWGHT

101

102

2

3

4

5

6

7

8

9

FKLN

GTH

LABO- CORRÉLATION LINÉAIRE ET RÉGRESSION LINÉAIRE SIMPLE - 203

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Comparez les 3 diagrammes de dispersion. D'après vous, quelle est la paire de variable la plus appropriée pour une analyse de corrélation ? Pour les données transformées, on obtient des relations plus linéaires avec la transformation log.

Comme l’analyse de corrélation présuppose une relation linéaire entre les variables, on devrait donc privilégier l’analyse sur les données log-transformées.

Transformations et le coefficient de corrélationUne autre condition préalable à l'analyse de corrélation est que les deux variables concernées suivent une distribution normale bidimensionnelle. Malheureusement, il n'est pas évident de vérifier l'ajustement à une distribution normale bidimensionnelle, et S-PLUS ne peut le faire facilement. Cependant on peut aisément vérifier l'ajustement à une distribution normale de chacune des 2 variables séparément tel que décrit dans l'exercice de laboratoire sur les comparaisons de deux échantillons. Si les deux variables sont normalement distribuées, on présume généralement qu'elles suivent une distribution normale bidimensionnelle lorsque analysées simultanément (notez que ce n'est pas toujours le cas cependant).

Générez des diagrammes de probabilité pour les six variables (les deux variables originales et les variables transformées). Que concluez-vous de l'inspection visuelle de ces graphiques ?

Les figures ci-dessous sont les diagrammes de probablilité (obtenus en passant par Graph-2D Plots-QQ Normal with Line puis en sélectionnant les six variables; le code pour produire des graphiques multiples sur une page, comme on voit ci-dessous, est à la fin de cette section):

2 4 6 8 10SQRDWT

4

5

6

7

8

SQ

FKL

204 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Il n’y a pas grand chose à redire: aucune des distribution n’est parfaitement normale, mais les déviations semblent mineures.

Éprouvez la normalité de chaque variable en utilisant le test de Kol-mogorov-Smirnov. Que concluez-vous ? Pourquoi ?

En sommaire, les tests KS donnent:

Donc la plupart de ces variables variables (sauf SQRDWT, LRDWGHT et FKLNGTH) ne sont pas distribuées normalement. La belle affaire ! Puisque l’effectif est relativement grand (182-185), la puissance du test est assez élevée et permet de détecter comme significatives des légères déviations à la normalité.

Présumons pour l'instant que chaque paire de variable suit une distri-bution normale bidimensionnelle. Generez une matrice de graphiques de dispersion en utilisant le menu Graph-2D Plot. Dans la boîte de dia-logue Insert Graph sélectionnez Axes Type - Matrix et Plot Type - Scatter Plot Matrix (x1..xn) Dans le panneau Data to Plot de la boîte de dialogue Scatter Plot Matrix [1] choisissez les variables désirées dans le menu déroulant x-Columns (Utilisez CTRLpour sélectionner plusieurs variables). Cliquez sur OK.

Quantiles of Standard Normal

Stur

gdat

$FKL

NG

TH

-3 -2 -1 0 1 2 3

3040

5060

Quantiles of Standard Normal

Stur

gdat

$LFK

L

-3 -2 -1 0 1 2 3

1.4

1.5

1.6

1.7

1.8

Quantiles of Standard Normal

Stur

gdat

$SQ

FKL

-3 -2 -1 0 1 2 3

5.0

5.5

6.0

6.5

7.0

7.5

8.0

Quantiles of Standard Normal

Stur

gdat

$RD

WG

HT

-2 -1 0 1 2

2040

6080

Quantiles of Standard Normal

Stur

gdat

$LR

DW

GH

T

-2 -1 0 1 2

0.8

1.0

1.2

1.4

1.6

1.8

2.0

Quantiles of Standard Normal

Stur

gdat

$SQ

RD

WT

-2 -1 0 1 2

24

68

Variable KS Probability

FKLGTH 0.0596 0.5

LFKL 0.0803 0.0055

SQFKL 0.0663 0.0464

RDWGHT 0.0892 0.0013

LRDWGHT 0.0562 0.5

SQRWGT 0.0506 0.5

LABO- CORRÉLATION LINÉAIRE ET RÉGRESSION LINÉAIRE SIMPLE - 205

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Ensuite, calculez le coefficient de corrélation de Pearson entre chaque paire (variables originales, logtransformées et transformées en leur racine carrée) en utilisant Statistics, Data Summaries, Correlations et en ajoutant les six variables dans le menu Variable(s). Assurez vous que le bouton Correlations est selectionné dans la groupe Statistics. Que concluez-vous ?

Fréquemment, il y a des données manquantes dans un échantillon. En choisissant Omit, toutes les lignes du fichier pour lesquelles les variables ne sont pas toutes mesurées sont éliminées. Dans ce cas, toutes les corrélations seront calculées avec le même nombre de cas. Par contre, en choisissant Available de la liste des options, S-PLUS élimine une observation que lorsqu'un des deux membres de la paire a une valeur manquante. Dans ce cas, si les données manquantes pour différentes variables se retrouvent dans un groupe différent d'observation, les corrélations ne seront pas nécessairement calculées sur le même nombre de cas ni sur le même sous-ensemble de cas. En général, vous devriez utiliser l'option Omit à moins que vous ayez un très grand nombre de données manquantes et que cette façon de procéder élimine la plus grande partie de vos observations.

Pourquoi la corrélation entre les variables originales est-elle la plus faible des trois ?

*** Correlations for data in: Sturgdat ***

FKLNGTH RDWGHT LFKL LRDWGHT SQFKL SQRDWT

FKLNGTH 1.0000000 0.9175435 0.9921435 0.9645108 0.9980574 0.9579821

RDWGHT 0.9175435 1.0000000 0.8756203 0.9265513 0.8981195 0.9810513

LFKL 0.9921435 0.8756203 1.0000000 0.9670139 0.9979999 0.9368925

LRDWGHT 0.9645108 0.9265513 0.9670139 1.0000000 0.9675964 0.9809240

SQFKL 0.9980574 0.8981195 0.9979999 0.9675964 1.0000000 0.9492453

SQRDWT 0.9579821 0.9810513 0.9368925 0.9809240 0.9492453 1.0000000

Plusieurs choses à noter ici. Premièrement, la corrélation entre la longueur à la fourche et le poids rond est élevée, peu importe la transformation: les poissons pesants ont tendance à être longs. Deuxièmement, la corrélation est plus forte pour les données transformées que pour les données brutes. Pourquoi? Parce que le coefficient de corrélation est inversement proportionnel au bruit

FKLNGTH

020406080

100

0.500.751.001.251.501.752.00

13579

20 30 40 50 60 70

0 20 40 60 80 100

RDWGHT

LFKL

1.3 1.4 1.5 1.6 1.7 1.8

0.500.751.001.251.501.752.00

LRDWGHT

SQFKL

4 5 6 7 8

203040506070

1 3 5 7 9

1.31.41.51.61.71.8

45678

SQRDWT

206 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

autour de la relation linéaire. Si la relation est curvilinéaire (comme dans le cas des données non-transformées), le bruit est plus grand que si la relation est parfaitement linéaire. Par conséquent la corrélation est plus faible.

Matrices de corrélations et correction de BonferroniUne pratique courante est d'examiner une matrice de corrélation à la recherche des associations significatives. Comme une exemple, essayons de tester si la corrélation entre LFKL et RDWGHT est significative (ceci est la corrélation avec la plus faible coefficient de corrélation).

De la fenêtre Commands, inscrivez le code suivant pour tester la cor-rélation enrte LFKL et RDWGHT:

>cor.test(Sturgdat$LFKL, Sturgdat$RDWGHT)

Pearson's product-moment correlation

1: There were 5 nonfinite values in c(x, y) : 5 NA's in: is.not.finite.warn-

ing(c(x,

y))

2: These were removed from x and y before testing in: cor.test(Sturg-

dat$LFKL,

Sturgdat$RDWGHT)

data: Sturgdat$LFKL and Sturgdat$RDWGHT

t = 24.3223, df = 180, p-value = 0

alternative hypothesis: true coef is not equal to 0

sample estimates:

cor

0.8756203

On vois ici que la corrélation est hautement significative (p=0), ce qui n’est pas surprenant étant donné la valeur du coefficient de corrélation (0.8756).

Il est important de réaliser que si une matrice contient un grand nombre de corrélations, il n'est pas surprenant d'en trouver au moins une qui soit "significative". En effet, on s'attend à en trouver 5% en moyenne lorsqu'il n'y a en fait aucune corrélation entre les paires de moyennes. Une façon de corriger pour cette tendance est d'ajuster le niveau α auquel on attribue une signification statistique en divisant α par le nombre k de corrélations qui sont examinées : α' = α/k (ajustement de Bonferroni). Si initialement α = 0.05 et qu'il y a 10 corrélations qui sont examinées, alors α'= 0.005.

LABO- CORRÉLATION LINÉAIRE ET RÉGRESSION LINÉAIRE SIMPLE - 207

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Dans l’exemple qui précède, on devrait donc ajuster α en divisant par le nombre total de corrélations dans la matrice (15 dans ce cas, donc α'=0.0033). Cette correction modifie-t-elle votre conclusion quant à la corrélation entre LKFL et RDWGHT?

En biologie de la conservation des espèces, une des questions intéressante et importante est de déterminer s'il existe des points chauds de diversité, c'est à dire des sites où la diversité de groupes taxonomiques différents est élevée. Si tel est le cas, alors on s'attend à ce qu'un échantillon de divers sites posséderait des corrélations positives entre la richesse spécifique (le nombre d'espèces différentes) de différents groupes.

Le fichier WETDAT.SDD contient des données sur des marais de la région d'Ottawa, en particulier le nombre d'espèces de plantes (PLANT), d'oiseaux (BIRD), de mammifères (MAMMAL) et d'amphibiens et de rep-tiles (HERPS) dans chaque marais, ainsi que le log de ces variables (LGPLANTS, etc.). Étudiez la matrice de corrélation des variables log transformées et testez si la corrélation la plus faible (i.e., celui qui est la plus proche à zéro) est significative. Comparez les probabilités brutes et les probabilités corrigées par l'ajustement de Bonferroni. Existe-t-il une différence ? Pourquoi ?

*** Correlations for data in: Wetdat ***

LGPLANTS LGBIRDS LGHERPS LGMAMS

LGPLANTS 1.0000000 0.6447637 0.7147440 0.3508200

LGBIRDS 0.6447637 1.0000000 0.7325715 0.6013109

LGHERPS 0.7147440 0.7325715 1.0000000 0.5150073

LGMAMS 0.3508200 0.6013109 0.5150073 1.0000000

> cor.test(Wetdat$LGPLANTS, Wetdat$LGMAMS)

Pearson's product-moment correlation

1: There were 1 nonfinite values in c(x, y) : 1 NA's in: is.not.finite.warn-

ing(c(x,

y))

2: These were removed from x and y before testing in: cor.test(Wet-

dat$LGPLANTS,

Wetdat$LGMAMS)

data: Wetdat$LGPLANTS and Wetdat$LGMAMS

t = 1.9466, df = 27, p-value = 0.0621

alternative hypothesis: true coef is not equal to 0

sample estimates:

cor

0.35082

Note que, dans ce cas les choses changent: on rejette presque l’hypothèse nulle d’absence de corrélation entre LGPLANTS et LGMAMS avec les probabilités sans ajustement (p=0.0621). Cependant, après la correction on doit clairement accepter l’hypothèse nulle.

208 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Corrélations non paramétriques : r de Spearman et tau de KendallL'analyse faite à la section précédente avec les esturgeons suggère que l'une des conditions préalables à l'analyse de corrélation, soit la distribution normale bidimensionnelle de données, pourrait ne pas être rencontrée pour FKLNGTH et RDWGHT, ni pour les paires de variables transformées. La recherche d'une transformation appropriée peut parfois être difficile. Pire encore, pour certaines distributions il n'existe pas de transformation qui va normaliser les données. Dans ces cas-là, la meilleure option est de faire une analyse non paramétrique qui ne présume ni de la normalité ni de la linéarité. Ces analyses sont basées sur les rangs. Les deux plus communes sont le coefficient de rang de Spearman et le tau de Kendall. If faut utiliser la fenêtre Commands en S-PLUS pour calculer ces corrélations.

Allez à la fenêtre Commands, et testez la corrélation entre fklngth et rdwght en utilisant Spearman et Kendall’s . Les commandes qui suiv-ent produiront les corrélations:

>cor.test(Sturgdat$FKLNGTH, Sturgdat$RDWGHT, method="spearman")

Spearman's rank correlation

1: There were 5 nonfinite values in c(x, y) : 5 NA's in: is.not.finite.warn-

ing(c(x,

y))

2: These were removed from x and y before testing in: cor.test(Sturgdat$FKL-

NGTH,

Sturgdat$RDWGHT, method = "spearman")

data: Sturgdat$FKLNGTH and Sturgdat$RDWGHT

normal-z = 12.8113, p-value = 0

alternative hypothesis: true rho is not equal to 0

sample estimates:

rho

0.9522546

>cor.test(Sturgdat$FKLNGTH, Sturgdat$RDWGHT, method="kendall")

Kendall's rank correlation tau

1: There were 5 nonfinite values in c(x, y) : 5 NA's in: is.not.finite.warn-

ing(c(x,

y))

2: These were removed from x and y before testing in: cor.test(Sturgdat$FKL-

NGTH,

Sturgdat$RDWGHT, method = "kendall")

data: Sturgdat$FKLNGTH and Sturgdat$RDWGHT

normal-z = 16.3578, p-value = 0

alternative hypothesis: true tau is not equal to 0

sample estimates:

tau

0.8159189

Comparer les résultats de cette analyse à l'analyse paramétrique. Pourquoi y-a-t'il une différence ?

LABO- CORRÉLATION LINÉAIRE ET RÉGRESSION LINÉAIRE SIMPLE - 209

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Calculez les corrélatoins non-paramétriques sur les paires de variables transformées. Vous devriez voir tout de suite que les corrélations des données transformées et non-transformées sont identiques puisque dans les deux cas la corrélation est calculée à partir des rangs qui ne sont pas affectés par la transformation.

Notez que les corrélations obtenues avec le tau de Kendall (0.816) sont plus faibles que celles du coefficient de Spearman (0.952). Le tau pondère un peu plus les grandes différences entre les rangs alors que le coefficient de Spearman donne le même poids à chaque paire d’observation. En général, on préfère le tau de Kendall lorsqu’il y a plus d’incertitude quant aux rangs qui sont près les uns des autres.

Les esturgeons de cet échantillon ont été capturés à l'aide de filets et d'hameçons d'une taille fixe. Quel impact cette méthode de capture peut-elle avoir eu sur la forme de la distribution de FKLNGTH et RDWGHT ? Compte tenu de ces circonstances, l'analyse de corrélation est-elle appropriée ?

Rappelez vous que l’analyse de corréaltion présume aussi que chaque variable est échantillonnée aléatoirement. Dans le cas de nos esturgeons ce n’est pas le cas: les hameçons apatés et les filets ne capturent pas de petits esturgeons (et c’est pourquoi il n’y en a pas dans l’échantillon). Il faut donc réaliser que les coefficients de corrélation obtenus dans cette analyse ne reflètent as nécessairment ceux de la population totale des esturgeons.

210 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Régression linéaire simpleL'analyse de corrélation vise à décrire comment deux variables covarient. L'analyse de régression vise plutôt à produire un modèle permettant de prédire une variable (la variable dépendante) par l'autre (la variable indépendante).

Programme S-PLUS pour l’exercice sur la corrélation

### Make Scatter plots

plot(Sturgdat$RDWGHT, Sturgdat$FKLNGTH)

### Make probability plots of raw and transformed data

par(mfrow = c(2, 3))

qqnorm(Sturgdat$FKLNGTH)

qqline(Sturgdat$FKLNGTH)

qqnorm(Sturgdat$LFKL)

qqline(Sturgdat$LFKL)

qqnorm(Sturgdat$SQFKL)

qqline(Sturgdat$SQFKL)

qqnorm(Sturgdat$RDWGHT)

qqline(Sturgdat$RDWGHT)

qqnorm(Sturgdat$LRDWGHT)

qqline(Sturgdat$LRDWGHT)

qqnorm(Sturgdat$SQRDWT)

qqline(Sturgdat$SQRDWT)

par(mfrow = c(1, 1))

### Test normality

ks.gof(Sturgdat$FKLNGTH)

ks.gof(Sturgdat$LFKL)

ks.gof(Sturgdat$SQFKL)

ks.gof(Sturgdat$RDWGHT)

ks.gof(Sturgdat$LRDWGHT)

ks.gof(Sturgdat$SQRDWT)

### Produce scatterplot matrix

splom(~Sturgdat[c(1, 5, 7, 11, 25, 24)])

### or...

guiModify( "MatrixPlot", Name = "GS3$1$1",

xColumn = "FKLNGTH,RDWGHT,LFKL,LRDWGHT,SQFKL,SQRDWT")

### Produce correlation matrix on sturgeon data

cor(Sturgdat[c(1, 5, 7, 11, 25, 24)], na.method="omit")

### Test significance of individual correlations

cor.test(Sturgdat$FKLNGTH, Sturgdat$RDWGHT)

### Correlations for wetland data

cor(Wetdat[7:10], na.method="omit")

cor.test(Wetdat$LGPLANTS, Wetdat$LGMAMS)

### Nonparametric correlations

cor.test(Sturgdat$FKLNGTH, Sturgdat$RDWGHT, method="spearman")

cor.test(Sturgdat$FKLNGTH, Sturgdat$RDWGHT, method="kendall")

LABO- CORRÉLATION LINÉAIRE ET RÉGRESSION LINÉAIRE SIMPLE - 211

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Comme pour l'analyse de corrélation , on devrait commencer en examinant des graphiques. Puisque l'on est intéressé à quantifier la relation entre deux variables, un graphique de la variable dépendante (Y) en fonction de la variable indépendante (X) est tout à fait approprié.

Le fichier REG1DAT.SDD contient des données d'un inventaire des estur-geons mâles récoltés en 1978-1980 à Cumberland House en Saskatchewan et à The Pas au Manitoba. Faites un diagramme de dis-persion de FKLNGTH (la variable dépendent) en fonction de AGE (la variable indépendente). Que concluez-vous de ce diagramme de dis-persion ?

Ce graphique suggère que la relation n’est pas linéaire.

Supposons que nous désirions estimer le taux de croissance des esturgeons mâles. Un estimé (peut-être pas terrible…) du taux de croissance peut être obtenu en calculant la pente de la régression de la longueur à la fourche sur l'âge.

Utilisez Statistics, Regression, Linear et choisissez FKLNGTH comme variable dépendante et AGE comme variable indépendante. Dans le panneau Results, sauvegardez les Residuals et Fitted values au fichier de données REG1DAT, de la même façon que vous avez fait pour l’ANOVA. Dans le panneau Plot, selectionnez les options Residuals vs Fit et Residuals Normal QQ. Que concluez-vous ? Quelle est l'équation de régression ?

L’analyse de régression donne:

*** Linear Model ***

Call: lm(formula = FKLNGTH ~ AGE, data = Reg1dat, na.action = na.exclude)

Residuals:

Min 1Q Median 3Q Max

-8.593 -2.096 0.3231 1.557 8.1

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 28.7416 1.0780 26.6609 0.0000

0 10 20 30 40AGE

20

30

40

50

FKLN

GTH

212 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

AGE 0.6874 0.0543 12.6571 0.0000

Residual standard error: 3.05 on 73 degrees of freedom

Multiple R-Squared: 0.687

F-statistic: 160.2 on 1 and 73 degrees of freedom, the p-value is 0

5 observations deleted due to missing values

L’équation de la droite de régression estimée est donc:

Fklngth = 28.742 + 0.687*age

Ces résultats contiennent les coefficients de régression, leurs erreur-type, la valeur de t et la probabilité qui y est associée pour les deux hypothèses nulles (que l’ordonnée à l’origine et la pente sont égales à 0). Le coefficient de détermination (R-squared) correspond à la proportion de la variabilité (somme des carrés) qui est expliquées par le modèle. La statistique F permet d’évaluer la signification du modèle.

Etant donné la valeur très significative du test de F ainsi que pour le test de t pour la pente de la droite, on rejette l’hypothèse nulle qu’il n’y a pas de relation entre la taille et l’âge.

Vérifier les conditions d'application de la régressionLa régression simple de modèle I a quatre conditions préalables :

1. il n'y a pas d'erreur de mesure sur la variable indépendante (X),

2. la relation entre Y et X est linéaire,

3. les résidus sont normalement distribués et

4. la variance des résidus constante pour toutes les valeurs de la variable indépendante.

Procédons maintenant à l'examen post-mortem. La première condition est rarement remplie avec des données biologiques ; il y presque toujours de l'erreur sur X et sur Y. Cela veut dire qu'en général les pentes estimées sont biaisées, mais que les valeurs prédites ne le sont pas (voir Sokal et Rohlf 1995, p. 543-544 pour plus d'information). Toutefois, si l'erreur de mesure sur X est petite par rapport à l'étendue des valeurs de X, le résultat de l'analyse n'est pas dramatiquement influencé. Par contre, si l'erreur de mesure est relativement grande (toujours par rapport à l'étendue des valeurs de X), la droite de régression obtenue par la régression de modèle I est un piètre estimé de la relation fonctionnelle entre X et Y. Dans ce cas, il est préférable de passer à la régression de modèle II, malheureusement au-delà du contenu de ce cours.

Les autres conditions préalables à l'analyse de régression de modèle I peuvent cependant être vérifiées.

LABO- CORRÉLATION LINÉAIRE ET RÉGRESSION LINÉAIRE SIMPLE - 213

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Inspectez le diagramme de dispersion obtenu à la section précédente. La relation vous semble-t-elle linéaire ?

L’examen du graphique suggère que la relation entre FKLNGTH et AGE n’est pas linéaire.

Examinez les graphiques des résidus produits en faisant la régression ci haut. À l'examen de ces diagrammes, concluez-vous que les résidus suivent une distribution normale et que la variance de y est indépen-dente de x ?

Le diagramme de probabilité ressemble à:

ce qui est plutôt joli.

Le graphique des résidus donne

:

Il ne semble donc pas y avoir de problème d’hétéroscédasticité, mais il y a une tendance avec les résidus: ceux des extrémités sont négatifs alors que ceux du milieu sont positifs. C’est typique des cas ou on trace une droite au travers d’un nuage de points courbe.

Transformation des données en régressionLes analyses précédentes devraient vous avoir conduit à conclure qu'au moins une des conditions préalables à l'analyse de régression n'est pas remplie (Laquelle ? Lesquelles ?). Si on veut pouvoir faire une analyse de régression, une transformation des données s'impose :

Quantiles of Standard Normal

Res

idua

ls

-2 -1 0 1 2-5

05

59

53

4

Fitted : AGE

Res

idua

ls

35 40 45 50 55 60

-50

5

59

53

4

214 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Répétez l'analyse de régression et l'examen post-mortem des résidus en effectuant une transformation logarithmique sur les données. Dans le champ Formula du panneau Model de la boîte de dialogue Linear Regression, inscrivez: LOG10(FKLNGTH)~LOG10(AGE). Comparez aux résultats obtenus à partir des données brutes. Quelle est votre conclu-sion ?

L’analyse des données log-transformées donne:

*** Linear Model ***

Call: lm(formula = log10(FKLNGTH) ~ log10(AGE), data = Reg1dat, na.action =

na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.08432 -0.01578 0.0006757 0.02111 0.0701

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 1.1991 0.0256 46.8737 0.0000

log10(AGE) 0.3343 0.0204 16.4124 0.0000

Residual standard error: 0.02832 on 73 degrees of freedom

Multiple R-Squared: 0.7868

F-statistic: 269.4 on 1 and 73 degrees of freedom, the p-value is 0

5 observations deleted due to missing values

L’analyse des données transformées permet d’expliquer 10% de plus de la variation de la variable dépendante (from .687 to .787).

Si one examine les données pour évaluer si les conditions d’application de la régression sont rencontrées, on obtient d’abord un diagramme de dispersion entre FKLNGTH et AGE sur une échelle logarithmique:

La relation est plus linéaire. Le test de normalité des résidus donne KS = .0775, p = 0.5, donc les résidus sont normaux. Le graphique des résidus normalisés donne:

1016 7 8 9 2 3 4 5

AGE

101

102

2

3

4

5

6

7

8

9

FKLN

GTH

LABO- CORRÉLATION LINÉAIRE ET RÉGRESSION LINÉAIRE SIMPLE - 215

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Il y a donc du progrès, mais ce n’est pas encore idéal.

On peut essayer d’enlever des valeurs extrêmes. Si on refait l’analyse en enlevant une valeur extrême (cas numéro 4; inscrivez le code suivant dans le champ Subset rows with du panneau Model dans la boîte de dialogue Linear Regression: C(1:3, 5:80)), on obtient:

*** Linear Model ***

Call: lm(formula = log10(FKLNGTH) ~ log10(AGE), data = Reg1dat, subset =

c(1:3,

5:80), na.action = na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.06943 -0.01773 0.0008665 0.01872 0.06992

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 1.2244 0.0251 48.7143 0.0000

log10(AGE) 0.3149 0.0199 15.7962 0.0000

Residual standard error: 0.02653 on 72 degrees of freedom

Multiple R-Squared: 0.7761

F-statistic: 249.5 on 1 and 72 degrees of freedom, the p-value is 0

5 observations deleted due to missing values

Il n’y a pas de grand changement. Les coefficients tombent à l’intérieur des intervalles de confiance à 95% calculés précédemment. Bref, l’analyse des données transformées est nettement plus satisfaisante que celle des données brutes.

Fitted : log10(AGE)

Res

idua

ls

1.50 1.55 1.60 1.65 1.70 1.75

-0.0

50.

00.

05

20

53

4

216 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Programme S-PLUS pour l’exercice de régression### Regressions

### Scatter with LOESS

plot(loess(FKLNGTH~AGE, data=Reg1dat, na.action=na.exclude))

points(Reg1dat$AGE, Reg1dat$FKLNGTH)

### Regression

lm(Reg1dat$FKLNGTH~Reg1dat$AGE, na.action=na.exclude)

qqnorm(resid(lm(Reg1dat$FKLNGTH~Reg1dat$AGE,

na.action=na.exclude)))

qqline(resid(lm(Reg1dat$FKLNGTH~Reg1dat$AGE,

na.action=na.exclude)))

plot(fitted(lm(Reg1dat$FKLNGTH~Reg1dat$AGE,

na.action=na.exclude)),resid(lm(Reg1dat$FKLNGTH~Reg1dat$AGE,

na.action=na.exclude)))

### Regression on transformed data, scatter plot of

log10tranformed data, residuals plots, ks.gof on residuals

lm(log10(Reg1dat$FKLNGTH)~log10(Reg1dat$AGE),

na.action=na.exclude)

qqnorm(resid(lm(log10(Reg1dat$FKLNGTH)~log10(Reg1dat$AGE),

na.action=na.exclude)))

qqline(resid(lm(log10(Reg1dat$FKLNGTH)~log10(Reg1dat$AGE),

na.action=na.exclude)))

plot(fitted(lm(log10(Reg1dat$FKLNGTH)~log10(Reg1dat$AGE),

na.action=na.exclude)),resid(lm(log10(Reg1dat$FKL-

NGTH)~log10(Reg1dat$AGE), na.action=na.exclude)))

ks.gof(resid(lm(log10(Reg1dat$FKLNGTH)~log10(Reg1dat$AGE),

na.action=na.exclude)))

### Regression with outlier removed on log-transformed data c(1:3,

5:80)

lm(log10(Reg1dat$FKLNGTH)~log10(Reg1dat$AGE),

na.action=na.exclude, subset= c(1:3, 5:80))

LABO- ANCOVA - 217

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Labo- ANCOVAAprès avoir complété cet exercice de laboratoire, vous devriez pouvoir :

• Utiliser S-PLUS pour éprouver l'hypothèse d'égalité des pentes de plusieurs régressions linéaires simples

• Utiliser S-PLUS pour faire une analyse de covariance (ANCOVA)

• Utiliser S-PLUS pour vérifier les conditions préalables à l'ANCOCA

• Utiliser S-PLUS pour comparer l’ajustement de modèles statisti-ques

Homogénéité des pentesPour répondre à de nombreuses questions biologiques il est nécessaire de déterminer si deux (ou plus de deux) régressions diffèrent significativement. Par exemple, pour comparer l'efficacité de deux insecticides on doit comparer la relation entre leur dose et la mortalité. Ou encore, pour comparer le taux de croissance des mâles et des femelles on doit comparer la relation entre la taille et l'âge des mâles et des femelles. Comme chaque régression linéaire est décrite par deux paramètres, la pente et l'ordonnée à l'origine, on doit considérer les deux dans la comparaison. Le modèle d'ANCOVA, à strictement parler, n'éprouve que l'hypothèse d'égalité des ordonnées à l'origine. Cependant, avant d'ajuster ce modèle, il faut éprouver l'hypothèse d'égalité des pentes (homogénéité des pentes).

En utilisant les données du fichier ANC1DAT.SDD, éprouvez l'hypothèse que le taux de croissance des esturgeons mâles et femelles de The Pas est le même (données de 1978-1980). Pour les besoins de cet exercice, nous utiliserons la pente de la relation entre le logarithme base 10 de la longueur à la fourche (LFKL) et le logarithme de l'âge (LAGE) comme mesure du taux de croissance. Allez à Statistics, ANOVA, Fixed effects, inscrivez LFKL comme variable dépendante (Dependent) et LAGE et SEX comme variables indépendantes. L’expression dans le champ Formula devrait apparaitre comme: LFKL~SEX*LAGE, ou LFKL~SEX+ LAGE+SEX:LAGE. Assurez-vous de sauvegarder les résidus, de produire le diagramme des résidus comme d’habitude, et sélection-nez Type III sums of squares comme résultat de sortie. Que concluez-vous ?

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

218 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

SEX 1 0.0004089 0.0004089 0.5043 0.4794836

LAGE 1 0.1432274 0.1432274 176.6501 0.0000000

SEX:LAGE 1 0.0002730 0.0002730 0.3367 0.5632277

Residuals 88 0.0713501 0.0008108

Probabilité que le terme LAGE*SEX n’affecte pas la longueur à la fourche (i.e. que la pente ne diffère pas entre les sexes, et que la différence de tailel entre les mâles et femelles ne varie pas avec l’âge)

À partir de cette analyse, on devrait acceptrer les hypothèses nulles (1) d’égalité des pentes pour les deux sexes, et (2) que les ordonnées à l’origine sont les mêmes pour les deux sexes. Mais, avant d’accepter ces conclusions, il faut vérifier si les données rencontrent les conditions d’application, comme d’habitude...

En ce qui concerne la normalité, ça a l’air d’aller quoiqu’il y a quelques points, en haut à droite, qui dévient de la droite. Si on effectue le test de Lilliefors (KS=0.0596), on obtient une probabilité de 0.5, ce qui confirme que les résidus sont distribués normalement. Il n’y a pas de tendance évidente dans les résidus normalisés non plus. Cependant, il

1

1

Quantiles of Standard Normal

Res

idua

ls

-2 -1 0 1 2

-0.1

0-0

.05

0.0

0.05

50 19

49

Fitted : SEX * LAGE

Res

idua

ls

1.55 1.60 1.65 1.70 1.75

-0.1

0-0

.05

0.0

0.05

50 19

49

LABO- ANCOVA - 219

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

faut vérifier aussi que les variances sont homogènes entre les niveaux de la variable discontinue (ici SEX). Un graphique des résidus en fonction des valeurs prédites pour chaque sexe donne:

Les variances ont l’air similaires sur ces graphiques. Pour s’en assurer on peut aussi faire le test de Levene (n’oubliez pas que le test de Levene est fait sur les valeurs absolues des résidus):

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

SEX 1 0.00038468 0.0003846798 1.368517 0.2451554

Residuals 90 0.02529831 0.0002810923

La dernière condition d’application est que la variable continue indépendante (LAGE) est mesurée sans erreur. On ne peut vérifier cela par un test. Pour vérifier cela il faudrait avoir plusieurs estimés de l’âge de chaque poissons (par exemple des estimés obtenus par différentes méthodes ou des chercheurs différents).

Vous noterez qu'il y a une observation qui a un résidu normalisé (stu-dentized residual) qui est élevé, i.e. une valeur extrême (cas numéro 49). Éliminez-la de l'ensemble de données et refaites l'analyse. Vos conclusions changent-elles ?

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

SEX 1 0.0003782 0.0003782 0.5273 0.4696905

LAGE 1 0.1443479 0.1443479 201.2725 0.0000000

SEX:LAGE 1 0.0002248 0.0002248 0.3135 0.5770053

Residuals 87 0.0623943 0.0007172

La conclusion ne change pas après avoir enlevé la valeur extrême. Comme on a pas de bonne raison d’éliminer cette valeur, il est probablement mieux de la conserver. Un examen des conditions d’application après avoir enlevé cette valeur révèle qu’elles sont toutes rencontrées.

1.55 1.60 1.65 1.70 1.75 1.80fit

-0.10

-0.10

resi

dual

s

SEX: female

SEX: male

220 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Le fichier ANC3DAT.SDD contient des données sur des esturgeons mâles de deux sites (LOCATE): Lake of the Woods dans le Nord-Ouest de l'Ontario et Chruchill River dans le Nord du Manitoba. En utilisant la même procédure, éprouvez l'hypothèse que la pente de la régression de LFKL sur LAGE est la même aux deux sites (alors LOCATE est la vari-able en catégories et non pas SEX). Que concluez-vous ?

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

LAGE 1 0.07795090 0.07795090 133.5655 0.0000000000

LOCATE 1 0.00968260 0.00968260 16.5907 0.0001011931

LAGE:LOCATE 1 0.00909005 0.00909005 15.5754 0.0001591604

Ici, on rejette les hypothèses nulles (1) que les pentes sont les mêmes dans les deux sites et (2) que les ordonnées à l’origine sont égales, En d’autres mots, si on veut prédire la longueur à la fourche d’un esturgeon à un âge donné précisément, il faut savoir de quel site il provient. Puisque les pentes diffèrent, il faut estimer des régressions séparées.

Si on examine les résidus selon les méthodes habituelles, on voit qu’il n’y a pas de problème de linéarité, ni de normalité (KS = .084, p = .103) même si ce dernier test a considérablement de puissance (N = 92) . Cependant, le test de Levene suggère la présence d’hétéroscédasticité (F = 3.14, p = .08). Cela est encore plus évident lorsque l’on estime des régresisons séparées (il faut faire des analyses sur les sous-ensembles des données, soit que LOCATE=="LofW" and LOCATE=="Nelson"):

*** Linear Model ***

Call: lm(formula = LFKL ~ LAGE, data = Anc3dat, subset = LOCATE == "LofW",

na.action

= na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.05801 -0.02106 -0.000909 0.02386 0.03998

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 1.2284 0.0397 30.9681 0.0000

LAGE 0.3253 0.0299 10.8819 0.0000

Residual standard error: 0.02562 on 52 degrees of freedom

Multiple R-Squared: 0.6949

F-statistic: 118.4 on 1 and 52 degrees of freedom, the p-value is 5.218e-015

*** Linear Model ***

Call: lm(formula = LFKL ~ LAGE, data = Anc3dat, subset = LOCATE == "Nelson",

na.action = na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.04155 -0.01185 -0.0004037 0.01543 0.0389

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 1.4491 0.0355 40.8202 0.0000

LAGE 0.1597 0.0281 5.6729 0.0000

LABO- ANCOVA - 221

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Residual standard error: 0.02187 on 36 degrees of freedom

Multiple R-Squared: 0.472

F-statistic: 32.18 on 1 and 36 degrees of freedom, the p-value is 1.902e-006

La pente pour Lake of the Woods est près du double de celle pour la rivière Nelson, et l’ordonnée à l’origine est beaucoup plus petite. Notez que l’IC à 95% pour les pentes et les ordonnées à l’origines ne se chevauchent pas (vous pouvez calculer les IC à la main ou en utilisant la commande S-PLUS qui suit ). La conclusion qualitative obtenue à l’examen du modèle complet est donc supportée: Les esturgeons grandissent plus vite dans Lake of the Woods que dans la rivière Neslson.

Le modèle d'ANCOVASi le test d'homogénéité des pentes indique qu'elles diffèrent, alors on devrait estimer des régressions individuelles pour chaque niveau des variables discontinues. Cependant, si on accepte l'hypothèse d'égalité des pentes, l'étape suivante est de comparer les ordonnées à l'origine.

En utilisant les données du fichier ANC1DAT.SDD, éprouvez l'hypothèse d'égalité des ordonnées à l'origine entre les mâles et les femelles en allant à Statistics, ANOVA, Fixed Effects et en inscrivant LFKL comme variable dépendante (Dependent) et LAGE et SEX comme variables

Commandes S-PLUS pour générer les intervalles de confiance### Code to compute confidence intervals on a simple regression

test <- gls(LFKL ~ LAGE, Anc3datsplit.LofW)

intervals(test)

### Code to compute confidence intervals on an Ancova

test2 <- lmList(LFKL ~ LAGE|LOCATE, Anc3dat)

intervals(test2)

1.0 1.2 1.4 1.6 1.8LAGE

1.62

1.74

1.62

1.74

LFK

L

LOCATE: LofW

LOCATE: Nelson

222 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

indépendantes LFKL~LAGE+SEX (notez bien qu’il n’y a pas de terme d’intéraction ici). Comme toujours, sauvegardez les résidus, faites les diagrammes des résidus appropriés, et cliquez sur Type III sums of squares pour le fichier de sortie . Que concluez-vous ?

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

LAGE 1 0.1433772 0.1433772 178.1627 0.0000000

SEX 1 0.0014899 0.0014899 1.8513 0.1770653

Residuals 89 0.0716231 0.0008048

On accepte l’hypothèse nulle que les ordonnées à l’origine sont les mêmes pour les deux sexes. Si on examine les résidus, on voit qu’il n’y a pas de problème de linéarité, d’indépendance, d’homogénéité des variances (F = 1.49, p = 0.23), ni de normalité (KS =0 .53, p = 0.73).

En examinant le fichier de sortie, vous noterez qu’il y a trois observa-tions dont la valeur absolue du résidu est grande (cas 19, 49, et 50). Ces observations pourraient avoir un effet disproportionné sur les résultats de l'analyse. Éliminez-les et refaites l'analyse. Les conclusions changent-elles ?

Type III Sum of Squares

Df Sum of Sq Mean Sq F Value Pr(F)

LAGE 1 0.1399208 0.1399208 243.0946 0.00000000

SEX 1 0.0023238 0.0023238 4.0374 0.04763881

Residuals 86 0.0495000 0.0005756

Ouch! Les résultats changent. Il faudrait donc rejeter l’hypothèse nulle et conclure que les ordonnées à l’origine diffèrent! Une conclusion qualitativement différente de celle obtenue en considérant toutes les données. Pourquoi? Il y a deux raisons possibles : (1) les valeurs extrêmes influencent beaucoup les régressions ou (2) l’exclusion des valeur extrêmes permet d’augmenter la puissance de détection d’une différence. La première explication est moins plausible parce que les valeurs extrêmes n’avaient pas une grande influence (leverage faible). Alors, la deuxième explication est plus plausible et vous pouvez le vérifier en faisant des regressions pour chaque sexe sans et avec les valeurs extrêmes. Si vous le faites, vous noterez que les ordonnées à l’origine pour chaque sexe ne changent presque pas alors que leurs erreurs-types changent beaucoup.

En utilisant Statistics, Regression, Linear, ajustez une régression sim-ple entre LFKL et LAGE pour l'ensemble complet de données et aussi pour le sous-ensemble sans les 3 valeurs déviantes. Comparez ces modèles avec les modèles d'ANCOVA ajustés précédemment. Que concluez-vous ? Quel modèle, d'après vous, a le meilleur ajustement aux données ? Pourquoi ?

La modèle en excluant les valeurs extrêmes:

LABO- ANCOVA - 223

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

*** Linear Model ***

Call: lm(formula = LFKL ~ LAGE, data = Anc1dat, subset = c(1:18, 20:48,

51:92),

na.action = na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.05557 -0.01781 -0.002944 0.02127 0.04497

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 1.2038 0.0267 45.0888 0.0000

LAGE 0.3408 0.0205 16.5901 0.0000

Residual standard error: 0.02441 on 87 degrees of freedom

Multiple R-Squared: 0.7598

F-statistic: 275.2 on 1 and 87 degrees of freedom, the p-value is 0

Pour la régression simple (sans les valeurs extrèmes) on obtient un R2 de 0.76 et une erreur-type des résidus de 0.02441, ce qui correspond à une variance des résidus de 0.024412=0.0005958. En comparant à la variance des résidus du modèle d’ANCOVA (0.0005756) on réalise que la qualité des prédictions est essentiellement la même, même en ajustant des ordonnées à l’origine différentes pour chaque groupe. Par conséquent, les bénéfices de l’inclusion d’un terme pour les différentes ordonnées à l’origine sont faibles alors que le coût, en terme de complexité du modèle, est élevé (33% d’augmentation du nombre de termes pour un très faible amélioration de la qualité d’ajustement). SI vous examinez les résidus de ce modèle, vous trouverez qu’ils sont à peu près O.K.)

Si on ajuste une régression simple sur toutes les données, on obtient:*** Linear Model ***

Call: lm(formula = LFKL ~ LAGE, data = Anc1dat, na.action = na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.09092 -0.01897 -0.002587 0.02127 0.08527

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 1.2106 0.0309 39.1910 0.0000

LAGE 0.3361 0.0238 14.1439 0.0000

Residual standard error: 0.0285 on 90 degrees of freedom

Multiple R-Squared: 0.6897

F-statistic: 200.1 on 1 and 90 degrees of freedom, the p-value is 0

Encore une fois, la variance des résidus (0.00081225) pour cette régression unique est semblable à la variance du modèle d’ANCOVA (0.0008048) et le modèle simplifié prédit presque aussi bien que le modèle plus complexe. (Ici encore, toutes les conditions d’application semblent remplies, si ce n’est de la valeur extrême).

224 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Donc, dans les deux cas (avec ou sans les valeurs extrêmes), l’addition d’un terme supplémentaire pour le sexe n’ajoute pas grand chose. Il semble donc que le meilleur modèle soit celui de la régression simple. Un estimé raisonablement précis de la taille des esturgeons peut être obtenu de la régression commune sur l’ensemble des résultats.

Note: Il est fréquent que l’élimination de valeurs extrêmes en fasse apparaître d’autres. C’est parce que ces valeurs extrêmes dépendent de la variabilité résiduelle. Si on élimine les valeurs les plus déviantes, la variabilité résiduelle diminue, et certaines observation qui n’étaient pas si déviantes que cela deviennent proportionnellement plus déviantes. Notez aussi qu’en éliminant des valeurs extrêmes, l’effectif diminue et que la puissance décroît. Il faut donc être prudent.

Comparer l’ajustement de modèlesComme vous venez de le voir, le processus d’ajustement de modèles est itératif. La plupart du temps il y a plus d’un modèle qui peut être ajusté aux données et c’est à vous de choisir celui qui est le meilleur compromis entre la qualité d’ajustement (qu’on essaie de maximiser) et la complexité (qu’on essaie de minimiser). La stratégie de base en ajustant des modèles linéaires (ANOVA, régression, ANCOVA) est de privilégier le modèle le plus simple si la qualité d’ajustement n’est pas significativement plus mauvaise. S-PLUS peut calculer une statistique F vous permettant de comparer l’ajustement de deux modèles. Dans ce cas, l’hypothèse nulle est que la qualité d’ajustement ne diffère pas entre les deux modèles.

En utilisant les données de ANC1DAT ajustez le modèle d’ANCOVA LFKL~LAGE+SEX. Dans le champ Save Model Object, Save As donnez un nom au modèle à sauvegarder (ANC1ANCOVA) et cliquez sur OK. Ensuite, ajsutez la régression simple sur ces données (LFKL~LAGE) et dans le champ Save Model Object, Save As nommez le modèle (ANC1REGRESSION) et cliquez sur OK. Finalement, à l’option Statistics, Compare Models CTRL-cliquez pour sélectionner les deux obets-modèles que vous venez de sauvegarder et accepter toutes les valeurs par défaut avant de cliquer sur OK.

Analysis of Variance Table

Response: LFKL

Terms Resid. Df RSS Test Df Sum of Sq F Value Pr(F)

1 LAGE + SEX 89 0.07162312

2 LAGE 90 0.07311298 -SEX -1 -0.001489861 1.851324 0.1770653

LABO- ANCOVA - 225

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

La routine Compare Models utilise la différence entre la somme des carrés des deux modèles et la divise par la différence entre le nombre de degrés de liberté pour obtenir un carré moyen. Ce carré moyen est utilisé au numérateur et est divisée par la variance résiduelle du modèle le plus complexe pour obtenir la statistique F. Dans ce cas-ci, le test de F n’est pas significatif, et on conclue que les deux modèles ont une qualité d’ajustement équivalente, et qu’on devrait donc privilégier le modèle le plus simple, la régression linéaire simple.

Refaites le même processus avec le données de ANC3DAT, ajustez le modèle complet avec intéraction (LFKL~LAGE+LOCATE+LAGE:LOCATE) et sans interaction (LFKL~LAGE+LOCATE), Comparez l’ajustement des deux modèles, que concluez vous?

Analysis of Variance Table

Response: LFKL

Terms Resid. Df RSS Test Df

1 LOCATE + LAGE + LOCATE:LAGE 88 0.05135815

2 LOCATE + LAGE 89 0.06044821 -LOCATE:LAGE -1

Sum of Sq F Value Pr(F)

1

2 -0.009090052 15.57541 0.0001591604

Cette fois-ci, le modèle plus complexe s’ajuste significativement mieux aux données. (Pas surprenant puisque nous avions précédemment conclu que l’interaction est significative avec ces données.)

Programme S-PLUS

### Test homogeneity of slopes and produce residuals plots

ssType3(aov(LFKL~LAGE*SEX, data=Anc1dat, na.action=na.exclude))

qqnorm(resid(aov(LFKL~LAGE*SEX, data=Anc1dat, na.action=na.exclude)))

qqline(resid(aov(LFKL~LAGE*SEX, data=Anc1dat, na.action=na.exclude)))

plot((resid(aov(LFKL~LAGE*SEX, data=Anc1dat, na.action=na.exclude))), fit-

ted((aov(LFKL~LAGE*SEX, data=Anc1dat, na.action=na.exclude))))

### Levene's and KSgof on resids

ks.gof(resid(aov(LFKL~LAGE*SEX, data=Anc1dat, na.action=na.exclude)))

ssType3(aov(abs(resid(aov(LFKL~SEX*LAGE, data=Anc1dat,

na.action=na.exclude)))~SEX, data=Anc1dat, na.action=na.exclude))

### Run individual regressions

lm(LFKL~LAGE, data=Anc1dat, subset=SEX=='male')

lm(LFKL~LAGE, data=Anc1dat, subset=SEX=='female')

### Rerun with outlier (case 49) removed

ssType3(aov(LFKL~LAGE*SEX, data=Anc1dat, subset=c(1:48, 50:92),

na.action=na.exclude))

### Look at homogeneity of slopes for Anc3dat

ssType3(aov(LFKL~LAGE*LOCATE, data=Anc3dat, na.action=na.exclude))

ks.gof(resid(aov(LFKL~LAGE*LOCATE, data=Anc3dat, na.action=na.exclude)))

ssType3(aov(abs(resid(aov(LFKL~LOCATE*LAGE, data=Anc3dat,

na.action=na.exclude)))~LOCATE, data=Anc3dat, na.action=na.exclude))

226 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

### Run invidual regressions

lm(LFKL~LAGE, data=Anc3dat, subset=LOCATE=='LofW')

lm(LFKL~LAGE, data=Anc3dat, subset=LOCATE=='Nelson')

### Make plots of individual regressions

par(mfrow=c(1,2), pty='s')

plot(Anc3dat$LAGE, Anc3dat$LFKL, subset=Anc3dat$LOCATE=='LofW')

abline(lm(LFKL~LAGE, data=Anc3dat, subset=LOCATE=='LofW'))

text(locator(1), "Lake of the Woods")

### you will have to click on the location of the plot that you want the

text to appear before SPLUS will proceed

plot(Anc3dat$LAGE, Anc3dat$LFKL, subset=Anc3dat$LOCATE=='Nelson')

abline(lm(LFKL~LAGE, data=Anc3dat, subset=LOCATE=='Nelson'))

text(locator(1), "Nelson")

### you will have to click on the location of the plot that you want the

text to appear before SPLUS will proceed

par(mfrow=c(1,1))

### The ANCOVA model on Anc1dat

ssType3(aov(LFKL~LAGE+SEX, data=Anc1dat, na.action=na.exclude))

### Levene's and KSgof on resids

ks.gof(resid(aov(LFKL~LAGE+SEX, data=Anc1dat, na.action=na.exclude)))

ssType3(aov(abs(resid(aov(LFKL~SEX+LAGE, data=Anc1dat,

na.action=na.exclude)))~SEX, data=Anc1dat, na.action=na.exclude))

### Rerun with outliers removed

ssType3(aov(LFKL~LAGE+SEX, data=Anc1dat, subset=c(1:18, 20:48, 51:92),

na.action=na.exclude))

### Fit regression to subset of data:

lm(LFKL~LAGE, data=Anc1dat, subset=c(1:18, 20:48, 51:92))

### Fit regression to all Anc1dat data:

lm(LFKL~LAGE, data=Anc1dat)

### Compare Anc1dat ancova and regression models

Anc1ancova <- aov(LFKL~LAGE+SEX, data=Anc1dat, na.action=na.exclude)

Anc1regression <- lm(LFKL~LAGE, data=Anc1dat)

anova(Anc1ancova, Anc1regression)

### Compare Anc3dat full and ancova models

Anc3ancova <- aov(LFKL~LAGE*LOCATE, data=Anc3dat, na.action=na.exclude)

Anc3ancova.sub <- aov(LFKL~LAGE+LOCATE, data=Anc3dat, na.action=na.exclude)

anova(Anc3ancova, Anc3ancova.sub)

LABO- RÉGRESSION MULTIPLE - 227

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Labo- Régression multipleAprès avoir complété cet exercice de laboratoire, vous devriez pouvoir :

• Utiliser S-PLUS pour faire une régression multiple et utiliser les algorithmes de sélection pas à pas rétrograde (backward stepwise) et agglomérative (forward stepwise) de sélection des variables indépendantes pour sélectionner le “meilleur” modèle.

• Utiliser S-PLUS pour éprouver des hypothèses sur l'effet des variables indépendantes sur la variable dépendante.

• Utiliser S-PLUS pour évaluer la multicolinéarité entre les variables indépendantes et en évaluer ses effets.

• Utiliser S-PLUS pour effectuer une régression curvilinéaire (poly-nomiale).

Conseils générauxLes variables qui intéressent les biologistes sont généralement influencées par plusieurs facteurs, et une description exacte ou une prédiction de la variable dépendante requiert que plus d'une variable soit incluse dans le modèle. La régression multiple permet de quantifier l'effet de plusieurs variables continues sur la variable dépendante.

Il est important de réaliser que la maîtrise de la régression multiple ne s'acquiert pas instantanément et que c'est un art autant qu'une science. Les débutants doivent garder à l'esprit plusieurs points importants :

1. Un modèle de régression multiple peut être hautement significatif même si aucun des termes pris isolément ne l'est,

2. Un modèle peut ne pas être significatif alors que l'un ou plusieurs des termes l'est et

3. À moins que les variables indépendantes soient parfaitement orthogonales (c'est-à-dire qu'il n'y ait aucune corrélation entre elles) les diverses approches de sélection des variables indépen-dantes peuvent mener à des modèles différents.

Sélection des variables indépendantesCommençons par un cas avec une variable dépendante et 3 variables qui sont possiblement indépendantes. Nous allons d’abord construire manuellement un modèle de régression multiple en utilisant les

228 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

connaissances acquises en régression linéaire simple. Ensuite, on utilisera les méthodes automatisées pour construire les modèles pas à pas par sélection progressive (forward selection) our élimination rétrograde (backward stepwise).

Construire manuellement un modèle de régression multiple

Le fichier MREGDAT.SDD contient des données de richesse spécifique de quatre groupes d'organismes dans 30 marais de la région Ottawa-Cornwall-Kingston. Les variables sont la richesse spécifique des oiseaux (BIRD, et son logarithme base 10 LOGBIRD), des mammifères (MAMMAL, LOGMAM), des amphibiens et reptiles (HERPTILE, LOGHERP) et celle des vertébrés (TOTSP, LOGTOT) ; les coordonnées des sites (LAT, LONG) ; la superficie du marais (LOGAREA), le pourcentage du marais inondé toute l'année (SWAMP) le pourcentage des terres couvertes par des forêts dans un rayon de 1km du marais (CPFOR2) et la densité des routes pavées (en m/ha) dans un rayon de 1km du marais (THTDEN).

En utilisant les données de ce fichier, faites la régression simple de LOGHERP sur LOGAREA en allant à Statistics, Regression, Linear et en inscrivant LOGHERP comme la variable dépendante et LOGAREA comme la variable indépendante (LOGHERP~LOGAREA). Que concluez-vous à partir de cette analyse?

*** Linear Model ***

Call: lm(formula = LOGHERP ~ LOGAREA, data = Mregdat, na.action = na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.3808 -0.09265 0.00763 0.1041 0.4698

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 0.1850 0.1573 1.1766 0.2500

LOGAREA 0.2474 0.0654 3.7843 0.0008

Residual standard error: 0.1856 on 26 degrees of freedom

Multiple R-Squared: 0.3552

F-statistic: 14.32 on 1 and 26 degrees of freedom, the p-value is 0.0008185

2 observations deleted due to missing values

Il semble donc y avoir une relation positive entre la richesse spécifique des reptiles et des amphibiens et la surface des marais. La régression n’explique cependant qu’environ le tiers de la variabilité (R2=.355). L’analyse des résidus indique qu’il n’y a pas de problème avec la normalité (KS=0.099, p=.0.5), l’homoscédasticité, ni l’indépendance.

Faites ensuite la régression de LOGHERP sur CPFOR2. Que concluez-vous?

*** Linear Model ***

Call: lm(formula = LOGHERP ~ CPFOR2, data = Mregdat, na.action = na.exclude)

LABO- RÉGRESSION MULTIPLE - 229

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Residuals:

Min 1Q Median 3Q Max

-0.4909 -0.1027 0.05881 0.1603 0.2516

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 0.6092 0.1042 5.8446 0.0000

CPFOR2 0.0027 0.0017 1.6317 0.1148

Residual standard error: 0.2202 on 26 degrees of freedom

Multiple R-Squared: 0.09289

F-statistic: 2.662 on 1 and 26 degrees of freedom, the p-value is 0.1148

2 observations deleted due to missing values

Ici, on doit accepter l’hypothèse nulle et conclure qu’il n’y a pas de relation entre la richesse spécifique dans les marais et la proportion de forêts sur les terres adjacentes. Qu’est ce qui arrive quand on fait une regression avec les 2 variables indépendentes?

Refaites la régression de LOGHERP sur LOGAREA et CPFOR2 à la même fois, soit que LOGHERP~LOGAREA+CPFOR2. Que concluez-vous?

*** Linear Model ***

Call: lm(formula = LOGHERP ~ LOGAREA + CPFOR2, data = Mregdat, na.action =

na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.4044 -0.1151 0.01774 0.08187 0.3618

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 0.0271 0.1667 0.1623 0.8724

LOGAREA 0.2478 0.0616 4.0224 0.0005

CPFOR2 0.0027 0.0013 2.0670 0.0492

Residual standard error: 0.175 on 25 degrees of freedom

Multiple R-Squared: 0.4493

F-statistic: 10.2 on 2 and 25 degrees of freedom, the p-value is 0.0005774

2 observations deleted due to missing values

On voit donc qu’on peut rejeter les 2 hypothèses nulles que la pente de la regression de LOGHERP sur LOGAREA est zéro et que la pente de la regression de LOGHERP sur CPFOR2 est zéro.

Pourquoi CPFOR2 devient-il un facteur significatif dans la régression multiple alors qu’il n’est pas significatif dans la régression simple? Parce qu’il est parfois nécessaire de contrôler pour l’effet d’une variable pour pouvoir détecter les effets plus subtils d’autres variables. Ici, il y a une relation significative entre LOGHERP et LOGAREA qui masque l’effet de CPFOR2 sur LOGHERP. Lorsque le modèle tient compte des deux variables explicatives, il devient possible de détecter l’effet de CPFOR2.

Ajustez un autre modèle, cette fois en remplaçant CPFOR2 par THTDEN (LOGHERP~LOGAREA+THTDEN). Que concluez-vous?

*** Linear Model ***

230 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Call: lm(formula = LOGHERP ~ LOGAREA + THTDEN, data = Mregdat, na.action =

na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.3158 -0.1233 0.02095 0.132 0.3167

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 0.3763 0.1493 2.5213 0.0184

LOGAREA 0.2250 0.0570 3.9473 0.0006

THTDEN -0.0420 0.0135 -3.1184 0.0045

Residual standard error: 0.1606 on 25 degrees of freedom

Multiple R-Squared: 0.5358

F-statistic: 14.43 on 2 and 25 degrees of freedom, the p-value is 0.00006829

2 observations deleted due to missing values

On rejette donc l’hypothèse nulle que la richesse spécifique n’est pas influencée par la taille des marais ni par la densité des routes. Notez qu’ici il y a une relation négative significative entre la richesse spécifique des amphibiens et reptiles et la densité des routes sur les terres adjacentes, tandis que la relation est postive pour la taille des marais et pour la densité des forêts (CPFOR2; résultat de la derniêre regression).

Le R2 de ce modèle est plus élevé que pour le précédent, reflétant un corrélation plus forte entre LOGHERP et THTDEN qu’entre LOGHERP et CPFOR2.

La richesse spécifique des reptiles et amphibiens semble donc reliée à la surface de marais (LOGAREA), la densité des routes (THTDEN), et possiblement au couvert forestier sur les terres adjacentes aux marais (CPFOR2). Cependant, les trois variables ne sont peut-être pas nécessaires dans un modèle prédictif. Si deux des trois variables (disons CPFOR2 et THTDEN) sont parfaitement corrélées, alors l’effet de THTDEN ne serait rien de plus que celui de CPFOR2 (et vice-versa) et un modèle incluant l’une des deux variables ferait des prédictions identiques à un modèle incluant ces deux variables (en plus de LOGAREA).

Calculez les corrélations entre LOGAREA, CPFOR2 et THTDEN. En vous basant sur tous les résultats à date, quelle est votre conclusion? Pour-quoi?

*** Correlations for data in: Mregdat ***

LOGAREA CPFOR2 THTDEN

LOGAREA 1.00000000 0.07604783 -0.2010171

CPFOR2 0.07604783 1.00000000 -0.5593278

THTDEN -0.20101713 -0.55932777 1.0000000

La corrélation entre CPFOR2 et THTDEN est r = -.559, et on peut y associer une probabilité par:

LABO- RÉGRESSION MULTIPLE - 231

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

>cor.test(MREGDAT$CPFOR2, MREGDAT$THTDEN),

pour obtenir que p = .001 (ou 0.003 si on fait une correction de Bonferroni pour les trois corrélations). Ces deux variables sont négativement reliées: plus il y a de routes, moins il reste de forêt.

Cette corrélation suggère qu’une partie de l’effet attribué à THTDEN peut être en fait le reflet de l’effet de CPFOR2, et vice-versa. Donc, on peut s’attendre à ce que dans un modèle de régression multiple contenant les trois variables indépendantes, une des deux variables ne sera pas significative. On peut même s’attendre à ce que ce soit CPFOR2 puisque la relation entre LOGHERP et CPFOR2, corrigée pour LOGAREA est plus faible que celle entre LOGHERP et THTDEN.

Estimez un modèle de régression avec LOGHERP comme variable dépendante et LOGAREA, CPFOR2 et THTDEN comme variables indépen-dantes. Que concluez-vous?

*** Linear Model ***

Call: lm(formula = LOGHERP ~ LOGAREA + CPFOR2 + THTDEN, data = Mregdat,

na.action =

na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.3073 -0.1378 0.02627 0.1144 0.2958

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 0.2848 0.1914 1.4876 0.1499

LOGAREA 0.2285 0.0576 3.9636 0.0006

CPFOR2 0.0011 0.0014 0.7740 0.4465

THTDEN -0.0358 0.0157 -2.2761 0.0321

Residual standard error: 0.1619 on 24 degrees of freedom

Multiple R-Squared: 0.5471

F-statistic: 9.662 on 3 and 24 degrees of freedom, the p-value is 0.0002291

2 observations deleted due to missing values

Plusieurs choses sont à noter ici:

Tel que prédit, le coefficient de régression pour CPFOR2 n’est plus significativement différent de 0. Une fois que la variabilité attribuable à LOGAREA et THTDEN est enlevée, il ne reste qu’une fraction non-significative de la variabilité attribuable à CPFOR2.

Le R2 pour ce modèle(.547) n’est que légèrement supérieur au R2 du modèle avec seulement LOGAREA et THTDEN (.536), ce qui confirme que CPFOR2 n’explique pas grand chose de plus.

Notez aussi que même si le coefficient de régression pour THTDEN n’a pas beaucoup changé par rapport à ce qui avait été estimé lorsque seul THTDEN et LOGAREA étaient dans le modèle (-.036 vs -.042), l’erreur type pour l’estimé du coefficient est plus grand et ce modèle plus complexe

1

2

1

2

232 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

mène à un estimé moins précis. Si la corrélation entre THTDEN et CPFOR2 était plus forte, la décroissance de la précision serait encore plus grande.

On peut comparer les deux derniers modèles (i.e., tle modèle incluant les 3 variables et celui avec seulement LOGAREA and THTDEN) pour décider lequel privilégier.

Recalculez les deux modèle en les sauvegardant (Save Model Object, Save As...). Puis, en utilisant Statistics, Compare Models, CTRL-cliquez pour sélectionner les deux objets sauvegardés pour obtenir:

Analysis of Variance Table

Response: LOGHERP

Terms Resid. Df RSS Test Df Sum of Sq

1 LOGAREA + THTDEN + CPFOR2 24 0.6293717

2 LOGAREA + THTDEN 25 0.6450798 -CPFOR2 -1 -0.01570813

F Value Pr(F)

1

2 0.5990024 0.4465163

Cette comparaison révèle que le modèle à 3 variables ne fait pas de significativement meilleures prédictions que le modèle avec seulement LOGAREA et THTDEN. Ce résultat n’est pas surprenant puisque le test de signification pour CPFOR2 dans le modèle complet indique qu’il faut accepter l’hypothèse nulle.

À la suite de cette analyse, on doit conclure que :

1. Le meilleur modèle est celui incluant THTDEN et LOGAREA.

2. Il y a une relation négative entre la richesse spécifique des amphi-biens et reptiles et la densité des routes sur les terres adjacentes.

3. Il y a une relation positive entre la richesse spécifique et la taille des marais.

Notez que le “meilleur” modèle n’est pas nécessairement le modèle parfait, seulement le meilleur n’utilisant que ces trois variables indépendantes. Il est évident qu’il y a d’autres facteurs qui contrôlent la richesse spécifique dans les marais puisque, même le “meilleur” modèle n’explique que la moitié de la variabilité.

LABO- RÉGRESSION MULTIPLE - 233

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Régression multiple pas à pas (stepwise)

Quand le nombre de variable prédictivves est restreint, comme das l’exemple précédent, il est aisé de comparer manuellement les modèles pour sélectionner le plus adéquat. Cependant, lorsque le nombre de variables indépendantes augmente, cette approche n’est rapidement plus utilisable et il est alors utile d’utiliser une méthode automatisée.

S-Plus utilise la statistique Cp de Mallow, dérivée du Critère Informatif de Akaike (Akaike Information Criterion, AIC=n ln(RSS) + 2K où K le nombre de variable indépendantes, n est le nombre d’observations, et RSS est la somme des carrés des résidus). Cp est une statistique qui valorise la précision et pénalise la complexité. Si un terme a une statistique Cp plus asse que le modèle de départ, ce terme est enlevé du modèle. Si le Cp du modèle est déjà le plus bas, alors le modèle ne peut être amélioré en enlevant une variable.

Refaite la régression précédente (LOGHERP vs LOGAREA CPFOR2 et THT-DEN), mais cette fois en activant l'option Statistics, Regression, Step-wise.Vous devez spécifier le modèle complet dans le champ Upper Formula ( LOGHERP~LOGAREA+CPFOR2+THTDEN). Vous pouvez laisser le champ Lower Formula en blanc ou spécifier un modèle avec seule-ment une ordonnée à l’origine (LOGHERP~1). Laissez Stepping Direc-tion comme both (la valeur par defaut) et sélectionnez Print a Trace of All Fits. Cliquez sur OK.

*** Stepwise Regression ***

*** Stepwise Model Comparisons ***

Start: AIC= 0.8392

LOGHERP ~ LOGAREA + CPFOR2 + THTDEN

Single term deletions

Model:

LOGHERP ~ LOGAREA + CPFOR2 + THTDEN

scale: 0.02622382

Df Sum of Sq RSS Cp

<none> 0.629372 0.839162

LOGAREA 1 0.4119815 1.041353 1.198696

CPFOR2 1 0.0157081 0.645080 0.802423

THTDEN 1 0.1358509 0.765223 0.922566

Step: AIC= 0.8024

LOGHERP ~ LOGAREA + THTDEN

Single term deletions

Model:

LOGHERP ~ LOGAREA + THTDEN

1

2

3

4

234 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

scale: 0.02622382

Df Sum of Sq RSS Cp

<none> 0.645080 0.802423

LOGAREA 1 0.4020378 1.047118 1.152013

THTDEN 1 0.2509250 0.896005 1.000900

Single term additions

Model:

LOGHERP ~ LOGAREA + THTDEN

scale: 0.02622382

Df Sum of Sq RSS Cp

<none> 0.6450798 0.8024227

CPFOR2 1 0.01570813 0.6293717 0.8391622

*** Linear Model ***

Call: lm(formula = LOGHERP ~ LOGAREA + THTDEN, data = Mregdat, na.action =

na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.3158 -0.1233 0.02095 0.132 0.3167

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 0.3763 0.1493 2.5213 0.0184

LOGAREA 0.2250 0.0570 3.9473 0.0006

THTDEN -0.0420 0.0135 -3.1184 0.0045

Residual standard error: 0.1606 on 25 degrees of freedom

Multiple R-Squared: 0.5358

F-statistic: 14.43 on 2 and 25 degrees of freedom, the p-value is 0.00006829

On obtient donc:

L’ajustement du modèle complet en premier lieu.

La statistique Cp du modèle complet

La statistique Cp associée à CPFOR2 est 0.80, inférieure à celle du modèle complet. Cette variable est enlevée à l’étape suivante.

À la deuxième étape CPFOR2 est enlevé

La statistique Cp du modèle réduit. Notez que toutes les variables restantes ont une statistique Cp supérieure à celle de ce modèle. Par conséquent, toutes les variables sont retenues.

Le modèle final, ses coefficients, et les tests de signification. Notez que c’est le même modèle que celui auquel on était arrivé à la mitaine.

Répétez la dernière commande (Statistics, Regression, Stepwise) en sélectionnant Stepping Direction - Forward. Comparez les résultats à ce qui précède

*** Stepwise Regression ***

*** Stepwise Model Comparisons ***

Start: AIC= 1.4925

5

6

1

2

3

4

5

6

LABO- RÉGRESSION MULTIPLE - 235

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

LOGHERP ~ 1

Single term additions

Model:

LOGHERP ~ 1

scale: 0.051464

Df Sum of Sq RSS Cp

<none> 1.389528 1.492456

LOGAREA 1 0.4935233 0.896005 1.101861

CPFOR2 1 0.1290718 1.260456 1.466312

THTDEN 1 0.3424104 1.047118 1.252974

Step: AIC= 1.1019

LOGHERP ~ LOGAREA

Single term additions

Model:

LOGHERP ~ LOGAREA

scale: 0.051464

Df Sum of Sq RSS Cp

<none> 0.8960048 1.101861

CPFOR2 1 0.1307822 0.7652226 1.074007

THTDEN 1 0.2509250 0.6450798 0.953864

Step: AIC= 0.9539

LOGHERP ~ LOGAREA + THTDEN

Single term additions

Model:

LOGHERP ~ LOGAREA + THTDEN

scale: 0.051464

Df Sum of Sq RSS Cp

<none> 0.6450798 0.953864

CPFOR2 1 0.01570813 0.6293717 1.041084

*** Linear Model ***

Call: lm(formula = LOGHERP ~ LOGAREA + THTDEN, data = Mregdat, na.action =

na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.3158 -0.1233 0.02095 0.132 0.3167

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 0.3763 0.1493 2.5213 0.0184

LOGAREA 0.2250 0.0570 3.9473 0.0006

THTDEN -0.0420 0.0135 -3.1184 0.0045

Residual standard error: 0.1606 on 25 degrees of freedom

Multiple R-Squared: 0.5358

F-statistic: 14.43 on 2 and 25 degrees of freedom, the p-value is 0.00006829

236 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Le résultat final est le même, mais la trajectoire est différente. Dans ce cas, S-PLUS débute avec le modèle le plus simple et ajoute une variable indépendante à chaque étape, sélectionnat la variable ayant la valeur Cp la plus faible, si elle est inférieure à celle de modèle à cette étape.

REssayez maintenant Backward comme Stepping Direction. Cela change-t-il quelque chose?

Il est recommandé de comparer le résultat final de plusieurs approches. Si le modèle retenu diffère selon l’approche utilisée, c’est un signe que le “meilleur” modèle est possiblement difficile à identifier et que vous devriez être circonspects dans vos inférences. Dans notre exemple, pas de problème: toutes les méthodes convergent sur le même modèle final.

Pour conclure cette section, quelques conseils concernant les méthodes automatisées de sélection des variables indépendantes:

1. Les différentes méthodes de sélection des variables indépendantes peuvent mener à des modèles différents. Il est souvent utile d’essayer plus d’une méthode et de comparer les résultats. Si les résultats diffèrent, c’est presque toujours à cause de multicollinéa-rité entre les variables indépendantes.

2. Attention à la régression pas à pas. Les auteurs de SYSTATen disent: “Stepwise regression is probably the most abused compu-terized statistical technique ever devised. If you think you need automated stepwise regression to solve a particular problem, you probably don't. Professional statisticians rarely use automated stepwise regression because it does not necessarily find the "best" fitting model, the "real" model, or alternative "plausible" models. Furthermore, the order in which variables enter or leave a stepwise program is usually of no theoretical signficance. You are always better off thinking about why a model could generate your data and then testing that model.” En bref, on abuse trop souvent de cette technique.

3. Il faut toujours garder à l’esprit que l’existence d’une régression significative n’est pas suffisante pour prouver une relation causale.

Régression polynomialeLa régression requiert la linéarité de la relation entre les variables dépendante et indépendante(s). Lorsque la relation n'est pas linéaire, il est parfois possible de linéariser la relation en effectuant une transformation sur une ou plusieurs variables. Cependant, dans bien

LABO- RÉGRESSION MULTIPLE - 237

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

des cas il est impossible de transformer les axes pour rendre la relation linéaire. On doit alors utiliser une forme ou l'autre de régression non-linéaire.

La forme la plus simple de régression non-linéaire est la régression polynomiale dans laquelle les variables indépendantes sont à une puissance plus grande que 1 (Ex : X2 ou X3)

Faites un diagramme de dispersion des résidus (RESIDUAL) de la régres-sion LOGHERP-LOGAREA en fonction de SWAMP.

L'examen de ce graphique suggère qu'il y a une forte relation entre les deux variables, mais qu'elle n'est pas linéaire. Essayez de faire une régression de RESIDUAL sur SWAMP. Quelle est votre conclusion?

*** Linear Model ***

Call: lm(formula = residuals ~ SWAMP, data = Mregdat, na.action = na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.3509 -0.1382 0.003131 0.1085 0.458

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) 0.0846 0.1093 0.7740 0.4459

SWAMP -0.0011 0.0014 -0.8161 0.4219

Residual standard error: 0.1833 on 26 degrees of freedom

Multiple R-Squared: 0.02498

F-statistic: 0.666 on 1 and 26 degrees of freedom, the p-value is 0.4219

2 observations deleted due to missing values

En deux mots, l’ajustement est épouvantable! Malgré le fait que le graphique suggère une relation très forte entre les deux variables. Cependant, cette relation n’est pas linéaire... (ce qui est également apparent si vous examinez les résidus du modèle linéaire).

0 20 40 60 80 100SWAMP

-0.5

-0.3

-0.1

0.1

0.3

0.5

resi

dual

s

238 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Refaites la régression d’en haut, mais cette fois incluez une terme pour reprensenter (SWAMP)2. L’expression devrait apparaitre comme: RESID-UALS~SWAMP+SWAMP^2. Que concluez-vous? Qu'est-ce que l'examen des résidus de cette régression multiple révèle?

*** Linear Model ***

Call: lm(formula = residuals ~ SWAMP + SWAMP^2, data = Mregdat, na.action =

na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.1812 -0.08535 0.007377 0.06733 0.2425

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) -0.7804 0.1569 -4.9753 0.0000

SWAMP 0.0340 0.0058 5.8918 0.0000

I(SWAMP^2) -0.0003 0.0000 -6.1661 0.0000

Residual standard error: 0.1177 on 25 degrees of freedom

Multiple R-Squared: 0.6132

F-statistic: 19.82 on 2 and 25 degrees of freedom, the p-value is 6.972e-006

2 observations deleted due to missing values

Il devient évident que si on corrige la richesse spécifique pour la taille des marais, une fraction importante de la variabilité résiduelle peut être associée à SWAMP, selon une relation quadratique. Si vous examinez les résidus, vous observerez que l’ajustement est nettement meilleur qu’avec le modèle linéaire.

En vous basant sur les résultats de la dernière analyse, comment sug-gérez-vous de modifier le modèle de régression multiple? Quel est, d'après vous, le meilleur modèle? Pourquoi? Ordonnez les différents facteurs en ordre croissant de leur effet sur la richesse spécifique des reptiles.

Suite à ces analyses, il semble opportun d’essayer d’ajuster un modèle incluant LOGAREA, THTDEN, CPFOR2, SWAMP et SWAMP^2:

*** Linear Model ***

Call: lm(formula = LOGHERP ~ LOGAREA + CPFOR2 + THTDEN + SWAMP + SWAMP^2, data

=

Mregdat, na.action = na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.2018 -0.05617 -0.002072 0.05181 0.2056

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) -0.3203 0.1813 -1.7665 0.0912

LOGAREA 0.2202 0.0389 5.6558 0.0000

CPFOR2 -0.0008 0.0010 -0.7900 0.4380

THTDEN -0.0293 0.0105 -2.7947 0.0106

SWAMP 0.0311 0.0059 5.2773 0.0000

I(SWAMP^2) -0.0003 0.0000 -5.5380 0.0000

Residual standard error: 0.1072 on 22 degrees of freedom

LABO- RÉGRESSION MULTIPLE - 239

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Multiple R-Squared: 0.8181

F-statistic: 19.78 on 5 and 22 degrees of freedom, the p-value is 1.774e-007

2 observations deleted due to missing values

Les résultats de cette analyse suggèrent qu’on devrait probablement exclure CPFOR2 du modèle:

*** Linear Model ***

Call: lm(formula = LOGHERP ~ LOGAREA + THTDEN + SWAMP + SWAMP^2, data = Mreg-

dat,

na.action = na.exclude)

Residuals:

Min 1Q Median 3Q Max

-0.1962 -0.05444 -0.01202 0.07116 0.2129

Coefficients:

Value Std. Error t value Pr(>|t|)

(Intercept) -0.3461 0.1769 -1.9566 0.0626

LOGAREA 0.2232 0.0384 5.8105 0.0000

THTDEN -0.0257 0.0094 -2.7441 0.0116

SWAMP 0.0296 0.0055 5.3650 0.0000

I(SWAMP^2) -0.0002 0.0000 -5.6494 0.0000

Residual standard error: 0.1063 on 23 degrees of freedom

Multiple R-Squared: 0.8129

F-statistic: 24.98 on 4 and 23 degrees of freedom, the p-value is 4.405e-008

2 observations deleted due to missing values

Si on fait l’analyse des résidus de ce modèle, on voit que toutes les conditions d’application semblent être rencontrées, et il semble donc être le meilleur modèle.

240 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

LABO- TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES. - 241

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Labo- Tableaux de contingence et modèles log-linéaires.

Après avoir complété cet exercice, vous devriez pouvoir :

• Créer des fichiers S-PLUS pour analyser des données de fréquen-ces

• Utiliser S-PLUS pour éprouver une hypothèse extrinsèque à pro-pos d'une population à partir de données de fréquences

• Utiliser S-PLUS pour éprouver l'hypothèse d'indépendance dans un tableau de fréquences à deux critères de classification

• Utiliser S-PLUS pour ajuster un modèle log-linéaire à des données d'un tableau de fréquences à plus de deux dimensions

Création du fichier de donnéesPlusieurs expériences en biologie génèrent des données de fréquence, comme, par exemple, le nombre de plantes infectées par un pathogène lorsque soumises à différents niveaux d'exposition, ou le nombre de mâles et de femelles qui éclosent lorsque des œufs de tortue sont incubés à diverses températures (chez les tortues, la détermination du sexe est affectée par la température !), etc. Généralement, la question statistique revient à déterminer si la proportion des observations dans les diverses catégories (infecté vs non infecté, mâle vs femelle) diffère significativement entre les traitements. Pour répondre à cette question, il faut créer un fichier de données qui contient le nombre d'individus dans chaque catégorie.

242 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Le tableau ci-dessous contient les résultats d'un recensement fait en 1980 dans une petite ville du centre des États Unis ::

Créez un fichier S-PLUS à partir de ces données. Pour ce faire, ouvrez un nouveau chiffrier et créezdeux variables : MALE et FEMALE. Changez le nom de chaque rangée pour qu’ils correspondent au noms des classes d’ages. Inscrivez les données dans chaques colonne.

En utilisant ces données, éprouvez l’indépendance de l’age et du sexe en allant à Statistics, Compare Samples, Counts and Proportions,

Classe d’âge (années)

Femelles Mâles

0-9 17619 17538

10-19 17947 18207

20-29 21344 21401

30-39 19138 18837

40-49 13135 12568

50-59 11617 10661

60-69 11053 9374

70-79 7712 5348

80+ 4114 1926

LABO- TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES. - 243

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Chi square Test. Sélectionnez Data Set is a Contingency Table et cliquez sur OK. Que concluez vous??

Pearson's chi-square test without Yates' continuity correction

data: PopulationData

X-square = 1162.584, df = 8, p-value = 0

L’hypothèse nulle doit être rejetée. La forme de la pyramide d’age diffère entre les hommes et les femmes. Pas très surprenant.

Il est parfois plus pratique d’arranger les données différemment pour faire ce type d’analyse (ou plus simple si on vous fournit les données dans ce format...). Par exemple, on peut avoir deux colonnes qui décrivent les facteurs (AGECLASS et GENDER) et une troisième colonne qui contient le nombre d’observations (COUNT). On passe ensuite à Statistics, Data Summaries, Crosstabulations, et on entre AGECLASS et GENDER comme les Variables et COUNT comme la Counts Variable. Cliquer sur OK. (Et vérifiez que le tableau à deux critères de classifica-tion corrspond aux données originales...)

Le tableau de fréquence devrait être:*** Crosstabulations ***

Call:

crosstabs(formula = Count ~ AgeClass + Gender, data = Population.df,

na.action

= na.fail, drop.unused.levels = T)

239539 cases in table

+----------+

|N |

|N/RowTotal|

|N/ColTotal|

|N/Total |

+----------+

AgeClass|Gender

|Females |Males |RowTotl |

--------+-----------+-----------+-------+

0-9 | 1.7619e4| 1.7538e4|35157 |

|0.5 |0.5 |0.15 |

|0.14 |0.15 | |

|0.074 |0.073 | |

--------+-----------+-----------+-------+

10-19 | 1.7947e4| 1.8207e4|36154 |

|0.5 |0.5 |0.15 |

|0.15 |0.16 | |

|0.075 |0.076 | |

--------+-----------+-----------+-------+

20-29 | 2.1344e4| 2.1401e4|42745 |

|0.5 |0.5 |0.18 |

|0.17 |0.18 | |

|0.089 |0.089 | |

--------+-----------+-----------+-------+

30-39 | 1.9138e4| 1.8837e4|37975 |

|0.5 |0.5 |0.16 |

|0.15 |0.16 | |

|0.08 |0.079 | |

--------+-----------+-----------+-------+

40-49 | 1.3135e4| 1.2568e4|25703 |

|0.51 |0.49 |0.11 |

1

2

244 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

|0.11 |0.11 | |

|0.055 |0.052 | |

--------+-----------+-----------+-------+

50-59 | 1.1617e4| 1.0661e4|22278 |

|0.52 |0.48 |0.093 |

|0.094 |0.092 | |

|0.048 |0.045 | |

--------+-----------+-----------+-------+

60-69 | 1.1053e4|9374 |20427 |

|0.54 |0.46 |0.085 |

|0.089 |0.081 | |

|0.046 |0.039 | |

--------+-----------+-----------+-------+

70-79 |7712 |5348 |13060 |

|0.59 |0.41 |0.055 |

|0.062 |0.046 | |

|0.032 |0.022 | |

--------+-----------+-----------+-------+

80+ |4114 |1926 |6040 |

|0.68 |0.32 |0.025 |

|0.033 |0.017 | |

|0.017 |0.008 | |

--------+-----------+-----------+-------+

ColTotal|123679 |115860 |239539 |

|0.52 |0.48 | |

--------+-----------+-----------+-------+

Test for independence of all factors

Chi^2 = 1162.584 d.f.= 8 (p=0)

Yates' correction not used

S-PLUS imprime d’abord la légende pour vous rappeler comment interpréter ce qui suit. La première rangée de chaque cellule correspond à l’effectif (N) pour cette combinaison de facteurs de classification. C’est cette valeur qui devrait correspondre aux données d’entrée. La seconde ligne correspond à la proportion des observations de cette cellule par rapport au total de la rangée( ), ce qui dans ce cas correspond au nombre total d’individus (mâles et femelles) dans une classe d’âge. La troisième rangée est la proportion par rapport au total de la colonne ( , i.e. le nombre total de mâles, ou de femelles, tous âges confondus). La dernoère rangée est la proportion par rapport au grand total, ici le nombre de personnes de tout âge et des deux sexes confondus.

3 4

5

1

2

3

4

LABO- TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES. - 245

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Le test de χ2 qui éprouve l’hypothèse nulle d’indépendance du sexe et de l’âge Notez qu’on obtient la même valeur que précédemment..

Éprouver une hypothèse extrinsèqueCertaines hypothèses biologiques reposent sur la fréquence relative de différentes classes dans une population. Par exemple, l'hypothèse que le taux de mortalité aux États Unis est plus élevé chez les hommes que chez les femmes mène à la prédiction que la proportion des mâles devrait aller en décroissant au fur et à mesure qu'ils vieillissent.

Pour éprouver l’hypothèse extrinsèque que la proportion des mâles et des femelles est égale à la naissance, il faut construire un tableau de contingence 2x2 des fréquences attendues et observées. Les fréquences attendues sont obtenues en faisant la somme des fréquences des mâles et des femelles et en divisant par 2.

Pour éprouver l’hypothèse nulle que la proportion des mâles et des femelles à la naissance est égale, utilisez ce tableau de contingence et allez à Statistics, Compare Samples, Counts and Proportions, Chi square Test. Sélectionnez Data Set is a Contingency Table et faites l’analyse deux fois: d’abord en faisant la correction de Yates, puis sans la correction. Que concluez-vous? Pensez-vous que ces données sont adéquates pour éprouver l’hypothèse?

Programme S-PLUS pour créer un fichier de données (Population.df) avec les données sur la population des USA, pour produire le tableau des fréquences relatives et calculer le Chi-carré.### First, design a data frame

fnames <- list(AgeClass=c("0-9", "10-19", "20-29", "30-39", "40-

49", "50-59", "60-69", "70-79", "80+"), Gender=c("Females",

"Males"))

Population.design <- fac.design(c(9,2), fnames)

Count <- c(17619, 17947, 21344, 19138, 13135, 11617, 11053, 7712,

4114, 17538, 18207, 21401, 18837, 12568, 10661, 9374, 5348, 1926)

Population.df <-data.frame(Population.design, Count)

### Produce the table of frequencies

crosstabs(Count~AgeClass+Gender, data=Population.df)

5

246 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Pearson's chi-square test with Yates' continuity correction

data: Popn0.9

X-square = 0.0888, df = 1, p-value = 0.7658

Pearson's chi-square test without Yates' continuity correction

data: Popn0.9

X-square = 0.0933, df = 1, p-value = 0.76

Notez que puisque c’est un tableau 2x2, on devrait utiliser une correction, soit celle de Yates ou de Fisher. Mais, la correction de Fisher est seulement pour les situations où le nombre total des cas est <200, ce qui n’est pas les cas ici. Cette analyse nous amène à la conclusion que le rapport des sexes est de 1:1 à la naissance.

Ces observations ne sont pas particulièrement utiles pour évaluer si le rapport des sexes à la naissance est de 1:1 parce que la première classe d’âge est trop grossière. Il est tout à fait possible qu’à la naissance la proportion des mâles et des femelles diffère mais qu’un taux de mortalité différent entre les sexes viennent compenser (ex: il y a plus de mâles à la naissance, mais leur taux de mortalité est plus élevé au cours des 9 premières années de vie). Dans ce cas, le rapport des sexes à la naissance n’est pas de 1:1, mais nous acceptons néanmoins l’hypothèse nulle en se basant sur la classe d’âge 0-9.

En utilisant les données pour la classe d'âge 80+, éprouvez l'hypothèse nulle que la proportion des mâles et des femelles est la même dans cette classe d'âge. Que concluez-vous ?

Pour la classe 80+, on procède de la même manière que précédemment pour obtenir:

Pearson's chi-square test with Yates' continuity correction

data: Popn80

X-square = 408.9969, df = 1, p-value = 0

Pearson's chi-square test without Yates' continuity correction

data: Popn80

X-square = 409.7457, df = 1, p-value = 0

Programme S-PLUS pour analser un tableau 2x2

### Produce a table of obs vs exp for 0-9 age class

Popn0.9 <- rbind(c(17578, 17578), c(17619, 17538))

### Run X2 test on above table

chisq.test(Popn0.9, correct=F)### X2 without Yates

chisq.test(Popn0.9) ### X2 with Yates

LABO- TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES. - 247

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Et on rejette donc l’hypothèse nulle. Il y a significativement plus de femelles que de mâles dans la classe d’âge 80+.

Épreuve d'indépendance pour tableau à deux critères de classificationUne utilisation fréquente des tableaux de contingence est de répondre à des questions sur comment la proportion de différentes catégories d'observations diffère entre traitements. Une différence statistiquement significative entre les traitements signifie que les proportions dépendent des traitements, c'est-à-dire qu'il y a une interaction entre le traitement et la proportion des observations dans une catégorie.

Le fichier STURGDAT.SDD contient des données sur des échantillons d'esturgeons récoltés près de The Pas au Manitoba et Cumberland House en Saskatchewan entre 1978 et 1980. Parmi les variables mesurées il y a le sexe (SEX), l'année (YEAR) et le nom du site (LOCATION). À partir de ces données :

En utilisant Statistics, Data Summaries, Crosstabulations, éprouvez l'hypothèse nulle que, à The Pas, la proportion des mâles et des femelles était la même en 1978, 1979 et 1979.Vous ne devez entrer que les facteurs pour Variables cette fois puisque chaque rangée dans le fichier de données corresponds à un cas et qu’il n’y a pas de Counts Variable. Vous devez cependant sélectionner seulement les cas pour lesquels LOCATION== "The_Pas". Que concluez-vous?

*** Crosstabulations ***

Call:

crosstabs(formula = ~ SEX + YEAR, data = Sturgdat, subset = LOCATION ==

"The_Pas", na.action = na.fail, drop.unused.levels = T)

101 cases in table

+----------+

|N |

|N/RowTotal|

|N/ColTotal|

|N/Total |

+----------+

SEX |YEAR

|1978 |1979 |1980 |RowTotl|

-------+-------+-------+-------+-------+

female | 5 |12 |38 |55 |

|0.091 |0.22 |0.69 |0.54 |

|0.24 |0.5 |0.68 | |

|0.05 |0.12 |0.38 | |

-------+-------+-------+-------+-------+

male |16 |12 |18 |46 |

|0.35 |0.26 |0.39 |0.46 |

|0.76 |0.5 |0.32 | |

|0.16 |0.12 |0.18 | |

-------+-------+-------+-------+-------+

ColTotl|21 |24 |56 |101 |

|0.21 |0.24 |0.55 | |

-------+-------+-------+-------+-------+

248 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Test for independence of all factors

Chi^2 = 12.19965 d.f.= 2 (p=0.002243258)

Yates' correction not used

On rejette donc l’hypothèse nulle. Le rapport des sexes des esturgeons a varié au cours de la période 1978-1980, passant d’une dominance de mâles en 1978 à une dominance de femelles en 1980.

Éprouvez l'hypothèse nulle que le rapport des sexes, toutes années confondues, était le même à The Pas et Cumberland House. Quelle est votre conclusion?

*** Crosstabulations ***

Call:

crosstabs(formula = ~ SEX + LOCATION, data = Sturgdat, na.action = na.fail,

drop.unused.levels = T)

186 cases in table

+----------+

|N |

|N/RowTotal|

|N/ColTotal|

|N/Total |

+----------+

SEX |LOCATION

|Cmbrlnd|The_Pas|RowTotl|

-------+-------+-------+-------+

female |51 |55 |106 |

|0.48 |0.52 |0.57 |

|0.6 |0.54 | |

|0.27 |0.3 | |

-------+-------+-------+-------+

male |34 |46 |80 |

|0.42 |0.58 |0.43 |

|0.4 |0.46 | |

|0.18 |0.25 | |

-------+-------+-------+-------+

ColTotl|85 |101 |186 |

|0.46 |0.54 | |

-------+-------+-------+-------+

Test for independence of all factors

Chi^2 = 0.5788829 d.f.= 1 (p=0.4467505)

Yates' correction not used

Comme c’est un tableau 2x2, on devrait utiliser une correction (Yates ou Fisher). Si vous appliquez la correction de Yates à Statistics, Compare Samples, Counts and Proportions, Chi square Test vous obtiendrez::

Pearson's chi-square test with Yates' continuity correction

data: SEX and LOCATION from data set Sturgdat

X-square = 0.3748, df = 1, p-value = 0.5404

Et avec le test de Fisher (Statistics, Compare Samples, Counts and Proportions, Fisher’s Exact Test) cela donne:

Fisher's exact test

data: SEX and LOCATION from data set Sturgdat

p-value = 0.4614

alternative hypothesis: two.sided

LABO- TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES. - 249

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Notez que les valeurs de p après correction de Yates et Fisher sont plus élevées que celle associée à la statistique khi-carré: ceci illustre le fait que dans les tableaux 2x2, le khi-carré est trop libéral. Mais ici, peu importe, puisque toutes les probabilités sont beaucoup plus grandes que 0.05. On accepte donc l’hypothèse nulle que la proportion des deux sexes est la même aux deux sites.

Notez que cette analyse n’éprouve PAS l’hypothèse nulle que le rapport des sexes est 1:1 aux deux sites, seulement qu’il est le même à The Pas et Cumberland (1:1 ou quelque chose d’autre).

Modèles log-linéaires et tableaux de contingence à critères de classification multiples.Le concept d'interaction peut être étendu à des tableaux de contingences à plus de deux critères de classification, c'est-à-dire à des tableaux qui ont 3 dimensions ou plus, correspondant chacune à un critère utilisé pour classifier les observations. Par exemple, supposez que nous désirions examiner l'effet de la température (deux niveaux : basse et élevée) et de la lumière (deux niveaux : lumière basse et lumière intense) sur le nombre de plantes infectées par un pathogène (deux niveaux d'infestations : infectée et non-infectée). Dans ce cas nous aurions besoin d'un tableau de contingence à trois critères de classification.

Tel que décrit dans les notes de cours, l'ajustement de modèles log-linéaires à des données de fréquences est un processus séquentiel par lequel une série de modèles, commençant par le modèle complet, sont tour à tour ajustés aux données. À chaque étape, un terme d'interaction d'intérêt est mis de côté, et la réduction de l'ajustement du modèle est évaluée : si la réduction de l'ajustement n'est pas significative, le terme est éliminé du modèle ; par contre, si le modèle

Commandes S-PLUS pour les tableaux de contingence 2x2

### Working with Sturgdat

attach(Sturgdat)

## Test the gender ratio at The Pas among years

crosstabs(formula = ~ SEX + YEAR, subset = LOCATION == "The_Pas",

na.action = na.fail, drop.unused.levels = T)

## Test the gender ratio among LOCATIONS, ignore years

crosstabs(formula = ~ SEX + LOCATION, na.action = na.fail,

drop.unused.levels = T)

## Apply Yates

chisq.test(x=SEX, y=LOCATION, correct=T)

fisher.test(x=SEX, y=LOCATION)

detach(Sturgdat)

250 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

réduit correspond significativement moins bien aux observations alors le terme est retenu. Comme pour les tableaux à deux critères de classification, les seuls termes intéressants sont les termes d'interaction puisque l'on tente d'éprouver l'indépendance des différents facteurs.

Comment spécifier un modèle log-linéaire avec S-PLUS

Le fichier LOGLIN.SDD contient les fréquences (FREQUENC) de plantes infectées ou non infectées (INFECTED) dans les traitements à basse et haute température (TEMPERATURE) et à basse et haute luminosité (LIGHT). Pour analyser ces fréquences de manière à déterminer si l'infection est indépendante de la lumière et de la température, on peut construire un modèle log-linéaire.

Ouvrez le fichier LOGLIN.SDD, et allez à Statistics-Regression-Log-lin-ear (Poisson). Dans le champ Formula, entrez le modèle complet: FREQUENC~(TEMP+LIGHT+INFECTED)^3 (ce qui indique à S-PLUS d’inclure tous les effets principaux, toutes les interactions de deux ter-mes et toutes les interactions de trois termes, ce qui est équivalent à FREQUENC~TEMP*LIGHT*INFECTED). Donnez un nom au modèle au champ Save Model Object-Save As f (e.g., LOGLINEARFULL). Dans le panneau Results, demandez à S-PLUS de sauver tous les types de résidua (il y en a 4 types) et les valeurs ajustées dans le fichier. Cliquez sur OK.

*** Generalized Linear Model ***

Call: glm(formula = FREQUENC ~ (TEMP + LIGHT + INFECTED)^3, family = pois-

son(link = log), data = LOGLIN, na.action = na.exclude, control = list(epsi-

lon = 0.0001, maxit = 50, trace = F))

Coefficients:

Value Std. Error t value

(Intercept) 3.750274875 0.05975868 62.7569856

TEMP -0.050176355 0.05975868 -0.8396496

LIGHT 0.006588008 0.05975868 0.1102435

INFECTED -0.149450569 0.05975868 -2.5009013

TEMP:LIGHT 0.118159784 0.05975868 1.9772822

TEMP:INFECTED -0.496024160 0.05975868 -8.3004532

LIGHT:INFECTED 0.284199695 0.05975868 4.7557890

TEMP:LIGHT:INFECTED -0.062373896 0.05975868 -1.0437629

(Dispersion Parameter for Poisson family taken to be 1 )

Null Deviance: 109.0931 on 7 degrees of freedom

Residual Deviance: 0 on 0 degrees of freedom

Number of Fisher Scoring Iterations: 1

1

2

LABO- TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES. - 251

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

À la fenêtre de commande, tapez ANOVA(LOGLINFULL, TEST="CHI") pour que S-PLUS imprime un tableau équivalent au tableau d’ANOVA et les statisques de χ2 :

> anova(LOGLINFull, test="Chi")

Analysis of Deviance Table

Poisson model

Response: FREQUENC

Terms added sequentially (first to last)

Df Deviance Resid. Df Resid. Dev Pr(Chi)

NULL 7 109.0931

TEMP 1 0.00000 6 109.0931 0.9999998

LIGHT 1 0.00000 5 109.0931 0.9999999

INFECTED 1 6.26638 4 102.8268 0.0123050

TEMP:LIGHT 1 0.00000 3 102.8268 0.9999987

TEMP:INFECTED 1 76.00717 2 26.8196 0.0000000

LIGHT:INFECTED 1 25.73563 1 1.0840 0.0000004

TEMP:LIGHT:INFECTED 1 1.08396 0 0.0000 0.2978126

Interprétation du fichier de sortie de SYSTAT

La déviance totale, ce qui correspond à une mesure de la variabilité dans les données comme la somem des carrés totale en régression ou ANOVA.

La déviance résiduelle, ici égale à 0 pour le modèle complet. Le but est de trouver un modèle plus simple que le modèle complet qui explique presque autant de variabilité (déviance). La stratégie employée est de tenter d’éliminer d’abord les termes d’interaction si ils ne sont pas significatifs.

Les statistiques de χ2 et les probabilités associées à chaque terme. Le but est d’obtenir un mdoèle simple qui explique le plus de variabilité possible avec le moins de termes possible. Donc, on procède en éliminant les termes qui n’expliquent pas une quantité significative de déviance, comme l’interaction du troisième degré.

Il est plus exact d’utiliser les statistiques de χ2 que celles de t données par défaut par la routine des modèles loglinéaires. Pour les obtenir, vous devrez tourner: ANOVA(OBJECTNAME, TEST="CHI").

Ouvrez le chiffrier LOGLIN pour voir ce qui ce passe avec les résidus et les valeurs estimées:

1

2 3

1

2

3

252 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Quelques points à noter ici sur ce que S-PLUS produit. D’abord, les données ajustées sont égales aux observations et les résidus sont tous 0. C’est parce que nous avons ajusté le modèle complet. Les “working residuals” sont les valeurs observées moins les valeurs ajustées. Les “Pearsons residuals” sont des résidus normalisés: (Working Residuals/sqrt(Fit)). La somme des carrés des résidus de Pearson est la statistique de chi-carré. Les “deviance residuals” peuvent servir à détecter des observations qui ont une très grande influence. Les “response residuals” sont la même chose que les “working residuals”.

Tracez des graphiques des résidus avec les comamndes suivantes pour le modèle (LOGLINEARFULL):

>PAR(MFROW=C(2,2) ## TELLS S-PLUS TO PRODUCE ALL GRAPHS ON ONE PAGE

>PLOT(LOGLINEARFULL)

Ces graphiques sont difficiles à interpréter puisque les résidus sont nuls pour le modèle complet. En général., il faut prêter attention aux déviations dans le graphique des valeurs observées vs prédites, à de fortes déviations de la normalité dans le graphique des probabilités, et à des tendances lourdes des “deviance residuals” et dans le graphique

Fitted : (TEMP + LIGHT + INFECTED)^3

Dev

ianc

e R

esid

uals

20 40 60 80

-10^

-70

5*10

^-8

Predicted : (TEMP + LIGHT + INFECTED)^3

sqrt(

abs(

Dev

ianc

e R

esid

uals

))

3.0 3.5 4.0 4.5

0.00

015

0.00

025

0.00

035

Fitted : (TEMP + LIGHT + INFECTED)^3

FREQ

UEN

C

20 40 60 80

2040

6080

Quantiles of Standard Normal

Pear

son

Res

idua

ls

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

02*

10^-

155*

10^-

15

LABO- TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES. - 253

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

des déviances en valeur absolue. Ces graphiques seront à examiner avec attention lorsque vous ajusterez des modèles réduits comme dans l’exercice suivant.

ExerciceEn utilisant les données de STURGDAT, éprouvez l’hypothèse que le nombre de poissons capturés est indépendant du site, de l’année, et du sexe. Avant de commencer, vous devrez réorganiser les données pour pouvoir les analyser avec des modèles log-linéaires.

Ouvrez le fichier STURGDAT.SDD, puis utilisez Data, Tabulate pour obte-nir le nombre de poissons par SEX, LOCATION, et YEAR (selectionnez ces variables dans la liste Variables). Sauvegardez ce tableau comme STURGDATSUM en inscrivant ce nom de fichier dans le champ Save In. OK.

En utilisant STURGDATSUM, ajustez le meilleur modèle possible aux observations (avec un tableau d’anova avec les statistiques khi-carrés du modèle), comme on a fait avec LOGLIN. Comment interprétez-vous

Commandes S-PLUS: modèle log-linéaires### LogLinear models with LOGLIN (aka Poisson Regression)

LOGLINFull <- glm(FREQUENC ~ (TEMP + LIGHT + INFECTED)^3, family =

poisson(link = log), data = LOGLIN, na.action = na.exclude)

anova(LOGLINFull, test="Chi")

par(mfrow=c(2,2))

plot(LOGLINFull)

254 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

le modèle auquel vous arrivez ? Est-ce que l’interaction à 3 degré (LOCATION:YEAR:SEX) est significative? Si non, éliminez cette terme et ajustez le modèle avec seulement les interactions du deuxième degré, etc.

S-PLUS produira le fichier de sortie suivant:

Analysis of Deviance Table

Poisson model

Response: Count

Terms added sequentially (first to last)

Df Deviance Resid. Df Resid. Dev Pr(Chi)

NULL 11 57.17574

SEX 1 3.64634 10 53.52941 0.0561926

YEAR 2 7.56576 8 45.96365 0.0227571

LOCATION 1 1.37805 7 44.58560 0.2404342

SEX:YEAR 2 13.98825 5 30.59735 0.0009173

SEX:LOCATION 1 0.57974 4 30.01760 0.4464126

YEAR:LOCATION 2 28.34987 2 1.66773 0.0000007

SEX:YEAR:LOCATION 2 1.66773 0 0.00000 0.4343666

Ceci est un tableau de contingence à trois critères de classification: SEX, LOCATION et YEAR. Le modèle complet inclue donc 7 termes: les trois effets principaux (SEX, LOCATION et YEAR), les trois intéractions du deuxième degré (SEX:YEAR, SEX:LOCATION and LOCATION:YEAR$) et le terme d’interaction du troisième degré (SEX:LOCATION:YEAR). La déviance totale est 57.17574, la déviance du modèle complet est 0. La déviance expliquées par l’interaction du troisième degré, 1.66773 (équivalente à une statistique de χ2 avec deux degrés de liberté), est non significative, ce qui indique qu’on devrait enlever ce terme du modèle.

Qu’est-ce que cela signifie? Cela signifie que si il y a des intéractions significatives du deuxième degré, elles ne varient pas selon le niveau de la troisième variable. Par exemple, dans cet exercice cela veut dire que si le rapport des sexes varie d’une année à l’autre (une interaction SEX:YEAR), cette variation temporelle est la même aux deux sites. Cette absence d’intéraction du troisième degré signifie également que l’aggrégation (pooling) des données est justifiée et préférable. Par exemple, si on veut éprouver l’intéraction SEX:LOCATION, on peut regrouper les données de toutes les années, pour produire un tableau de contingence 2x2 dont les fréquences dans chaque cellule est le nombre total d’esturgeon d’un sexe et d’un site donné capturé entre 1978 et 1980. En augmentant la fréquence dans chaque cellule, on accroît la puissance, ce qui est évidemment désirable.

Ajusez maintenant le modèle sans l’interaction du troisième degré

Analysis of Deviance Table

LABO- TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES. - 255

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Poisson model

Response: Count

Terms added sequentially (first to last)

Df Deviance Resid. Df Resid. Dev Pr(Chi)

NULL 11 57.17574

SEX 1 3.64634 10 53.52941 0.0561926

YEAR 2 7.56576 8 45.96365 0.0227571

LOCATION 1 1.37805 7 44.58560 0.2404342

SEX:YEAR 2 13.98825 5 30.59735 0.0009173

SEX:LOCATION 1 0.57974 4 30.01760 0.4464126

YEAR:LOCATION 2 28.34987 2 1.66773 0.0000007

On peut maintenant examiner la signification des termes d’interaction du deuxième degré. L’interaction SEX:LOCATION explique peu de choses et peut être enlevée du modèle. Les deux autres interactions semblent significatives, mais on les reexaminera après avoir enlevé le terme non-significatif.

Ajustez à nouveau un modèle, cette fois en excluant le terme d’interac-tion SEX:LOCATION

Analysis of Deviance Table

Poisson model

Response: Count

Terms added sequentially (first to last)

Df Deviance Resid. Df Resid. Dev Pr(Chi)

NULL 11 57.17574

SEX 1 3.64634 10 53.52941 0.0561926

YEAR 2 7.56576 8 45.96365 0.0227571

LOCATION 1 1.37805 7 44.58560 0.2404342

SEX:YEAR 2 13.98825 5 30.59735 0.0009173

LOCATION:YEAR 2 26.75340 3 3.84395 0.0000016

Les deux termes d’interaction restant sont significatifs et la déviance résiduelle est petite comparée à la déviance totale. Ce modèle semble être le bon, mais il faut examiner les résidus pour vérifier si il y a des anomalies.

Tracez des graphiques des résidus comme précédemment

256 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

Ces résidus normalisés semblent corrects: ils sont assez petits et il n’y a pas de tendance évidente, c’est-à-dire pas de sousgroupe formé de valeurs positives ou négatives seulement. Il sont également assez normaux.

Puisque les résidus ne révèlent rien de particulièrement préoccupant, on conclue donc, en se fiant sur cette analyse, que le modèle le plus approprié est:

ln[f(ijk)] = µ + location + sex + year + sex:year + location:year

Quelle est l’interprétation biologique de tout cela? Rappelez-vous que, comme dans les tests d’indépendance, on n’est pas vraiment intéressé par les effets principaux, seulement par les intéractions significatives. Par exemple, l’existence de l’effet principal LOCATION implique que le nombre total d’esturgeons capturés (des deux sexes au cours de la période 1978-1980) n’est pas le même au deux sites. Cela n’est ni surprenant, ni intéressant. Cependant, l’intéraction SEX:YEAR révèle que le rapport des sexes a varié d’une année à l’autre (et comme l’intéraction SEX:YEAR:LOCATION n’est pas significative, que cette variation était la même dans les deux sites). L’intéraction indique que le nombre d’esturgeons récoltés a non seulement varié d’une année à l’autre, mais que ce changement n’était pas le même aux deux sites. Ceci est moins surprenant, et peut probablement s’expliquer par des différences d’effort d’échantillonnage entre les deux sites.

Fitted : SEX + YEAR + LOCATION + SEX:YEAR + LOCATION:YEAR

Dev

ianc

e R

esid

uals

5 10 15 20 25 30 35

-0.5

0.0

0.5

Predicted : SEX + YEAR + LOCATION + SEX:YEAR + LOCATION:YEAR

sqrt(

abs(

Dev

ianc

e R

esid

uals

))

2.0 2.5 3.0 3.5

0.4

0.6

0.8

Fitted : SEX + YEAR + LOCATION + SEX:YEAR + LOCATION:YEAR

Cou

nt

10 20 30

1020

30

Quantiles of Standard Normal

Pear

son

Res

idua

ls

-1 0 1

-0.5

0.0

0.5

LABO- TABLEAUX DE CONTINGENCE ET MODÈLES LOG-LINÉAIRES. - 257

Commandes S-PLUS,: modèle log-linéaire

### LogLinear models with Sturgdat (aka Poisson Regression)

### Full model

SturgdatFull <- glm(Count~(SEX+YEAR+LOCATION)^3, family=poisson,

data=SturgdatSum, na.action=na.exclude)

anova(SturgdatFull, test="Chi")

### Reduced model - all two-way interactions

Sturgdat2way <- glm(Count~(SEX+YEAR+LOCATION)^2, family=poisson,

data=SturgdatSum, na.action=na.exclude)

anova(Sturgdat2way, test="Chi")

### Reduced model - drop sex:location interaction

Sturgdat2waySub <- glm(Count~SEX+YEAR+LOCATION+SEX:YEAR+LOCA-

TION:YEAR, family=poisson, data=SturgdatSum,

na.action=na.exclude)

anova(Sturgdat2waySub, test="Chi")

### Check residuals for this final model

par(mfrow=c(2,2))

plot(Sturgdat2waySub)

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

258 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

RÉFÉRENCES - 259

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

RéférencesBox, G. E. P., et D. R. Cox. 1964. An analysis of transformations. Jour-

nal of the Royal Statistical Association. B17: 1-34.Daniel, C., and F. S. Wood. 1980. Fitting Equations to Data, Second

Edition, Wiley, Ney York, NY, 427p.Draper, N. et H. Smith. 1981. Applied Regression Analysis, Second

Edition, Wiley, New York, NY, 709p.Finney, D. J. 1978. Statistical method in biological assay. Oxford Uni-

versity Press, New York, NY. 508p.Gujarati, D. N. 1988. Basic Econometrics. 2nd Ed. McGraw-Hill.

New York. 705p.Koteja, P. 1991. On the relation between basal and field metabolic

rates in birds and mammals. Functional Ecology 5: 56-64.McCullagh, P., et J. A. Nelder. 1983. Generalized linear models. Mono-

graphs on Statistics and Applied Probability, Chapman and Hall, New York, NY.

Rohlf, F. J., and R. R. Sokal. 1981. Statistical tables. W. H. Freeman and Company. San Francisco. 219p.

Scherrer, B. 1984. Biostatistique. Gaëtan Morin, Boucherville, 850p.Sokal, R. R. and F.J Rohlf. 1995. Biometry, 3rd edition. W.H. Freeman

and Co. San Francisco. 219p.Van Valen, L. 1978. The statistics of variation. Evol. Theory 4: 33-43.Watson, G. S. 1957. The χ2 goodness of fit test for normal distribu-

tions. Biometrika 44: 336-348.Zar, J.H. 1996. Biostatistical Analysis, 3rd edition. Prentice-Hall,

Englewood Cliffs, NJ, 718 pp.Zar, J.H. 1999. Biostatistical Analysis, 4rthedition. Prentice-Hall,

Englewood Cliffs, NJ, 663 pp

260 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

GLOSSAIRE - 261

© Geneviève Carr, Scott Findlay, et Antoine Morin, Département de biologie, Université d’Ottawa

Glossaire

BiaisTerme s’appliquant généralement aux statistiques de l’échantillon. Une statistique n’est pas biaisée si un échantillonnage répété d’une population ayant un paramètre connu (ex: la moyenne de la population) produit des statistiques de l’échantillon (ex: moyenne de l’échantillon) qui, en moyenne, tendent vers la valeur du paramètre (ex: la moyenne de toutes les moyennes des échantillons est égale à la moyenne de la population). Une statistique qui ne possède pas cette propriété est qualifiée de biaisée.

ConservateurDans un test conservateur, le niveau d’erreur de type I est plus petit que le niveau nominal d’erreur de type I. Cela implique que l’on accepte l’hypothèse nulle plus souvent qu’on le devrait.

Erreur αL’erreur associée au rejet d’une hypothèse nulle lorsqu’elle est vraie (appelée aussi erreur de type I). Dans la plupart des tests statistiques le seuil critique α est fixé par convention à 0.05. Il y a donc 5% des chances qu’une hypothèse nulle vraie soit rejetée par erreur.

Erreur β

L’erreur associée à l’acceptation de l’hypothèse nulle lorsqu’elle est fausse (aussi appelée erreur de type II). Pour calculer cette erreur, on doit spécifier une hypothèse nulle alternative. Lorsqu’il y a une hypothèse alternative spécifiée, le taux d’erreur de type II diminue lorsque le taux d’erreur de type I augmente.

ExactitudeUne mesure de la distance entre la valeur mesurée ou estimée et la valeur réelle.

LibéralDans un test libéral, le taux d’erreur de type I est plus grand que le taux nominal d’erreur de type I. Cela implique que l’on rejette l’hypothèse nulle plus souvent qu’on le devrait.

262 - BIOSTATISTIQUES APPLIQUÉES

BIO 4518 - Automne 2003

ParamètreEn statistiques, un paramètre représente une caractéristique de la population (ex: la moyenne) et la statistique de l’échantillon (ex: moyenne de l’échantillon) est utilisée comme estimé de ce paramètre.

Puissance1-β, donc la probabilité de rejeter l’hypothèse nulle lorsqu’elle est fausse et qu’une hypothèse alternative est correcte. Pour les tests statistiques, la puissance détermine de combien les observations doivent différer de l’hypothèse nulle pour pouvoir la rejeter. Les tests puissants peuvent détecter de petites différences, les tests qui ne sont pas puissants ne peuvent détecter que de grandes différences.

PrécisionLa précision mesure la distance entre des mesures répétées (ou des estimés) de la même quantité (ou paramètre). Pour des estimée de paramètres, la précision est mesurée par l’erreur-type. Plus l’erreur-type est petit, plus grande est la précision.

RobustesseUn test statistique est robuste aux violations de l’une ou de plusieurs de ses conditions d’application (hypothèse implicites) si ces violations ne changent pas significativement la différence entre le taux d’erreur de type I et le taux nominal d’erreur de type I.

SensibilitéCe terme a deux significations. La sensibilité d’un test peut être une mesure de la différence entre le taux d’erreur de type I et le taux nominal d’erreur de type I lorsque les condition d’application (hypothèses implicites) ne sont pas rencontrées. Donc un test sensible n’est pas robuste et un test insensible est robuste. La sensibilité peut également décrire la capacité d’un test à détecter de petites différences entre les observations et l’hypothèse nulle. Un test sensible est donc puissant.