Analyse de variance et correlation

76
Notions essentielles de statistique Livret 4/4 La méthode statistique Analyse de variance Corrélation et régression linéaire Youcef Elmeddah

description

 

Transcript of Analyse de variance et correlation

Page 1: Analyse de variance et correlation

Notions essentielles de

statistique Livret 4/4

La méthode statistique

Analyse de variance

Corrélation et régression linéaire

Youcef Elmeddah

Page 2: Analyse de variance et correlation

________________________________________________________________________________ I _______________________________________________________________________________

STATISTIQUE

TABLE DES MATIÈRES AVERTISSEMENT ..................................................................................................... 1

PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET… ............................................................... 1

COMMENT TRAITER UN EXERCICE DE STATISTIQUE ? ...................................................................... 1

CONSEILS GÉNÉRAUX DE TRAVAIL ........................................................................................................... 2

Séquence de travail n° 1 3

ANALYSE DE VARIANCE À UN CRITÈRE DE CLASSIFICATION .......................... 3

I. BUT, HYPOTHÈSES ET CONDITIONS D'APPLICATION D'UNE ANALYSE DE

VARIANCE .................................................................................................................................................. 4

1. But de l'analyse de variance ............................................................................................ 4

2. Hypothèse à tester............................................................................................................ 5

3. Conditions d'application de l'analyse de variance ........................................................... 5

II. THÉORIE DE L'ANALYSE DE VARIANCE ............................................................................................. 7

1. Variance intra-population : s2intra .................................................................................. 7

2. Variance inter-population : s2inter ................................................................................ 7

3. Le rapport F et les tables de distributions F ................................................................... 8

III. RÉALISATION DE L'ANALYSE DE VARIANCE .................................................................................. 9

1. Echantillons d'effectifs inégaux..................................................................................... 10

1. Première étape de l'analyse ....................................................................................... 10

2. Deuxième étape de l'analyse ...................................................................................... 11

3. Exemple pratique ....................................................................................................... 12

2. Echantillons de mêmes effectifs .................................................................................... 16

1. Première étape de l'analyse ....................................................................................... 16

2. Deuxième étape de l'analyse ...................................................................................... 17

3. Exemple pratique ....................................................................................................... 17

IV. COMPARAISONS MULTIPLES DE MOYENNES : TEST DE LA PPDS ........................................... 19

Séquence de travail n° 2 23

ANALYSE DE VARIANCE À DEUX CRITÈRES DE CLASSIFICATION ................. 23

I. POSITION DU PROBLÈME ......................................................................................................................... 24

II. RÉALISATION ET INTERPRÉTATION DE L'ANALYSE DE VARIANCE À DEUX

CRITÈRES DE CLASSIFICATION. ....................................................................................................... 25

1. Présentation des données et des calculs ........................................................................ 25

Page 3: Analyse de variance et correlation

_______________________________________________________________________________ II ______________________________________________________________________________

STATISTIQUE

1. Première partie .......................................................................................................... 25

2. Deuxième partie ......................................................................................................... 26

2. Application pratique ..................................................................................................... 28

3. Exécution de l'analyse de variance par le logiciel EXCEL ........................................... 31

Séquence de travail n° 3 33

CORRÉLATION ET RÉGRESSION LINÉAIRE SIMPLE ......................................... 33

I. POSITION DU PROBLÈME ......................................................................................................................... 34

1. Analyse de régression et de corrélation ......................................................................... 34

2. La relation de causalité en statistique ............................................................................ 35

II. ANALYSE DE RÉGRESSION ..................................................................................................................... 36

1. Diagramme de dispersion .............................................................................................. 36

2. Notion de covariance ..................................................................................................... 38

3. Droite de régression ....................................................................................................... 39

4. Estimation à l'aide de l'équation de régression .............................................................. 42

III. L'ERREUR TYPE DE L'ESTIMATION ................................................................................................... 44

1. Calcul de l'erreur type de l'estimation : Ey.x ................................................................. 44

2. Intervalles de prédiction ................................................................................................ 45

IV. ANALYSE DE CORRÉLATION ................................................................................................................ 48

1. Le coefficient de détermination = r2 ............................................................................ 48

2. Le coefficient de corrélation .......................................................................................... 50

1. Méthode pratique de calcul du coefficient de corrélation ......................................... 50

2. Propriétés du coefficient de corrélation .................................................................... 51

V. TRANSFORMÉE DE FISHER..................................................................................................................... 52

1. Position du problème ..................................................................................................... 52

2. Premier cas : r = 0 ......................................................................................................... 52

3. Deuxième cas : r ≠ 0 : cas du rejet de l'hypothèse nulle ................................................ 53

TABLE I .................................................................................................................... 55

TABLE DE LA DISTRIBUTION NORMALE RÉDUITE ............................................................................. 55

TABLE II ................................................................................................................... 56

TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU TABLE DE L'ÉCART

RÉDUIT ...................................................................................................................................................... 56

TABLE III .................................................................................................................. 57

TABLE DE STUDENT ....................................................................................................................................... 57

TABLE IV ................................................................................................................. 58

Page 4: Analyse de variance et correlation

______________________________________________________________________________ III ______________________________________________________________________________

STATISTIQUE

TABLE DU C2 .................................................................................................................................................. 58

TABLE V-A ............................................................................................................... 59

TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL (A = 0,05)................................................. 59

TABLE V-B .............................................................................................................. 60

TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL (A = 0,05) .................................................... 60

TABLE VI-A .............................................................................................................. 61

TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL (A = 0,01).................................................. 61

TABLE VI-B ............................................................................................................. 62

TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL (A = 0,01) .................................................... 62

TABLE VII ................................................................................................................ 63

CORRÉLATION TRANSFORMÉE DE FISHER........................................................................................... 63

BIBLIOGRAPHIE ..................................................................................................... 64

Page 5: Analyse de variance et correlation

_______________________________________________________________________________ 1 ______________________________________________________________________________

Avertissement

AVERTISSEMENT

Ce document se propose de vous fournir l'essentiel des connaissances qui vous permettront de

mieux comprendre les concepts et les outils de la statistique. C'est un ouvrage d'initiation dont

l'objectif principal est l'acquisition des techniques de base de la statistique ainsi que

l'interprétation des résultats qui en découlent. Pour cela, les fondements mathématiques des

théories exposées ne sont pas développés. Nous avons pensé que ce document est destiné

surtout à des utilisateurs de l'outil statistique et non à des théoriciens.

Afin de répondre aux difficultés que rencontrent les étudiants pour transposer les

connaissances théoriques à l'application pratique, le document réunit l'essentiel des

connaissances avec de nombreux exemples d'application illustrant les parties théoriques.

Les connaissances importantes , qu'il faut absolument garder à l'esprit, sont

signalées en grisé dans le texte.

Les connaissances s’enchaînent dans un ordre logique. Chaque nouvelle notion introduite

suppose que d’autres notions sont connues.

En commençant par découvrir ces nouvelles notions, notamment à l’aide des exemples

proposés, vous pouvez rencontrer des difficultés dues à une mauvaise assimilation de notions

précédentes.

Il faut donc systématiquement revenir en arrière et reprendre le cours mal assimilé. Ces allers

et retours dans le cours sont presque inévitables. Ne soyez donc pas découragés pour autant.

Vous verrez alors que, petit à petit, les nouvelles notions s’éclaircissent et se mémorisent de

mieux en mieux.

PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET…

Dans ce livret, nous exposons d'abord le principe général de l'analyse de variance. Nous

appliquerons alors ce principe à l'analyse de la variance à un facteur puis à deux facteurs en

gardant toujours la même démarche.

Dans les problèmes relatifs à la corrélation et à la régression, nous nous limiterons à un rapide

exposé sur le principe de l'analyse puis une application directe à la corrélation et à la

régression linéaire simple.

Pour une meilleure assimilation des connaissances exposées, l'étude de ce livret suppose une

bonne connaissance du principe des tests statistiques, de la formulation et la résolution des

problèmes de statistique.

Si vous avez des difficultés à remobiliser ces notions supposées acquises, reportez-vous aux

livrets 2/4 et 3/4 de la série.

COMMENT TRAITER UN EXERCICE DE STATISTIQUE ?

La rédaction d’un exercice d’un test d’évaluation, d’un devoir ou à une épreuve d'examen,

doit être réalisée avec le plus grand soin.

• Faites d’abord une première lecture rapide de l’énoncé de manière à situer le problème posé

en relation avec votre programme.

- Quelles sont les données (nature de la variable, loi de probabilité, taille de

l’échantillon, paramètres donnés…) ?

Page 6: Analyse de variance et correlation

_______________________________________________________________________________ 2 ______________________________________________________________________________

Avertissement

- Que vous demande-t-on ?

- Les questions sont-elles liées ?

- Quelle table statistique utiliser ?

• Commencez alors par résoudre l’exercice sur du brouillon, question par question.

• A l'examen, on vous jugera à la démarche adoptée pour résoudre les exercices mais aussi à

la rédaction et à la présentation du travail fourni, que beaucoup d'étudiants négligent en se

contentant par exemple,

- d' « appliquer » des formules sans expliquer les conditions d'applications,

- d'aboutir par le calcul à des décisions « statistiques » mais sans une interprétation rigoureuse

de leurs conclusions.

Si certains exercices proposés précisent les conditions des données, il n'en est pas de

même pour d'autres. C'est donc à vous de le faire en tout début de la rédaction.

Si vous rédigez, c’est pour être lu. Soignez vos copies. N’imposez pas à votre correcteur de

vous « déchiffrer ». Il peut se lasser…

Vous risquez alors de perdre des points inutilement.

- Faites attention aux calculs numériques et aux unités. Les ordres de grandeurs doivent être

respectés.

- Chaque résultat final d’une question doit être souligné proprement et suivi d’une petite

conclusion.

CONSEILS GÉNÉRAUX DE TRAVAIL

Ce livret se présente sous forme de séquences de travail visant des objectifs pédagogiques

formulés dès le départ. Les évaluations qui vous sont proposées à la fin des séquences visent à

vérifier l'atteinte des objectifs visés par la séquence de travail proposée.

Pour cela, nous vous conseillons :

• de travailler aussi régulièrement que possible ;

• d'éloigner de votre vue tout ce qui peut vous distraire : magazines, journaux, radio, télé…

• d'avoir toujours sous la main une calculatrice, du brouillon, un crayon de papier et une

gomme ;

• de vérifier, chaque fois que vous avez un doute, les calculs développés ;

• de traiter la totalité des exercices d'application proposés avant de passer à la séquence

suivante ;

• d'établir une fiche de synthèse à la fin de chaque séquence de travail ; elle vous sera très utile

pour la séquence suivante ;

• si vous avez la chance d'avoir un micro et de maîtriser EXCEL, n'hésitez pas à rentrer les

données des exercices proposés et de faire exécuter les calculs par le logiciel ; cela vous

permettra de faire des simulations en changeant les données pour « voir ce qui se passe ».

Tous les enseignants et pédagogues connaissent très bien la difficulté de rédiger un cours

de statistique. Tous savent combien il est délicat de traiter un problème de statistique en

faisant l'impasse sur des concepts qui le sous-tendent. Ceux qui se référeront au présent

document voudront bien l'utiliser avec indulgence et en nous communiquant,

éventuellement, leurs remarques et suggestions. Nous les remercions par avance.

Page 7: Analyse de variance et correlation

_______________________________________________________________________________ 3 ______________________________________________________________________________

9. Analyse de variance à un critère de classification

Séquence de travail n° 1

6 h

ANALYSE DE VARIANCE À UN CRITÈRE

DE CLASSIFICATION

9

Objectifs pédagogiques

A la fin de cette séquence, mais étape par étape, vous devriez être capable :

1. d'exposer le principe général et le but de l'analyse de variance ;

2. de préciser les conditions d'application de l'analyse de variance ;

3. d'appliquer l'analyse de variance à un critère de classification ;

4. d'utiliser la technique d'analyse de variance et les tables de distributions F

pour prendre les décisions statistiques appropriés concernant la comparaison

des moyennes de trois populations ou plus ;

5. de conduire une comparaison multiple de moyennes par le test de la PPDS.

Page 8: Analyse de variance et correlation

_______________________________________________________________________________ 4 ______________________________________________________________________________

9. Analyse de variance à un critère de classification

I. BUT, HYPOTHÈSES ET CONDITIONS

D'APPLICATION D'UNE ANALYSE DE VARIANCE

1. But de l'analyse de variance

Le but de l'analyse de variance est de déterminer si toutes les moyennes des populations

étudiées sont égales entre elles.

Il s'agit de comparer les moyennes de plusieurs populations supposées normales et de

même variance à partir d'échantillons aléatoires simples et indépendants les uns des

autres.

En pratique, le but de l'analyse de variance est de tester l'influence d'un ou de plusieurs

facteurs ou effets sur une variable mesurable (ou quantifiable) traduisant l'influence de ce

(ou ces) facteur (s).

Par exemples, l'analyse de variance s'impose lorsqu'on veut étudier :

• l'influence du facteur alimentation sur la croissance d'un animal ou la production laitière;

• l'influence des facteurs race et alimentation sur la composition d'un lait de vache ou de

brebis.

Les facteurs dont on veut tester l'influence peuvent être :

• soit des facteurs étudiés pour leur intérêt biologique, zootechnique ou agronomique : sexe,

alimentation, agent fertilisant etc.

• soit des facteurs destinés à contrôler la variabilité due à des facteurs « extérieurs » : effets de

l'année, de l'étable, du bloc, etc.

Chaque facteur étudié ou contrôlé peut présenter plusieurs niveaux comme par exemples :

- 2 niveaux pour le sexe (mâle ou femelle)

- 4 niveaux pour la race : Prim'Holstein, Normande, Montbéliarde, Salers.

Tester l'influence d'un facteur sur la variable étudiée revient à tester l'existence ou l'absence de

différences entre les diverses modalités de ce facteur.

Page 9: Analyse de variance et correlation

_______________________________________________________________________________ 5 ______________________________________________________________________________

9. Analyse de variance à un critère de classification

On peut tester simultanément l'influence de plusieurs facteurs et de leurs interactions, sur la

variable étudiée : on parlera alors d'analyse de variance à deux, trois ou plusieurs facteurs (ou

critères) qui sera étudiée au chapitre suivant.

Dans le présent chapitre, on se limitera à l'étude d'un seul facteur étudié : il s'agit d'une

analyse de variance à un facteur de variation, ou un critère de classification. Nous

étudierons, au chapitre suivant, le cas de l'analyse de variance à deux critères de

classification.

2. Hypothèse à tester

L'hypothèse nulle à tester dans ce cas est :

Ho : les échantillons proviennent de différentes populations dont les moyennes sont

identiques.

Ho :

1 = 2 =

3 = ... =

k

k = nombre de populations considérées.

Dans ces conditions, l'hypothèse alternative (H1) sera la suivante : les moyennes des

populations ne sont pas toutes égales entre elles.

Si H1 est acceptée, il faut conclure qu'au moins une moyenne de population diffère des autres

moyennes de population.

Cependant l'analyse de variance ne permet pas de déterminer combien de moyennes de

population sont différentes les unes des autres et, de plus, il est impossible de déceler, avec

cette technique, quelles sont les moyennes qui diffèrent.

3. Conditions d'application de l'analyse de variance

Trois conditions essentielles d'application sont requises pour l'analyse de variance :

1. les échantillons sont aléatoires et indépendants ;

2. les distributions des populations sont approximativement normales ou normales ;

3. les populations ont toutes la même variance.

12 = 2

2 = 32 = ........ = k

2

Page 10: Analyse de variance et correlation

_______________________________________________________________________________ 6 ______________________________________________________________________________

9. Analyse de variance à un critère de classification

Autrement dit, lorsque Ho est vraie et lorsque ces trois conditions sont remplies, la situation

est essentiellement équivalente à celle où tous les échantillons sont prélevés dans la même

population (figure 1)

En revanche, les moyennes des populations ne sont pas égales si Ho est fausse, et les

échantillons pourront être considérés comme provenant de populations telles que celles

illustrées à la figure 2 si les trois conditions sont remplies.

1 2 3

Fig. 1. k populations normales avec : Fig. 2. Trois populations normales avec :

1 = 2 = 3 =...........k 1 ≠ 2 ≠ 3

12 = 2

2 = 32 ...= k

2 12 = 2

2 = 32

Page 11: Analyse de variance et correlation

_______________________________________________________________________________ 7 ______________________________________________________________________________

9. Analyse de variance à un critère de classification

II. THÉORIE DE L'ANALYSE DE VARIANCE

On examinera des estimations de la variance de la population, 2, afin de déterminer si les

moyennes des populations sont égales et ce, pour les raisons exposées ci-dessous.

Dans une analyse de variance, on calcule deux estimations de la variance de la population

selon deux approches indépendantes.

1. Calculer une estimation de 2 qui demeurera valable, que les moyennes des populations

soient égales ou non.

2. Estimer sans biais 2 si et seulement si les moyennes des populations sont égales. Toute

différence entre les moyennes des populations affectera la valeur de cette estimation 2.

Cependant, s'il n'existait aucune différence entre les moyennes, les deux estimations calculées

de 2 seraient très proches l'une de l'autre (une comparaison de ces deux estimations servira à

tester la validité de Ho ).

Autrement dit :

• Si les deux estimations calculées sont approximativement égales, on peut conclure qu'il n'y

a probablement pas de différence entre les moyennes des populations. Donc, Ho est acceptée.

• S'il existe une différence significative entre les estimations calculées selon les deux

approches, on doit conclure que les différences au sein des moyennes des populations ont

influencé la valeur de la seconde estimation. Donc Ho doit être rejetée.

1. Variance intra-population : 2intra

2intra est une estimation de 2 non influencée par les moyennes des populations.

C'est la première estimation de 2 qui consiste en une moyenne des variances à l'intérieur de

chacun des échantillons. Chacune des variances échantillonnales (s2) pourrait, après une

légère modification, servir d'estimateur sans biais de 2 ; cependant, on utilise généralement

la moyenne arithmétique des variances de tous les échantillons pour estimer 2 , l'estimation

obtenue reposant alors sur un plus grand nombre de données.

2. Variance inter-population : 2inter

2inter est un estimateur de 2 si Ho est vraie.

C'est la seconde approche qui est basée sur la variation entre les moyennes échantillonnales.

Si Ho est vraie, on peut alors considérer que tous les échantillons proviennent d'une même

population de moyenne .

L'écart type de la distribution d'échantillonnage - ou erreur type de la moyenne échantillonnale

- est obtenu par la formule suivante :

Page 12: Analyse de variance et correlation

_______________________________________________________________________________ 8 ______________________________________________________________________________

9. Analyse de variance à un critère de classification

x =

n ou 2

x = 2

n c'est-à-dire n 2

x = 2

Donc, si Ho était vraie, inter serait une estimation sans biais de la variance de la population

et devrait être approximativement égal à la valeur de intra .

Par contre, s'il devait y avoir une différence significative entre intra et inter ,

on devrait conclure que cette différence est causée par des différences entre les

moyennes des populations.

3. Le rapport F et les tables de distributions F

Il s'agit de savoir à quel moment la différence entre les deux estimations de 2 est

significative et si la différence entre intra et inter est due à l'inégalité des moyennes des

populations ou simplement aux fluctuations d'échantillonnage.

En pratique, on analyse le rapport entre inter et intra plutôt que la différence entre ces

deux valeurs. Ce rapport, appelé valeur F observé (ou calculé), est donc :

F = 2

inter

2intra

Idéalement, si Ho est vraie, F observé devrait être égal à 1. Cependant, du fait des

fluctuations d'échantillonnage, on s'attend à des différences entre les deux estimations de 2

et ce, même si Ho est vraie. Il faudrait alors déterminer de quelle grandeur doit être cette

différence qui se reflète dans la valeur F calculée pour rejeter légitimement Ho.

La valeur maximale que peut atteindre le rapport F calculé avant le rejet de Ho est donnée

dans les tables de distributions F. ( Voir tables V et VI de distributions F en fin de livret).

La conclusion à tirer concernant Ho sera basée sur la comparaison de F calculé (ou

observé) avec une valeur repérée dans les tables.

Si Fobservé < à la valeur trouvée dans les tables, Ho sera acceptée sinon Ho est

rejetée.

ATTENTION !

Il faut se souvenir que, contrairement au test F appliqué à la

comparaison de deux variances (chapitre 7) qui est un test bilatéral, le

test F appliqué dans l' analyse de variance, est un test unilatéral à

droite pour lequel on doit utiliser les tables V-A ( pour = 0,05) et VI-

A (pour = 0,01).

Page 13: Analyse de variance et correlation

_______________________________________________________________________________ 9 ______________________________________________________________________________

9. Analyse de variance à un critère de classification

III. RÉALISATION DE L'ANALYSE DE VARIANCE

L'analyse de variance à un critère de classification ( on dit aussi à un facteur) permet de

comparer les moyennes de plusieurs populations supposées normales et de même variance, à

partir d'échantillons aléatoires simples et indépendants les uns des autres.

Le tableau 1 (page suivante) présente les données relatives à l'analyse de variance à un critère

de classification.

Comment lire ce tableau ?

Le facteur étudié présente p modalités et nous désignerons par i l'une quelconque de ces

modalités (i = 1, 2, 3 … … p) ; il y a donc p échantillons de tailles n1 , n2 … … ni … np avec

ni = n.

Nous désignerons par xik la variable aléatoire, résultat du kième individu soumis à la iième

modalité du facteur étudié.

La moyenne de l'échantillon i sera désignée par xi et la moyenne de tous les échantillons par

x .

Dans ces conditions, le modèle de l'analyse de variance s'écrit :

xik - x = xi - x + xik - xi

ce qui indique que les écarts constatés sur l'individu xik par rapport à la moyenne générale

xik - x auxquels correspond la variation totale, se décomposent en deux éléments

additifs :

• les écarts entre la moyenne de l'échantillon et la moyenne générale, xi - x , auxquels

correspond la variation factorielle.

• les écarts de chaque individu par rapport à la moyenne de l'échantillon, xik - xi ,

auxquels correspond la variation résiduelle.

On démontre que, en élevant au carré les deux membres de cette égalité puis en sommant, on

obtient la décomposition en carrés ci-dessous, appelée l'équation de l'analyse de variance:

i=1

p

k=1

ni (xik - x ) 2 =

i=1

p ni ( xi - x )2 +

i=1

p

k=1

ni (xik - xi ) 2

Page 14: Analyse de variance et correlation

______________________________________________________________________________ 10 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

Somme des carrés des écarts

totale

SCEt

Somme des carrés des écarts

factorielle

SCEf

Somme des carrés des écarts

résiduelle (ou aléatoire)

SCEr

1. Echantillons d'effectifs inégaux

1. Première étape de l'analyse

La réalisation de l'analyse de variance, dans le cas d'échantillons d'effectifs inégaux se fera

selon la présentation du tableau 1.

Tableau 1. Présentation des données et des calculs lors de la réalisation de l'analyse de

variance à un critère de classification.

i(modalités)

k (individus)

1 2 … p Totaux

1

2

.

.

.

x11

x12

.

.

.

x1n1

x21

x22

.

.

.

.

x2n2

… xp1

xp2

.

.

xpnp

ni n1 n2 … np n. = ni (effectif total)

Xi. = xik (pour tout i) X1. X2. … Xp. X.. = Xi.

xik2 x1k

2 x2k2 … xpk

2 T = x2ik

Xi.2/ni X1.

2/n1 X2.2/n2 … Xp.

2/np -

SCEi = x2ik -

X2i.

ni

(pour tout i)

SCE1 SCE2 … SCEp SCEr = SCEi

i2 =

SCEi

ni-1

(pour tout i)

12 2

2 … p2 -

xi = Xi.

ni (pour tout i)

x1 x2 … xp -

Moyenne générale x =

X..

n.

La réalisation du tableau d'analyse de variance nécessite enfin le calcul des quantités suivantes

:

• Terme correctif : C = X..2 / n.

• Somme des carrés des écarts totale : SCEt = T - C

Page 15: Analyse de variance et correlation

______________________________________________________________________________ 11 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

• Somme des carrés des écarts factorielle : SCEf = SCEt - SCEr

• Carrés moyens : CMf = SCEf

p-1 et CMr =

SCEr

n-p

Fobservé = CMf

CMr =

2inter

2intra

Page 16: Analyse de variance et correlation

______________________________________________________________________________ 12 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

2. Deuxième étape de l'analyse

Après avoir dressé le tableau ci-dessus, on réalise le test de l'hypothèse nulle en comparant la

valeur de F observée à la valeur de F des tables de Fisher (tables V-A et VI-A) avec comme

degrés de liberté :

1 = p-1 et 2 = n-p

La présentation du tableau de l'analyse de variance se fera ainsi :

Sources de variation ddl SCE CM F

Entre populations -facteur contrôlé-

(2 inter) 1 = p-1 SCEf CMf Fobs =

CMf

CMr

Entre observations, dans les

populations (erreur résiduelle)

(2 intra)

2 = n-p SCEr CMr

Totaux n-1 SCEt

Nous retrouvons bien ce qui a déjà été signalé. En effet, cette façon de procéder indique

que les écarts constatés par rapport à la moyenne générale - auxquels correspond la

variation totale - se décomposent en 2 éléments additifs :

• les écarts par rapport à la moyenne de l'échantillon, auxquels correspond la variation

résiduelle ;

• les écarts entre la moyenne de l'échantillon et la moyenne générale, auxquels correspond

la variation factorielle.

Ce qui se traduit par l'équation de l'analyse de variance ci-dessous :

SCEt = SCEf + SCEr

En divisant ces SCE par le nombre de degrés de libertés correspondant, on obtient les carrés

moyens ou tout simplement les variances.

Si l'hypothèse Ho est vraie, le rapport Fcalculé (on dit aussi Fobservé)

Fobservé = CMf

CMr

est une variable aléatoire de Fisher-Snedecor à 1 = p-1 et 2 = n-p degrés de liberté.

Page 17: Analyse de variance et correlation

______________________________________________________________________________ 13 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

La règle de décision sera alors la suivante :

• Si Fobservé < Ftable (pour 1 et ddl et un risque donné), on garde Ho. Cela veut dire

qu'il n' y a pas d'influence significative du facteur étudié sur la variable considérée.

• Si Fobservé ≥ Ftable (pour 1 et ddl et un risque donné), on rejette Ho. Cela veut dire

que le facteur étudié a une influence significative sur la variable considérée.

3. Exemple pratique

On souhaite comparer le poids moyen, à un âge déterminé, de moutons d'une même race

provenant de 3 régions différentes.

Les résultats obtenus sur 3 échantillons sont les suivants (en kg) :

Région 1

Lot 1

Région 2

Lot 2

Région 3

Lot 3

59,8 61,5 58,9

62,1 60,5 60

59,2 60,6 59,3

59,2 61,3 57

58,4 58,5 59,9

61,1 63 59,9

62,3 60,2 58,9

60 62,3 56,8

60,5 60,6 57,6

61,3 61,1 58,7

62,5 62 -

58,9 62,1 -

58,6 65,3 -

- 60,5 -

En fait, il s'agit de savoir si la région d'où provient chacun de ces trois lots, influence le poids

des moutons ou non.

Pour répondre à la question posée, il faudrait réaliser une analyse de variance pour tester

l'hypothèse d'égalité des moyennes des poids qui sont donnés.

Bien évidemment, l'hypothèse nulle consiste à considérer qu'il n' y a pas de différence entre

les moyennes des poids des 3 lots.

Ho : 1 = 2= 3

Sous cette hypothèse Ho, on peut considérer que quelle que soit la région d'où proviennent les

moutons, leur poids est le même ; autrement dit la région n'a aucune influence sur le poids

des animaux.

Le test de l'analyse de variance nous permettra soit d'accepter cette hypothèse d'égalité des

moyennes, soit alors de la rejeter.

Page 18: Analyse de variance et correlation

______________________________________________________________________________ 14 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

Pour cela, réalisons le premier tableau de présentation des données et des calculs.

Pour une meilleure compréhension, ce tableau se présentera de façon légèrement différente du

tableau 1 exposé plus haut.

Lot 1 Lot 2 Lot 3 Totaux

59,8 61,5 58,9

62,1 60,5 60

59,2 60,6 59,3

59,2 61,3 57

58,4 58,5 59,9

61,1 63 59,9

62,3 60,2 58,9

60 62,3 56,8

60,5 60,6 57,6

61,3 61,1 58,7

62,5 62

58,9 62,1

58,6 65,3

60,5

ni 13 14 10 37 = n.

Moyenne 60,30 61,39 58,70 -

xi = Xi. 783,90 859,50 587,00 2230,4 = X..

xi2 = A 47294,15 52799,45 34469,62 134563,22 = T

Xi.2/ni = B 47269,17 52767,16 34456,9 -

SCEi = A - B 24,98 32,29 12,72 69,99 = SCEr

i2 2,082 2,484 1,413 -

C = X..2/n. = 134450,9

SCEt = T - C = 112,298

L'étape suivante est la réalisation du tableau de l'analyse de variance

Sources de variation ddl SCE CM F

Différences entre régions 2 42,30 21,153 10,28*** = Fobs

Différences entre les poids

(pour un même lot)

34 69,99 2,058 F0,05,;2,;34 = 3,28

F0,01,;2,;34 = 5,29

Totaux 36 112,297

Au seuil de 5 %, pour ddl1 = 2 et ddl2 = 34, la table V-A donne F = 3,28

Au seuil de 1 %, pour ddl1 = 2 et ddl2 = 34, la table VI-A donne F = 5,29

Au seuil de 1 0/00, pour ddl1 = 2 et ddl2 = 34, F = 8,52

Page 19: Analyse de variance et correlation

______________________________________________________________________________ 15 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

Dans les 3 cas, Fobservé > Ftable . Ceci nous conduit au rejet de HO.

Concrètement cela signifie que la région d'où proviennent les animaux influence leur poids.

Remarques

1. Il est d'usage de marquer les différences significatives d'un, de deux ou de trois

astérisques respectivement pour les niveaux 0,05, 0,01 et 0,001.

Dans notre cas Fobs = 10,28 est supérieur à Ftable même au niveau de 0,001, c'est-à-dire

avec un risque d'erreur de première espèce inférieur à 10/00. Aussi, la valeur 10,28 est

désignée par 3 astérisques.

2. Il faut se souvenir que si H1 est acceptée, ce qui est le cas dans notre exemple, il faut

conclure qu'au moins une moyenne de population diffère des autres moyennes de

population.

Cependant l'analyse de variance ne permet pas de déterminer combien de moyennes

de population sont différentes les unes des autres et, de plus, il est impossible de

déceler, avec cette technique, quelles sont les moyennes qui diffèrent.

Exemple.

Appliquons l'analyse de variance pour les deux premiers lots uniquement (lots 1 et 2)

Après calculs, nous obtenons le tableau suivant :

Sources de variation ddl SCE CM F

2 inter 1 8,051 8,050714 3,51 = Fobs

2 intra 25 57,27 2,290771 F0,05;1;25 = 4,24

F0,01;1;25 = 7,77

Totaux 26 65,320 Décision : on accepte Ho

Dans ce cas, on remarque que Fobs < Ftable . Ce qui nous conduit à accepter Ho, c'est-à-dire

qu'il n' y a pas de différence significative des poids des lots 1 et 2.

Appliquons à présent l'analyse de variance pour les lots 1 et 3

Après calculs, nous obtenons le tableau suivant :

Sources de variation ddl SCE CM F

Page 20: Analyse de variance et correlation

______________________________________________________________________________ 16 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

2 inter 1 14,470 14,469 8,059 = Fobs

2 intra 21 37,70 1,7952 F0,05;1;21 = 4,32

F0,01;1;21 = 8,02

Totaux 22 52,170 Décision : rejet de Ho

Dans ce cas, on remarque que Fobs > Ftable . Ce qui nous conduit à rejeter Ho, c'est-à-dire qu'il

existe une différence significative entre les poids des lots 1 et 3.

Page 21: Analyse de variance et correlation

______________________________________________________________________________ 17 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

2. Echantillons de mêmes effectifs

1. Première étape de l'analyse

Dans ce cas, les calculs sont simplifiés comme le montre le tableau 2.

Tableau 2. Présentation des données et des calculs lors de la réalisation de l'analyse de

variance à un critère de classification (échantillons de mêmes effectifs).

i

k

1 2 … p Totaux

1

2

.

.

.

n

x11

x12

.

.

.

x1n

x21

x22

.

.

.

x2n

… xp1

xp2

.

.

.

xpn

n n n n n. = pn

Xi. = xik (pour tout i) X1. X2. … Xp. X.. = Xi.

xik2 x1k

2 x2k2 … xpk

2 T = x2ik

Xi.2/n X1.

2/n X2.2/n … Xp.

2/n -

SCEi = x2ik -

X2i.

n

(pour tout i)

SCE1 SCE2 … SCEp SCEr = SCEi

xi = Xi.

n (pour tout i )

x1 x2 … xp -

La réalisation du tableau d'analyse de variance nécessite enfin le calcul des quantités suivantes

:

• Terme correctif : C = X..2 / pn

• Somme des carrés des écarts : SCEt = T - C

• Somme des carrés des écarts factorielle : SCEf = SCEt - SCEr

• Carrés moyens : CMf = SCEf/p-1 et CMr = SCEr/p(n-1)

• Fobservé = CMf/CMr

Page 22: Analyse de variance et correlation

______________________________________________________________________________ 18 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

2. Deuxième étape de l'analyse

Après avoir dressé le tableau ci-dessus, on réalise le test de l'hypothèse nulle en comparant la

valeur de F observée à la valeur de F des tables de Fisher (tables V-A et VI-A) avec comme

degrés de liberté :

1 = p-1 et 2 = p (n-1)

La présentation du tableau de l'analyse de variance se fera ainsi :

Sources de variation ddl SCE CM F

Entre populations -facteur contrôlé-

(2 inter) p-1 SCEf CMf Fobs =

CMf

CMr

Entre observations, dans les

populations (erreur résiduelle)

(2 intra)

p (n-1) SCEr CMr

Totaux pn - 1 SCEt

3. Exemple pratique

On voudrait comparer les rendements en matière sèche (en kg/ha), à une date déterminée, d'un

certain fourrage cultivé sur 3 prairies différentes. Les résultats obtenus dans chaque prairie

sont résumés dans le tableau ci-dessous :

Prairie 1 Prairie 2 Prairie 3

20,5 14,8 12,5

19,6 18,7 17,2

26,4 19,6 17,4

28,5 21,4 18,3

27,9 25,2 20,2

Ho : pas de différence entre les rendements fourragers des 3 types de prairies.

Tableau des données et des calculs.

Prairie 1 Prairie 2 Prairie 3 Totaux

20,5 14,8 12,5

19,6 18,7 17,2

26,4 19,6 17,4

28,5 21,4 18,3

27,9 25,2 20,2

n 5 5 5 15 = n.

Moyenne 24,58 19,94 17,12 -

Xi = xi 122,90 99,70 85,60 308,2 = X..

xi2 = A 3092,03 2045,89 1497,78 6635,7 = T

Xi2/5 = B 3020,882 1988,018 1465,472 -

SCEi = A-B 71,15 57,87 32,31 161,33 = SCEr

Page 23: Analyse de variance et correlation

______________________________________________________________________________ 19 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

C = X2../15 = 6332,5

SCEt = T-C = 303,217

Le tableau de l'analyse de variance se présente alors ainsi :

Sources de variation ddl SCE CM F

inter 2 141,88 70,94 5,277* = Fobs

intra 12 161,33 13,44 F0,05;2;12 = 3,89

Totaux 14 303,21 F0,01;2;12 = 6,93

Décision statistique :

Fobservé > F0,05;2;12 rejet de Ho à 5%.

Fobservé < F0,01;2;12 acceptation de Ho à 1%

Autrement dit au seuil de 5%, Fobs. > Ftable ; ce qui nous conduit au rejet de l'hypothèse nulle

c'est-à-dire que les rendements en matière sèche sont influencés par le type de prairie.

En revanche, au seuil de 1%, Fobs. < Ftable ; ce qui nous conduit à accepter l'hypothèse nulle.

Page 24: Analyse de variance et correlation

______________________________________________________________________________ 20 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

IV. COMPARAISONS MULTIPLES DE MOYENNES :

TEST DE LA PPDS

Nous avons signalé le fait que, lorsqu'un test d'analyse de variance aboutit au rejet de

l'hypothèse nulle (hétérogénéité des moyennes), la technique utilisée dans cette analyse ne

permettait pas de distinguer les moyennes qui différaient significativement des autres.

Ce problème peut être résolu par différentes méthodes de comparaisons multiples de

moyennes dont la méthode de la « PPDS » ou Plus Petite Différence Significative fait partie.

Il s'agit d'une méthode simple de comparaison de p moyennes deux à deux.

Dans tout ce qui suivra, les conditions d'application de l'analyse de variance sont

supposées remplies. Nous supposerons aussi l'égalité des effectifs de tous les

échantillons à comparer.

Partons d'un exemple…

On voudrait étudier la fréquentation des agents commerciaux pour 4 stands au salon de

l'Agriculture de Paris, sur les 5 premiers jours de la semaine d'ouverture.

On voudrait tester l'hypothèse d'égalité de fréquentation moyenne Ho contre l'inégalité H1, en

supposant le facteur " jour " sans influence. Les jours sont des répétitions. Les résultats sont

consignés dans le tableau ci-dessous.

Stand 1 Stand 2 Stand 3 Stand 4

J1 10 12 8 9

J2 9 10 9 6

J3 11 14 11 11

J4 13 12 8 11

J5 10 12 8 9

Il s'agit de comparer 4 moyennes de fréquentation des stands par les agents commerciaux.

Réalisation de l'analyse de variance

Stand 1 Stand 2 Stand 3 Stand 4 Totaux

J1 10 12 8 9

J2 9 10 9 6

J3 11 14 11 11

J4 13 12 8 11

J5 10 12 8 9

n 5 5 5 5 n. = 20

Moyenne 10,60 12,00 8,80 9,20

Xi = xi 53,00 60,00 44,00 46,00 X.. = 203

xi2 = A 571 728 394 440 T = 2133

Xi2/5 = B 561,8 720 387,2 423,2

SCEi = A-B 9,20 8,00 6,80 16,80 SCEr = 40,8

Page 25: Analyse de variance et correlation

______________________________________________________________________________ 21 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

C = X2../n. = 2060,5

SCEt = T-C = 72,550

Tableau de l'analyse de variance

Sources variation ddl SCE CM Fobs Ftable

inter 3 31,750 10,5833 4,150327 F3,16,0,05 = 3,24

intra 16 40,80 2,55

total 19 72,550

Conclusion :

Fobs (4,15) > Ftable (3,24) : on rejette l'hypothèse Ho d'égalité des fréquentations moyenne. Il y

a au moins une moyenne qui diffère des autres.

Lorsqu'on se trouve devant cette situation, il est parfois souhaitable de déterminer les signes

d'égalité à éliminer, en comparant les moyennes deux à deux grâce au test t de Student par

exemple.

Pour p moyennes à comparer, il existe p (p - 1)

2 couples (i,i' ) à comparer.

S'agissant d'une comparaison de deux moyennes observées sur deux petits échantillons de

mêmes effectifs, dont les variances sont inconnues, pour chaque couple de moyennes

comparées, on utilisera la formule :

tobs =

xi - xi'

SCEi + SCEi'

n(n - 1)

avec un ddl = 2n - 2.

Cependant, les conditions de l'analyse de variance étant supposées remplies (variances de

populations égales ), il n'est guère utile de rechercher, pour chacune de ces comparaisons, une

nouvelle estimation de la variance commune par la quantité :

2 = SCEi + SCEi'

ni + ni' - 2

Dans ces conditions, on utilise préférentiellement, la quantité :

2 = CMr

qui représente une estimation globale fournie par le carré moyen résiduel.

Par ailleurs, pour des effectifs égaux, nous pouvons comparer les moyennes observées deux à

deux en calculant les p (p - 1)/2 valeurs du t observé de Student en utilisant la formule :

Page 26: Analyse de variance et correlation

______________________________________________________________________________ 22 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

tobs =

xi - xi'

2 CMr

n

puis en comparant la valeur de tobs aux t de la table de Student.

Cependant, pour des raisons mathématiques, il semble préférable de calculer la quantité :

PPDS = t , 2 CMr

n

étant le risque d'erreur choisi et le nombre de degrés de liberté de la «résiduelle», puis de

rejeter l'hypothèse d'égalité des moyennes chaque fois que la différence xi -

xi' (en valeur absolue) est supérieure ou égale à la PPDS.

Cette première définition de la PPDS reste valable pour l'analyse de variance à un critère de

classification mais peut être étendue, après modification, à l'analyse de variance à deux

critères.

Ainsi dans notre exemple :

n = 5

CMr = 2,55

CMr = 16 ddl

ttable ( = 0,05, ddl = 16) = 2,12

d'où :

PPDS = t , 2 CMr

n = 2,12

2 2,55

5 = 2,141

Deux méthodes de représentation des résultats sont alors possibles.

• Première méthode

On peut disposer toutes les différences dans un tableau à double entrée et indiquer par un

astérisque la signification au seuil = 0,05 et par deux astérisques au seuil de 0,01.

x3 = 8,8 x4 = 9,2 x1 = 10,6 x2 = 12,0 Moyenne

0,4

9,2 - 8,8

1,8

10,6 - 8,8

3,2*

12 - 8,8

x3 = 8,8

1,4

10,6 - 9,2

2,8*

12,0 - 9,2

x4 = 9,2

Page 27: Analyse de variance et correlation

______________________________________________________________________________ 23 _____________________________________________________________________________

9. Analyse de variance à un critère de classification

1,4

12,0 - 10,6

x1 = 10,6

Sur ce tableau les seules valeurs supérieures à la PPDS sont 3,2 et 2,8.

Autrement dit, seules les moyennes 2 et 3 d'une part et 2 et 4 d'autre part diffèrent

significativement au risque de 5 %.

• Deuxième méthode

On peut aussi ordonner les moyennes et souligner celles qui ne diffèrent pas

significativement :

x3

8,8

x4

9,2

x1

10,6

x2

12,0

----------------------------------------

--------------------------

Remarque.

La méthode de la PPDS est critiquée par de nombreux auteurs qui ne la considèrent

pas tout à fait fiable quant à l'interprétation de ses résultats notamment en matière

de risque d'erreur associé à la conclusion.

Sans entrer dans les détails mathématiques, il faut retenir que la méthode de la

PPDS est d'autant moins fiable que le nombre de comparaisons de moyennes deux à

deux, est élevé. Pour un nombre de moyennes « élevé », on risque de déclarer à tort

des différences significatives qui ne le sont pas. Il faut donc éviter d'utiliser la PPDS

dans ce cas ou, à la rigueur, l'utiliser avec un risque de 0,01.

Page 28: Analyse de variance et correlation
Page 29: Analyse de variance et correlation

______________________________________________________________________________ 25 _____________________________________________________________________________

10. Analyse de variance à deux critères de classification

Séquence de travail n° 2

3 h

ANALYSE DE VARIANCE À DEUX

CRITÈRES DE CLASSIFICATION

MODÈLES CROISÉS ÉCHANTILLONS DE MÊMES EFFECTIFS

10

Objectifs pédagogiques : A la fin de cette séquence, mais étape par étape, vous devriez être capable :

1. de réaliser une analyse de variance à deux critères de classification ;

2. de définir concrètement une interaction entre deux facteurs ;

3. d'interpréter les résultats d'une analyse de variance à deux critères de

classification.

Page 30: Analyse de variance et correlation

______________________________________________________________________________ 26 _____________________________________________________________________________

10. Analyse de variance à deux critères de classification

I. POSITION DU PROBLÈME

Dans l'analyse de variance à un critère de classification, le principe consistait à

diviser la variation totale en deux composantes :

• factorielle

• résiduelle

Cette façon de procéder peut être étendue à deux critères de classification, la

variation totale étant alors divisée en plus de deux composantes : l'une

résiduelle et les autres liées aux deux critères de classification.

Les deux facteurs considérés peuvent être placés sur le même pied (modèles

croisés) ou subordonnés l'un à l'autre (modèles hiérarchisés).

Dans chaque cas, on doit distinguer un modèle fixe, un modèle aléatoire et un

modèle mixte selon que les deux critères de classification sont fixes, aléatoires,

ou l'un fixe, l'autre aléatoire.

Dans ce qui suivra, nous ne considérerons que la réalisation et l'interprétation

de l'analyse de variance à deux critères de classification pour des modèles

croisés et des échantillons de mêmes effectifs.

Page 31: Analyse de variance et correlation

______________________________________________________________________________ 27 _____________________________________________________________________________

10. Analyse de variance à deux critères de classification

II. RÉALISATION ET INTERPRÉTATION DE L'ANALYSE DE

VARIANCE À DEUX CRITÈRES DE CLASSIFICATION.

ÉCHANTILLONS DE PLUSIEURS OBSERVATIONS

1. Présentation des données et des calculs

La présentation des tableaux des données et des calculs se fera en deux parties.

1. Première partie

Tableau 1. Analyse de variance à deux critères de classification : réalisation des calculs.

i 1 .......... p Totaux

j

k

1 .......... q .......... 1 .......... q

1

2

.

.

.

n

x111

x112

.

.

.

x11n

..........

..........

..........

x1q1

x1q2

.

.

.

x1qn

..........

..........

..........

xp11

xp12

.

.

.

xp1n

..........

..........

..........

xpq1

xpq2

.

.

.

xpqn

Xij. X11. .......... X1q. .......... Xp1. .......... Xpq. X...

k=1

n x2ijk

k=1

n x211k ..........

k=1

n x21qk ..........

k=1

n x2p1k ..........

k=1

n x2pqk T

X2ij./n X2

11./n .......... X21q./n .......... X2

p1./n .......... X2pq./n -

SCEij SCE11 .......... SCE1q .......... SCEp1 .......... SCEpq SCEr

avec les principales notations et formules suivantes :

• Pour les totaux par échantillon : Xij. =

k=1

n xijk pour tout i et tout j

• Pour le total général : X... =

i=1

p

j=1

q Xij.

• Pour la somme des carrés générale : T =

i=1

p

j=1

q

k=1

n x2ijk

• Pour le terme correctif : C = X2.../pqn

• Pour la somme des carrés des écarts totale : SCEt = T - C

• Pour la somme des carrés des écarts par échantillon :

Page 32: Analyse de variance et correlation

______________________________________________________________________________ 28 _____________________________________________________________________________

10. Analyse de variance à deux critères de classification

SCEij =

k=1

n x2ijk - X2

ij. / n (pour tout i et tout j)

• Pour la somme des carrés des écarts résiduelle :

SCEr =

i=1

p

j=1

q SCEij

La différence [ SCEt - SCEr ] est une somme des carrés des écarts relative à l'ensemble des

facteurs contrôlés.

Cette différence sera en fait divisée en trois composantes factorielles :

- les deux premières liées chacune à l'un des 2 facteurs contrôlés

- la troisième à l'interaction des 2 facteurs.

Pour cela, il faut dresser un deuxième tableau de la façon suivante :

- en reportant le contenu de la ligne Xij. du tableau précédant ;

- et en calculant les sommes suivantes :

• Xi.. =

j=1

q Xij. (pour tout i)

• X.j. =

i=1

p Xij. (pour tout j)

2. Deuxième partie

Tableau 2. Analyse de variance à deux critères de classification :

Suite de la réalisation des calculs

j

i

1 ................. q Xi..

1

.

.

.

p

X11. . . .

Xp1.

.................

.

.

.

.................

X1q. . . .

Xpq.

X1.. . . .

Xp..

X.j. X.1. ................. X.q. X...

Dans ces conditions, on aura évidemment :

i=1

p Xi.. =

j=1

q X.j. = X...

Les sommes des carrés des écarts liées aux deux facteurs seront :

- SCEf = 1

qn

i=1

p X2i.. - C

Page 33: Analyse de variance et correlation

______________________________________________________________________________ 29 _____________________________________________________________________________

10. Analyse de variance à deux critères de classification

- SCEb = 1

pn

j=1

q X2.j. - C

On obtient alors par différence :

SCEfb = SCEt - SCEr - SCEf - SCEb

ou encore, l'équation de l'analyse de variance pour deux facteurs contrôlés simultanément :

SCEt = SCEf + SCEb + SCEfb + SCEr

Cette équation indique donc que la variation totale (SCEt) peut être décomposée en 4

composantes principales :

• variation due au facteur a : SCEf ;

• variation due au facteur b : SCEb ;

• variation due à l'interaction entre les facteurs a et b : SCEfb ;

• une somme résiduelle.

La notion d'interaction sera précisée plus loin

A ces différentes sommes des carrés sont affectés des nombres de degrés de liberté par la

relation suivante :

pqn - 1 = (p - 1) + (q - 1) + (p - 1) (q - 1) + pq (n - 1)

À cette étape, nous pouvons dresser le tableau d'analyse de la variance en calculant les

nombres de degrés de liberté, les carrés moyens et les valeurs de Ff , Fb et Fab :

Ff = CMf

CMr Fb =

CMb

CMr Ffb =

CMfb

CMr

Tableau 3. Tableau d'analyse de variance

Sources de variation ddl SCE CM F

Facteur a p - 1 SCEf CMf Ff

Facteur b q - 1 SCEb CMb Fb

Interaction (p-1) (q-1) SCEfb CMfb Ffb

Variation résiduelle pq (n-1) SCEr CMr

Totaux pqn - 1 SCEt

Page 34: Analyse de variance et correlation

______________________________________________________________________________ 30 _____________________________________________________________________________

10. Analyse de variance à deux critères de classification

2. Application pratique

Supposons que l'on veuille comparer, chez deux races bovines différentes (critère 1), les effets

de 3 régimes alimentaires caractérisés par des teneurs énergétiques différentes (critère 2) :

haut (H), bas (B) et moyen (M).

Le tableau 1 donne les résultats de la production laitière (en kg de lait/jour) obtenus avec

chacun de ces 3 régimes. Pour chaque combinaison entre ces 2 critères, 4 valeurs sont

données.

Tableau 1. Comparaison des productions laitières (en kg de lait/j), chez 2 races bovines

différentes recevant 3 régimes énergétiques différents (H, B ou M).

H

(j = 1)

B

(j = 2)

M

(j = 3)

Moyennes

( x i.. )

33 31 32

Race 1 35 32 34

(i = 1) 36 33 36

43 34 38

36,75 32,50 35,00 34,75

30 25 27

Race 2 30 27 29

(i = 2) 30 30 30

33 30 30

30,75 28,00 29,00 29,25

Moyennes

( x .j. )

33,75 30,25 32,00 32,00

( x ...)

Ainsi calculées, ces moyennes montrent une influence considérable du facteur " race ". En

effet, tous régimes confondus, la race 2 présente une moyenne de 29,25 kg de lait contre

34,75 pour la race 1 soit une différence de 5,5 kg.

Calculées par rapport à la moyenne générale, les différences dues à ce premier critère de

classification sont :

34,75 - 32,00 = 2,75

29,25 - 32,00 = - 2,75

Vous remarquerez que la somme de ces deux termes est forcément nulle.

De la même façon, si on considère le deuxième critère, on aura :

33,75 - 32,00 = 1,75

30,25 - 32,00 = - 1,75

32,00 - 32,00 = 0

la somme de ces 3 termes étant également nulle.

Page 35: Analyse de variance et correlation

______________________________________________________________________________ 31 _____________________________________________________________________________

10. Analyse de variance à deux critères de classification

Considérons à présent l'interaction entre le facteur " race " et le facteur " régime "…

Le tableau 2 illustre ce phénomène…

Tableau 2. Calcul des termes de l'interaction entre les 2 facteurs

H B M Somme

Race 1 0,25 -0,50 0,25 0

Race 2 -0,25 0,50 -0,25 0

Somme 0 0 0 0

La première case ombrée (0,25) est obtenue ainsi :

36,75 - 34,75 - 33,75 + 32 = 0,25

De la même façon, la dernière case ombrée (-0,25) est obtenue ainsi :

29 - 29,25 -32 + 32 = - 0,25

et ainsi de suite pour les autres cases…

Ces valeurs ainsi obtenues représentent les termes de l'interaction entre les deux facteurs

étudiés.

Dans le cas présent l'interaction entre le facteur " race " et le facteur " régime " peut être

considérée comme étant faible. On le confirmera plus loin par des calculs.

Imaginons à présent, des valeurs différentes pour la race 2 avec le régime B (valeurs en grisé

dans le tableau ci-dessous).

H

(j = 1)

B

(j = 2)

M

(j = 3)

Moyennes

( x i.. )

33 31 32

race 1 35 32 34

(i = 1) 36 33 36

43 34 38

36,75 32,50 35,00 34,75

30 25,5 27

race 2 30 28,5 29

(i = 2) 30 24,5 30

33 27,5 30

30,75 26,5 29,00 28,75

Moyennes

( x .j. )

33,75 29,50 32,00 31,75

( x ...)

Avec de telles valeurs, tous les termes de l'interaction seraient exactement nuls.

Exemples

Race 1, régime H : 36,75 - 34,75 -33,75 + 31,75 = 0

Race 2, régime B : 26,5 - 28,75 - 29,50 + 31,75 = 0

etc.

Page 36: Analyse de variance et correlation

______________________________________________________________________________ 32 _____________________________________________________________________________

10. Analyse de variance à deux critères de classification

Ce cas particulier traduit l'absence totale d'interaction entre les 2 facteurs.

Concrètement cela signifie que les 3 types de régimes donnent exactement la même

différence entre les 2 races. Cet écart s'obtient tout simplement par différence entre les

valeurs moyennes obtenues pour chaque race. Dans notre cas, ce sera :

36,75 - 30,75 (colonne 1) = 32,50 - 26,50 (colonne 2) = 35,00 - 29,00 (colonne 3) = 6

Bien évidemment, cette valeur peut être également obtenue directement par la différence entre

x 1.. ( soit 34,75 pour la race 1) et x 2.. (soit 28,75 pour la race 2). En effet :

34,75 - 28,75 = 6

Vous remarquerez aussi que l'absence d'interaction signifie aussi que les différences entre

les races sont indépendantes des régimes.

Exemples :

36,75 - 32,50 = 30,75 - 26,50 = 4,25 pour les régimes H et B

36,75 - 35,00 = 30,75 - 29,00 = 1,75 pour les régimes H et M

etc.

En revanche, la présence de termes d'interaction non nuls signifie qu'il existe une

" dépendance " entre les 2 facteurs étudiés.

Reprenons à présent les données du tableau 1 et effectuons l'analyse de variance…

Répétitions

(k)

Race 1 (i = 1)

Race 2 (i = 2)

Totaux

H (j = 1)

B (j = 2)

M (j = 3)

H (j = 1)

B (j = 2)

M (j = 3)

1 33 31 32 30 25 27

2 35 32 34 30 27 29

3 36 33 36 30 30 30

4 43 34 38 33 30 30

Moyenne 36,8 32,5 35,0 30,8 28,0 29,0 -

Xij. 147 130 140 123 112 116 X... = 768

k=1

4 x2ijk

5459 4230 4920 3789 3154 3370 T = 24922

X2ij./4 5402,25 4225 4900 3782,25 3136 3364 -

SCEij 56,8 5,0 20,0 6,8 18,0 6,0 SCEr = 112,5

Page 37: Analyse de variance et correlation

______________________________________________________________________________ 33 _____________________________________________________________________________

10. Analyse de variance à deux critères de classification

H (j=1)

B (j=2)

M (j=3)

Xi..

Race 1 (i = 1) 147 130 140 417

Race 2 (i = 2) 123 112 116 351

270 242 256 768

• Terme correctif : C = X2.../pqn = 24576

• Somme des carrés des écarts totale : SCEt = T - C = 346,0

• Somme des carrés des écarts résiduelle :

SCEr =

i=1

p

j=1

q SCEij = 112,5

• SCEf = (4172 + 3512)/12 - 24576 = 181,5

• SCEb = (2702 + 2422 + 2562) / 8 - 24576 = 49,0

• SCEfb = 346,0 - 112,5 - 181,5 - 49,0 = 3,0

Tableau de l'analyse de variance

Sources de variation ddl SCE CM Fobs Ftable

Race 1 181,5 181,5 29,04*** F1;18;0,05 = 4,41

Régime 2 49,0 24,5 3,92* F2;18;0,05 = 3,55

Interaction 2 3,00 1,5 0,24 F2;18;0,05 = 3,55

Variance résiduelle 18 112,5 6,25

Totaux 23 346,0

Conclusions

• il existe un effet race très important (Fobs >>> Ftable) ;

• il existe un effet régime mais faible (Fobs > Ftable);

• il n'y a pas d'interaction entre la race et le régime (Fobs < Ftable).

3. Exécution de l'analyse de variance par le logiciel EXCEL

Le problème ci-dessus peut être évidemment traité par un logiciel de statistique. Par exemple,

pour EXCEL, les données doivent être introduites ainsi :

Tableau de présentation des données

H M B

race 1 33 31 32

35 32 34

36 33 36

43 34 38

race 2 30 25 27

30 27 29

30 30 30

33 30 30

Page 38: Analyse de variance et correlation

______________________________________________________________________________ 34 _____________________________________________________________________________

10. Analyse de variance à deux critères de classification

En utilisant l'« UTILITAIRE D'ANALYSE » du menu « OUTILS », la sortie EXCEL sera

présentée selon les tableaux ci-dessous.

Tableaux de l'édition des résultats de l'analyse par EXCEL

ANALYSE DE VARIANCE : DEUX FACTEURS AVEC RÉPÉTITION D'EXPÉRIENCE

RAPPORT DÉTAILLE H M B Total

race 1

Nombre d'échantillons 4 4 4 12

Somme 147 130 140 417

Moyenne 36,75 32,5 35 34,75

Variance 18,91666667 1,666666667 6,666666667 10,75

race 2

Nombre d'échantillons 4 4 4 12

Somme 123 112 116 351

Moyenne 30,75 28 29 29,25

Variance 2,25 6 2 4,204545455

Total

Nombre d'échantillons 8 8 8

Somme 270 242 256

Moyenne 33,75 30,25 32

Variance 19,35714286 9,071428571 14

ANALYSE DE VARIANCE

Source des

variations

Somme

des carrés

Degré de

liberté

Moyenne

des carrés

F Probabilité Valeur critique

pour F

Échantillon 181,5 1 181,5 29,04 4,03299E-05 4,413863053

Colonnes 49 2 24,5 3,92 0,038620684 3,55456109

Interaction 3 2 1,5 0,24 0,789105089 3,55456109

A l'intérieur du groupe 112,5 18 6,25

Total 346 23

Vous remarquerez qu'on retrouve dans le tableau de l'analyse de variance, les mêmes résultats

effectués précédemment.

• La dernière colonne indique la valeur critique pour F, c'est-à-dire la valeur au-dessus de

laquelle on considère la différence comme significative ; autrement dit, il s'agit du Ftable

donné par les tables V-A ou VI-A pour un risque d'erreur donné.

• La colonne « probabilité » indique le risque d'erreur associé à notre décision d'acceptation ou

de rejet de l'hypothèse nulle.

Page 39: Analyse de variance et correlation

______________________________________________________________________________ 35 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

Séquence de travail n° 3

6 h

CORRÉLATION ET RÉGRESSION LINÉAIRE SIMPLE

11

Objectifs pédagogiques :

A la fin de cette séquence, mais étape par étape, vous devriez être capable :

1. d'expliquer les objectifs de l'analyse de régression et de corrélation ;

2. d'exposer le principe général de l'analyse de corrélation ;

3. d'établir un diagramme de dispersion;

4. d'estimer la liaison entre deux caractères par une équation de régression ;

5. de calculer une erreur type d'estimation et d'établir un intervalle de

prédiction ;

6. de calculer et d'interpréter un coefficient de détermination et de corrélation.

Page 40: Analyse de variance et correlation

______________________________________________________________________________ 36 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

I. POSITION DU PROBLÈME

Il est fréquent, en biologie ou en agronomie, de découvrir une relation très forte entre deux ou

plusieurs variables :

Exemples :

- Relation entre la taille et le poids d'un animal.

- Relation entre la production laitière d'une vache et le stade de lactation

- Relation entre la production laitière et la composition du lait.

- Relation entre l'administration de doses d'un produit et son effet biologique ou physiologique

sur l'organisme.

etc.

La régression et la corrélation sont deux outils qui servent à étudier et à mesurer la relation

statistique existant entre deux - ou plus de deux - variables.

On se limitera, pour notre part, à deux variables, c'est-à-dire au cas de la régression et

corrélation simples. Cependant, il faut savoir que le problème ne change pas

fondamentalement lorsqu'on passe à trois variables ou plus (corrélation et régression

multiples).

1. Analyse de régression et de corrélation

La première et principale étape d'une analyse de régression consiste à déduire, en se basant sur

les données échantillonnales, une équation d'estimation, qui décrit la nature fonctionnelle de

la relation entre les variables.

L'équation d'estimation (ou de régression) servira à estimer la valeur d'une des variables à

partir de la valeur prise par l'autre variable.

La variable dépendante, ou à prédire, est la variable qui doit être estimée. Cette

variable est placée en général sur l'axe des Y (ordonnée).

La variable indépendante ou prédictrice (notée X et portée sur l'axe des abscisses) est

censée exercer une influence sur la variable dépendante Y.

Dans l'analyse de régression, on ne se limite pas à établir une équation de la variable

dépendante. On doit déterminer aussi le degré de fiabilité des prédictions obtenues à l'aide de

cette équation. Autrement dit l'analyse de régression pose la question suivante : " De quel type

est la relation entre les variables ?"

Le but visé dans l'analyse de corrélation est de mesurer le degré d'association entre les

variables. Par conséquent, il s'agit de répondre à la question : "Quelle est la force de la relation

décrite par l'analyse de régression ?".

Page 41: Analyse de variance et correlation

______________________________________________________________________________ 37 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

On devine alors que certaines situations ne se prêtent qu'à une analyse de régression tandis

que d'autres ne se prêtent qu'à une analyse de corrélation. Cependant, en biologie, la plupart

des phénomènes étudiés se prêtent à une analyse conjointe de régression et de corrélation.

En réalité, l'expression "analyse de corrélation" englobe souvent les deux éléments, régression

et corrélation.

2. La relation de causalité en statistique

Le seul fait que deux variables soient reliées entre elles, au sens statistique du terme, n'est pas

suffisant pour conclure à l'existence d'une relation de cause à effet.

En effet, il existe plusieurs explications du fait que deux séries de données varient en même

temps. Il est logique alors d'interpréter les mesures de corrélation dans le sens d'une relation

de cause à effet au moins dans certaines situations.

Si une relation existe entre deux variables, il y aura corrélation entre elles mais la

seule existence d'une corrélation statistique n'est pas une preuve de causalité.

Les relations de causalité peuvent être classées en deux catégories : la cause à effet et la

cause commune.

La relation de cause à effet existe si la variation d'une variable est attribuable à la variation de

l'autre variable.

Exemple : variation de température dans une réaction chimique et variation du résultat de

cette réaction.

Un facteur commun peut influencer conjointement deux variables.

Exemple : variation de la croissance et du poids d'un animal et variation de l'état nutritionnel

de cet animal.

En fait, il s'agit, en régression et en corrélation, de n’étudier que les relations logiques entre

les variables dont on veut analyser le comportement.

Page 42: Analyse de variance et correlation

______________________________________________________________________________ 38 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

II. ANALYSE DE RÉGRESSION

1. Diagramme de dispersion

Étude d'un exemple de régression linéaire simple

On voudrait savoir s'il existe une relation entre les notes obtenues en contrôle continu (x) et

celles obtenues à un concours national (y) pour 8 étudiants.

Le tableau suivant résume ces notes :

Tableau 1.

Étudiants Notes au concours (y) /100 Notes du contrôle continu (x) / 20

A 42 9

B 70 14

C 27 5

D 63 12

E 58 11

F 38 7

G 62 11

H 76 15

Avant tout, il faudrait porter sur un graphique - appelé diagramme de dispersion - les

données disponibles. Sur ce graphique, chaque point représente un couple de valeurs

observées de la variable dépendante et de la variable indépendante.

Diagramme de dispersion

C

F

y = a + bxdroite de regression

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

notes au contrôle continu ( x )

note

s au

co

nco

urs

( y

)

Ce diagramme de dispersion remplit deux rôles :

Page 43: Analyse de variance et correlation

______________________________________________________________________________ 39 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

- il aide à déterminer s'il existe une relation entre les deux variables

- il aide aussi à déterminer le type d'équation appropriée pour décrire la relation.

Si l'on prend pour acquis que les notes du contrôle continu reflètent bien le niveau de

l'étudiant, on peut raisonnablement prétendre que les étudiants ayant obtenu les meilleures

notes à ce contrôle seront les meilleurs au concours.

Les données associées à un étudiant représentent un point du diagramme ci-dessus. On

remarque alors que les 8 points semblent se rapprocher d'une même droite. Dans ce cas, la

relation est positive (on dit aussi directe) puisque les 2 variables évoluent dans le même sens.

Il existe bien entendu des situations où la relation est négative (ou inverse).

La relation entre les variables n'est pas toujours linéaire comme le montre la figure ci-dessous

représentant les différents diagrammes de dispersion rencontrés.

Enfin, il est possible qu'aucune relation n'existe entre les variables (cas g de la figure ci-

dessous).

Les droites représentées à la figure ci-dessous décrivent la relation entre les variables.

Ces droites sont appelées droites de régression (ou d'estimation) .

° ° °°

°

°°

°

°°° °

°

°°

°

°°

°°

°

°

°

°

°°

° °°

°

°°

°

°

°

°

°

°°

°°

°

°

°° °

°

°

X

Y Y

X

a- Relation linéai re posit ive b-Relat ion l inéaire postive

avec une plus grande dispersion

°

°°°

°° °

° °

°

°°

°

°

°°

°°

°

X

Y Y

X X°°° °°°

°°

°

°

°

°

°

°

°

° °°

°°

°

°

°

°Y

°° ° °°

°

°

°

°

°

°

°

°

°°°

°°

°

°

°

°

° °

c- Relation linéai re

négative

d- Relation curvil igne

posit ive

e- Relation curvil igne

négative

° ° °°

°

°

°

°°

°

°

°

°°°

°°

° °°

°

°°°

°

°

°

°°

°

°°

° °°

°

°

°° ° °

°

°°

°°

°°

°

°° ° °

°

°°

° °°°

°

°° ° °

°°

°

° °°

°°°° ° °

°

°

°

Y

X

Y

X

f- Relation curvi ligne g- Absence de relat ion

Différents diagrammes de dispersion

Page 44: Analyse de variance et correlation

______________________________________________________________________________ 40 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

2. Notion de covariance

Soit une population dans laquelle on étudie simultanément les deux variables aléatoires X et

Y avec E (X) = et E(Y) = .

Par définition,

Cov (X , Y) = E [ (X - ) (Y - )]

Si nous utilisons un échantillon de n individus, pour lequel on obtient les moyennes x et y

, l'estimation de Cov (X,Y) sera :

Cov (x,y) = 1

n (x - x ) (y - y )

autrement dit, la moyenne des produits des écarts (S.P.E) que l'on écrit :

Cov ( x , y) = S.P.E

n =

xy - x . y

n

n =

xy - n x . y

n

Exemple

Calculer la covariance des deux distributions suivantes : (x, y) ; (x',y)

x y xy x' y x'y

6 30 180 12 30 180

9 49 441 10 49 441

3 18 54 8 18 54

8 42 336 7 42 336

7 39 273 9 39 273

5 25 125 14 25 125

8 41 328 8 41 328

10 52 520 10 52 520

n 8 8 8 8

56 296 2257 78 296 2837

Cov (x,y) =

xy - x . y

n

n = 23,12

Cov (x',y) =

x'y - x' . y

n

n = - 6,125

Considérons à présent le nuage de points des valeurs observées de x et y et les droites x = x

et y = y . Ces deux droites partagent le plan en 4 secteurs (figure ci-dessous) :

• secteur I dans lequel x > x et y > y ; donc tout produit (x - x ) (y - y ) > 0 ;

• secteur II dans lequel x < x et y > y ; donc tout produit (x - x ) (y - y ) < 0 ;

Page 45: Analyse de variance et correlation

______________________________________________________________________________ 41 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

• secteur III avec (x - x ) (y - y ) > 0 ;

• secteur IV avec (x - x ) (y - y ) < 0 .

II I

IVIII

x

y

y

x

La covariance sera positive ou négative selon que le nuage de points sera situé surtout dans les

secteurs I et III ou surtout dans les secteurs II et IV. Elle sera d'autant plus élevée en valeur

absolue que le nuage de points sera plus aplati autour de son grand axe ; elle sera nulle lorsque

les points tendent à se répartir uniformément dans les 4 secteurs (nuage en forme de cercle ou

de « patate ») ou si le nuage est allongé et son grand axe parallèle à l'un des axes.

La valeur absolue de la covariance et son signe, sont des indicateurs de la liaison existant

entre deux caractères :

• lorsque la covariance est positive et élevée : les caractères sont liés et varient dans le même

sens ; on parle de liaison positive ;

• lorsque la covariance est négative et élevée : les caractères sont liés et varient en sens inverse

; on parle de liaison négative ;

• lorsque la covariance est voisine de 0 : les caractères sont indépendants ; il n'y pas de liaison

entre les caractères.

3. Droite de régression

L'équation utilisée pour ajuster la droite de régression aux données du diagramme de

dispersion est appelée équation de régression ou d'estimation .

Rappelons que nous nous limiterons à l'étude de la régression linéaire dans le cas d'une

variable prédictrice ; c'est la régression linéaire simple et la fonction obtenue est l'équation

Page 46: Analyse de variance et correlation

______________________________________________________________________________ 42 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

d'une droite : la droite de régression de y sur x ( ou de y en x ) ou droite des moindres carrés

.

Si on considère le nuage de points représentant l'ensemble des données permettant d'obtenir

l'équation de la droite de régression, la droite passe approximativement « au milieu » du nuage

de points.

L'équation de régression sera :

y = a + bx

où :

a = ordonnée à l'origine (la valeur de y pour x = 0)

b = pente de la droite de régression (la variation de y pour une variation d'une unité de x)

x = valeur de la variable indépendante.

y = valeur calculée de la variable dépendante

Attention à la confusion ! certains auteurs utilisent l'équation y = ax + b

Ainsi, la droite de régression et la droite de tendance sont toutes les deux décrites par

l'équation générale de la droite; cependant la similitude entre ces deux droites ne s'arrête pas

là. En effet, la droite de régression (tout comme la droite de tendance et la moyenne

arithmétique) possède les deux propriétés suivantes :

( y - y ) = 0

et ( y - y )2 = valeur minimale

Autrement dit, l'ajustement de la droite de régression aux données du diagramme de

dispersion sera tel que les écarts positifs observés entre les points situés au-dessus de la droite

et la droite annuleront les écarts négatifs observés entre les points situés au-dessous de la

droite et celle-ci; la somme des écarts sera alors égale à 0 (figure ci-dessous).

Page 47: Analyse de variance et correlation

______________________________________________________________________________ 43 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

y = a + bx i

x

y

yi

xi

y = a + bx

Les calculs reliés à l'analyse de régression et de corrélation seront simplifiés si les formules

précédentes sont exprimées en termes d'écarts aux moyennes des variables x et y, c'est-à-

dire d'écarts x et y .

Dans ces conditions, les valeurs de a et de b de l'équation de régression sont obtenues à l'aide

des formules suivantes :

b = (x - x ) (y - y )

(x - x )2 et a = y - b x

avec,

b = (xi - x ) (yi - y )

(xi - x )2 =

xi yi - xi . yi

n

xi2 -

[ xi]2

n

= xi yi - n x y

xi2 - n x 2

En effet,

(xi - x )2 = xi2 - 2 x xi + x xi = xi

2 - n x 2

et,

(xi - x ) (yi - y ) = xi yi - x yi - y xi + n x y

= xi yi - x . n y - y . n x + n x y

= xi yi - n x y

Page 48: Analyse de variance et correlation

______________________________________________________________________________ 44 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

et donc,

b = n . Cov ( x,y )

n . sx2 =

Cov ( x,y)

sx2

où sx2 représente la variance calculée sur l'échantillon.

b est appelé coefficient de régression de y sur x

Ainsi, l'équation de la droite de régression de y sur x peut s'écrire :

y - y = b ( x - x )

Appliquons ces formules aux données du tableau 1.

Le tableau 2 résume l'essentiel des étapes nécessaires au calcul de a et b.

Tableau 2.

Étudiants

Notes au

concours

( y )

Notes du

contrôle

continu

( x )

(y - y )

(x- x )

(y - y ) (x- x )

(x- x )2

(y - y )2

A 42 9 -12,50 -1,50 18,75 2,25 156,25

B 70 14 15,50 3,50 54,25 12,25 240,25

C 27 5 -27,50 -5,50 151,25 30,25 756,25

D 63 12 8,50 1,50 12,75 2,25 72,25

E 58 11 3,50 0,50 1,75 0,25 12,25

F 38 7 -16,50 -3,50 57,75 12,25 272,25

G 62 11 7,50 0,50 3,75 0,25 56,25

H 76 15 21,50 4,50 96,75 20,25 462,25

n = 8 436 84 0 0 397 80 2028

y = y/n = 436/8 = 54,5 x = x/n = 84/8 = 10,5

Les valeurs de a et b sont calculées ainsi :

Page 49: Analyse de variance et correlation

______________________________________________________________________________ 45 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

b = (y - y ) (x- x )

(x- x )2 =

397

80 = 4,96

a = y - b x = 54,5 - (4,96) (10,5) = 2,39

L'équation de régression qui décrit la relation entre les notes obtenues au concours et celles

obtenues au contrôle continu est donc :

y = 2,39 + 4,96 x

4. Estimation à l'aide de l'équation de régression

L'équation de régression est utilisée principalement pour estimer la valeur de la variable

dépendante pour une valeur donnée de la variable indépendante.

Exemple.

Supposons qu'un étudiant ait 6 de moyenne au contrôle continu.

On peut "raisonnablement" estimer ou prévoir sa note au concours simplement en substituant

6 à x dans l'équation de régression. L'estimation désirée sera donc :

y = 2,39 + 4,96 . (6) = 32,15

Cette estimation se retrouve à la figure ci-dessous.

y = 2,39 + 4,96xdroite de régression

0

10

20

30

40

50

60

70

80

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

notes au contrôle continu ( x )

note

s au

co

nco

urs

( y

)

32,15

Page 50: Analyse de variance et correlation

______________________________________________________________________________ 46 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

III. L'ERREUR TYPE DE L'ESTIMATION

Du fait que l'on a estimé y en fonction de x à l'aide de l'équation de régression, il est logique

de se demander à quel point cette estimation est fiable.

Considérons les deux exemples ci-dessous :

° ° °

°

°

°°° °

°

°°

°°

°°

°°°

° °

°

°°

°°

°

°

°°

°

°°

°

°°

°°

°

°

°°

°

°

° °

°

°

X

Y Y

X

°

°

°°

°°

°

°

°°

°

°

°°

°

°°

°°

°

°

°°

°

°

°°

°

°°

°°

°

°

°°

°

°

°

°°

°°°

° °

°

°°

°°°

° °

°

°°

°°°

° °

°

°°

°°°

° °

°

°°

°°°

° °

°

°°

°°°

° °

°

°°

°°°

° °

°

(a) (b)

Deux diagrammes de dispersion présentant des degrés de dispersion différents

Lorsque les points du diagramme de dispersion sont peu éloignés de la droite de régression

(Fig. a), on peut logiquement présumer que l'estimation s'appuyant sur cette relation sera

probablement plus fiable que celle qui aurait été obtenue à partir d'une droite comme celle de

la figure b où on remarque que l'éparpillement est beaucoup plus grand. D'où l'intérêt d'une

mesure de cet éparpillement ou dispersion des points autour de la droite de régression.

Cette mesure nous permettra certainement de mieux juger la fiabilité des estimations obtenues

à partir de la droite.

Comment obtenir cette mesure ?

D'abord, il est logique de penser que plus cette mesure est petite, plus la prévision sera fiable.

On donne le nom d' erreur type de l'estimation à cette mesure qu'on symbolise par Ey.x. Elle

sera donc utilisée afin de quantifier le degré de variation (ou erreur) possible associée à une

estimation obtenue à partir de la droite de régression.

1. Calcul de l'erreur type de l'estimation : Ey.x

L'erreur type de l'estimation se calcule ainsi :

Ey.x = (y - y)2

n - 2

Le tableau 3 résume l'essentiel des étapes permettant de calculer Ey.x.

Page 51: Analyse de variance et correlation

______________________________________________________________________________ 47 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

Tableau 3

Notes

au

concours

(y)

Notes du

contrôle

continu

(x)

(y - y )

(x- x )

(y - y ) (x- x

)

(x- x

)2

(y - y )2

y

(y - y )

(y - y )2

42 9 -12,50 -1,50 18,75 2,25 156,25 47,06 -5,06 25,57

70 14 15,50 3,50 54,25 12,25 240,25 71,87 -1,87 3,49

27 5 -27,50 -5,50 151,25 30,25 756,25 27,21 -0,21 0,04

63 12 8,50 1,50 12,75 2,25 72,25 61,94 1,06 1,12

58 11 3,50 0,50 1,75 0,25 12,25 56,98 1,02 1,04

38 7 -16,50 -3,50 57,75 12,25 272,25 37,13 0,87 0,75

62 11 7,50 0,50 3,75 0,25 56,25 56,98 5,02 25,19

76 15 21,50 4,50 96,75 20,25 462,25 76,83 -0,83 0,69

436 84 397 80 2028 436* 57,887

*La somme des y est égale à la somme des y .

Il en sera toujours ainsi puisque (y - y ) = 0.

Ey.x = (y - y)2

n-2 =

57,887

6 = 9,65 = 3,11

On remarquera que la valeur de Ey.x s'exprime dans les mêmes unités que la variable y.

Bien que la formule Ey.x = (y - y)2

n-2 soit très utile pour expliquer l'erreur type de

l'estimation, la formule suivante s'applique cependant plus facilement :

Ey.x = (y - y )2 - b (x - x ) (y - y )

n - 2

Toutes les valeurs de cette formule se retrouvent dans le tableau 2. Appliquons....

Ey.x = (y - y )2 - b (x - x ) (y - y )

n - 2 =

2028 - (4,96)(397)

8-2 = 3,11

2. Intervalles de prédiction

Rappelons que l'écart type est une mesure de la dispersion autour de la moyenne. Dans le

chapitre 3, nous avons vu que dans une distribution normale :

- 68, 3 % des valeurs centrales de la distribution se situent à moins d'un écart type de chaque

côté de la moyenne

- 95,4 % des valeurs se situent à une distance maximale de deux écarts types de la moyenne

Page 52: Analyse de variance et correlation

______________________________________________________________________________ 48 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

- et qu'enfin 99,7 % des valeurs sont à moins de trois écarts types de cette moyenne.

Signalons par ailleurs la similitude des calculs entre l'écart type et l'erreur type. Il faut savoir

que ces deux mesures se ressemblent aussi quant à leur interprétation.

En effet, si les valeurs de y sont distribuées « normalement » autour de la droite de régression,

on peut supposer que 68 % environ des points du diagramme de dispersion se situeront à

moins d'un écart type de l'estimation au-dessus ou en-dessous de la droite de régression

(Figure ci-dessous)

x1

y1

x

intervalle de prédiction y1± 2 (Ey.x)

Interprétation de l'erreur type de l'estimation

^y

{{

+ 3 Ey.x

- 3 Ey.x

Cet intervalle ± Ey.x est représenté, sur cette figure, par les deux droites en pointillés les plus

proches de la droite de régression. L'intervalle ± 3 Ey.x englobe presque tous les points du

diagramme de dispersion.

Sur cette même figure, l'estimation y1 a été obtenue par le remplacement de x par x1 (une

valeur donnée) dans l'équation de régression (y1 = a + bx1).

y1 est une estimation ponctuelle et, compte tenu de la dispersion autour de la droite de

régression sur la figure ci-dessus, il est peu probable que cette estimation y1 de la valeur y

pour une valeur x = x1 soit rigoureusement exacte.

La fiabilité de cette estimation ponctuelle dépend largement de la grandeur de l'erreur type de

l'estimation. On sait que plus cette erreur type est petite et plus il est probable que l'estimation

ponctuelle soit voisine de la véritable valeur de la variable dépendante.

Page 53: Analyse de variance et correlation

______________________________________________________________________________ 49 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

Autrement dit, la connaissance de l'erreur type de l'estimation permet d'améliorer la méthode

d'estimation. Donc, plutôt que de considérer l'estimation ponctuelle, on peut calculer un

intervalle de prédiction auquel sera attachée une probabilité.

Cet intervalle de prédiction sera :

y ± ( Ey.x )

étant la valeur de l'écart réduit.

L'intervalle y1 ± 2 (Ey.x) représenté à la figure précédente est un intervalle de prédiction au

niveau de 95,4 %.

Reprenons notre exemple initial…

L'estimation ponctuelle calculée était de 32,15 (note obtenue au concours) pour un étudiant

ayant obtenu 6 en contrôle continu. Nous avons également évalué l'erreur type de l'estimation

à 3,11.

En supposant que, dans cet exemple, les points se distribuent normalement autour de la droite

de régression, on peut établir un intervalle de prédiction à 95 % de cette façon :

Intervalle = y ± (Ey.x)

= 32,15 ± (1,96) (3,11)

= 32,15 ± 6,09

= 26,06 à 38,24

Que signifie concrètement cet intervalle ?

Cela veut dire que 95 % des étudiants qui auront obtenu la note 6 au contrôle continu auront

une note située entre 26,06 et 38,24 au concours.

Page 54: Analyse de variance et correlation

______________________________________________________________________________ 50 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

IV. ANALYSE DE CORRÉLATION

Il nous reste maintenant à savoir comment juger le degré d'association ou de corrélation

existant entre les variables ou, en d'autres termes, juger la qualité de l'ajustement des points

par la droite.

1. Le coefficient de détermination = r2

Examinons d'abord les différents termes et concepts illustrés à la figure ci-dessous.

y

y y

x

point du diagramme de di spersion ( y )

ecart expliqué :

ecart inexpl iqué : y -

yy - Ecart total =

^y

= a + b xy

^y - y

Illustration des concepts d'écart total, d'écart expliqué et d'écart inexpliqué

Supposons que nous nous servions de y , la moyenne des valeurs observées de la variable

dépendante, pour prévoir la valeur de y. Dans ce cas, on s'attend à ce que l'écart entre notre

estimation et la valeur de y soit considérable.

Un point particulier (y) a été choisi dans la figure ci-dessus, pour montrer l'importance de

l'écart total qui existe, dans cet exemple, entre la valeur observée de y et y .

En revanche, en utilisant la droite de régression pour estimer ou prévoir la valeur de la

variable dépendante, il est possible de réduire l'écart probable entre la valeur de y et la valeur

estimée de y. On remarque sur cette même figure que la droite de régression est plus

rapprochée de la majorité des points du diagramme que ne l'est y .

Donc, pour le point unique (y) de cette figure, la droite de régression explique en partie l'écart

entre y et y . Autrement dit, l'écart expliqué par la droite est y - y . Mais, la droite de

régression n'explique pas entièrement l'écart entre y et y , puisqu'il reste à expliquer l'écart

entre y et y .

Page 55: Analyse de variance et correlation

______________________________________________________________________________ 51 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

Nous avons donc :

Écart total = Écart expliqué + Écart inexpliqué

y - y (y - y ) (y - y )

ou, en termes de « variations »,

Variation totale = Variation expliquée + Variation inexpliquée

(y - y )2 (y - y )2 (y - y )2

Avec ces considérations, le coefficient de détermination ( r2 ) est une mesure de la

proportion de la variation dans la variable y qui s'explique par la présence de la

variable x (ou par la droite de régression), c'est-à-dire :

r2 = Variation expliquée

Variation totale

où la variation totale est (y - y )2 (revoir tableau 2) et où la variation expliquée (y - y

)2 est donnée par b (x - x ) (y - y ).

Donc,

r2 = b . [ (x - x ) (y - y )]

(y - y )2

Dans notre exemple (voir tableau 2)

r2 = b . [ (x - x ) (y - y )]

(y - y )2 =

(4,96) (397)

2028 = 0,971

Que représente alors ce coefficient de détermination r2 ?

Il signifie que 97,1 % de la variation dans la variable y, est expliqué ou attribué à la

variation dans la variable x.

Page 56: Analyse de variance et correlation

______________________________________________________________________________ 52 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

Dans notre exemple, on peut dire que 97,1 % de la variation dans les notes obtenues au

concours, est expliqué par la variation des résultats au contrôle continu.

On comprend alors que r2 ne peut être supérieur à 1, puisque c'est une probabilité et que plus

la valeur de ce r2 est grande et plus celle de Ey.x est petite.

2. Le coefficient de corrélation

C'est la racine carrée de r2 tout simplement.

r = r2

Dans notre exemple,

r = 0,971 = 0,985

Le coefficient de corrélation est moins utile que r2 parce qu'il représente une mesure assez

abstraite qui ne se prête pas à une interprétation précise.

r nous donne simplement une idée de l'importance de la liaison linéaire entre les variables x et

y et sa valeur se situera toujours entre -1 et +1.

* Si r = 0 : il y a absence de corrélation linéaire entre les deux variables.

* r = 1 ou -1 : il y a une corrélation linéaire parfaite (positive ou négative) entre x et y.

1. Méthode pratique de calcul du coefficient de corrélation

Le coefficient de corrélation peut également être défini ainsi :

r = Cov ( x , y )

sx . sy

où, Cov (x,y) représente la covariance du couple (x,y) qui a été déjà définie par :

Cov (x,y) = 1

n xi - x ) (yi - y )

et où sx et sy sont les deux écarts types calculés sur les échantillons :

sx = nixi

2

n - x 2 sy =

niyi2

n - y 2

Nous pouvons aussi écrire :

r = Erreur !;Erreur !2 . Erreur ! (yi - Erreur !)2)) = Erreur !;Erreur !2 . (yi -

y )2)) = S.P.E

SCEx . SCEy

Page 57: Analyse de variance et correlation

______________________________________________________________________________ 53 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

ou encore,

r =

xiyi - xi yi

n

[ xi2 -

( xi )2

n] [ yi

2 -

( yi )2

n]

= Cov (x , y )

sx sy

2. Propriétés du coefficient de corrélation

Rappelons que le coefficient de corrélation est un indicateur de liaison linéaire et que la

corrélation est une technique qui est utilisée pour établir une relation de cause à effet.

Le coefficient de corrélation mesure la « netteté » de la liaison existant entre les deux séries

d'observations, à condition que cette liaison soit linéaire ou approximativement linéaire.

Dans le cas contraire, le coefficient de corrélation ne présente aucun intérêt.

Le coefficient de corrélation a le même signe que la covariance ; il est nul quand la covariance

est nulle.

Le coefficient de détermination n'indique pas la nature de la relation

qui unit les deux variables ; il n'indique que la part de la variation qui

pourrait être expliquée si une relation de causalité existait.

Il est dangereux d'interpréter le coefficient de corrélation comme un pourcentage.

En effet, si r = 0,6, cela ne veut pas dire que 60 % de la variation de y est expliquée ;

en fait, pour r = 0,6 nous avons r2 = 0,36 ; autrement dit seulement 36 % de la

variation est expliquée.

Page 58: Analyse de variance et correlation

______________________________________________________________________________ 54 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

V. TRANSFORMÉE DE FISHER

1. Position du problème

Nous avons étudié les problèmes relatifs à la corrélation en introduisant la notion de

coefficient de corrélation calculé sur un échantillon de taille n.

A chaque échantillon prélevé, on faisait correspondre une valeur de r. Par analogie avec les

problèmes d'échantillonnage d'une moyenne ou d'une fréquence, on peut envisager ici la

distribution d'échantillonnage de r.

En effet, si l'expérience pouvait être effectuée sur la totalité des individus de la population

considérée, nous obtiendrons la vraie valeur de r que nous désignerons par (rhô).

Autrement dit, le coefficient de corrélation r, calculé à partir d'observations faites sur

l'échantillon ne constitue qu'une estimation. Lorsque le nombre de mesures est très élevé, il

peut arriver qu'une valeur de r soit le signe d'une liaison, lâche peut être, mais réelle entre les

variables.

Si, au contraire, le nombre de mesures est peu élevé, il peut arriver qu'une valeur de r, même

proche de ± 1 soit due au seul hasard de l'échantillonnage, et ne révèle aucune liaison

significative.

Il est donc indispensable de savoir avec quelle précision le coefficient de corrélation a été

estimé, et plus particulièrement de pouvoir tester par rapport à 0 la valeur r trouvée.

Nous procéderons alors au même type de raisonnement que celui relatif à l'estimation d'une

moyenne d'une population par un intervalle de confiance.

Cependant, nous distinguerons deux cas selon la valeur du coefficient de corrélation :

• A partir d'un échantillon, r sera voisin de 0 ; nous testerons ce résultat pour savoir si nous

pouvons conclure à l'indépendance des deux variables x et y.

• Dans le cas où r ≠ 0, nous déterminerons un intervalle de confiance de r.

2. Premier cas : r = 0

Dans ce cas, la quantité :

tobs = r n - 2

1 - r2

obéit à une loi de Student à = n - 2 degrés de liberté.

Avec un ddl = et un risque d'erreur choisi, nous déterminons, dans la table de Student t.

• Si tobs < ttable, on accepte l'hypothèse nulle Ho : = 0 ;

• Si tobs ≥ ttable, on rejette l'hypothèse nulle Ho ; dans ce cas ≠ 0.

Page 59: Analyse de variance et correlation

______________________________________________________________________________ 55 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

Exemple 1

La valeur d'un coefficient de corrélation, calculé sur un échantillon de taille 20, est égal à

0,24.

Peut-on accepter l'hypothèse d'un coefficient de corrélation nul pour la population totale.

Autrement dit les deux variables x et y sont-elles indépendantes au risque de première

espèce ?

********

tobs = r n - 2

1 - r2 =

0,24 20 - 2

1 - 0,242 = 1,049

Pour = 0,05 et ddl = 18, ttable = 2,101

tobs < ttable : on accepte l'hypothèse nulle Ho : = 0

Exemple 2

Un échantillon de taille 25 a donné r = 0,32

Peut-on accepter l'hypothèse d'un coefficient de corrélation nul pour la population totale. ( =

0,05)

tobs = r n - 2

1 - r2 =

0,32 25 - 2

1 - 0,322 = 1,32

Pour = 0,05 et ddl = 23, ttable = 2,069

tobs < ttable : on accepte l'hypothèse nulle Ho : = 0

Considérons à présent, le même échantillon mais avec r = 0,68

tobs = 0,68 25 - 2

1 - 0,682 = 4,45

Dans ce cas, nous devons rejeter Ho.

3. Deuxième cas : r ≠ 0 : cas du rejet de l'hypothèse nulle

On définit dans cette situation, une nouvelle variable appelée transformée de Fisher par :

Z = 1

2 Log [

1 + r

1 - r

]

Page 60: Analyse de variance et correlation

______________________________________________________________________________ 56 _____________________________________________________________________________

11. Corrélation et régression linéaire simple

Cette variable Z obéit à une loi normale de moyenne m = 1/2 Log [ 1 +

1 - ] , et d'écart

type Z = 1

n - 3

On peut déterminer les limites de avec un risque .

La valeur de Z est donnée par la table de la transformée de Fisher (Table VII en fin de livret)

dont un extrait est présenté ci-dessous :

Z 0,00 0,01 0,02 0,03 0,04

0,0 0,00000 0,01000 0,02000 0,02999 0,03998

0,1 0,09967 0,10956 0,11943 0,12927 0,13909

0,2 0,19738 0,20697 0,21652 0,22603 0,23550

0,3 0,29131 0,30044 0,30951 0,31852 0,32748

0,4 0,37995 0,38847 0,39693 0,40532 0,41364

0,5 0,46212 0,46995 0,47770 0,48538 0,49299

0,6 0,53705 0,54413 0,55113 0,55805 0,56490

0,7 0,60437 0,61068 0,61691 0,62307 0,62915

0,8 0,66404 0,66959 0,67507 0,68048 0,68581

0,9 0,71630 0,72113 0,72590 0,73059 0,73522

Dans l'exemple 2 ci-dessus, avec r = 0,68, l a table VII donne 0,8 et 0,03 c'est-à-dire Z = 0,83

(valeurs en grisé ci-dessus).

Dans ces conditions, les limites de confiance à 0,95 de mZ sont :

Z - 1

n - 3 et Z +

1

n - 3

étant donné par la table de l'écart réduit

Dans notre exemple,

n = 25 ; = 1,96 ; Z = 0,83

L'intervalle de confiance de sera donc :

0,83 - 1,96 1

25 - 3 < < 0,83 + 1,96

1

25 - 3

ou

0,3885 < < 0,8483

Page 61: Analyse de variance et correlation

______________________________________________________________________________ 57 _____________________________________________________________________________

Tables statistiques

TABLE I TABLE DE LA DISTRIBUTION NORMALE RÉDUITE

FONCTION DE RÉPARTITION

(u) =

-

u 1

2 e -1/2 u2

du

Exemple : (0,52) = 0,6985 ; (-1,93) = 1 - (1,93) = 1 - 0,97320 = 0,02680

u 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359

0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753

0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141

0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517

0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224

0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549

0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852

0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133

0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621

1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830

1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015

1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774

1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189

1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408

1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449

1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327

1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062

1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670

2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169

2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574

2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899

2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158

2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361

2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520

2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643

2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736

2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807

2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861

3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900

3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929

3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950

3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965

3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976

3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983

3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989

3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992

Page 62: Analyse de variance et correlation

______________________________________________________________________________ 58 _____________________________________________________________________________

Tables statistiques

3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995

3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997

Page 63: Analyse de variance et correlation

______________________________________________________________________________ 59 _____________________________________________________________________________

Tables statistiques

TABLE II

TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU

TABLE DE L'ÉCART RÉDUIT

0 + -

/ 2

+ •

/ 2 1 -

N (0,1)

- •

La probabilité s'obtient par addition des nombres inscrits en marge.

Exemple : Pour = 1,96, la probabilité est = 0,00 + 0,05 = 0,05

0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,00 ∞ 2,577 2,327 2,171 2,054 1,960 1,881 1,812 1,751 1,696

0,10 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311

0,20 1,282 1,254 1,227 1,201 1,175 1,150 1,127 1,103 1,080 1,058

0,30 1,037 1,015 0,995 0,974 0,954 0,935 0,915 0,897 0,878 0,860

0,40 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,723 0,706 0,690

0,50 0,675 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539

0,60 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399

0,70 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266

0,80 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138

0,90 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013

TABLES POUR LES PETITES VALEURS DE

0,001 0,000 1 0,000 01 0,000 001 0,000 000 1 0,000 000 01 0,000 000 001

3, 290 53 3,890 59 4,417 17 4,891 64 5,326 72 5,730 73 6,109 41

Page 64: Analyse de variance et correlation

______________________________________________________________________________ 60 _____________________________________________________________________________

Tables statistiques

TABLE III

TABLE DE STUDENT

La table donne la probabilité pour que t égale ou dépasse, en valeur absolue,

une valeur donnée, en fonction du nombre de degrés de liberté (ddl).

Exemple : avec ddl = 10, pour t = 2,228, la probabilité est = 0,05

0,90 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001

ddl

1 0,158 1,000 1,963 3,078 6,314 12,706 31,821 63,656 636,578

2 0,142 0,816 1,386 1,886 2,920 4,303 6,965 9,925 31,600

3 0,137 0,765 1,250 1,638 2,353 3,182 4,541 5,841 12,924

4 0,134 0,741 1,190 1,533 2,132 2,776 3,747 4,604 8,610

5 0,132 0,727 1,156 1,476 2,015 2,571 3,365 4,032 6,869

6 0,131 0,718 1,134 1,440 1,943 2,447 3,143 3,707 5,959

7 0,130 0,711 1,119 1,415 1,895 2,365 2,998 3,499 5,408

8 0,130 0,706 1,108 1,397 1,860 2,306 2,896 3,355 5,041

9 0,129 0,703 1,100 1,383 1,833 2,262 2,821 3,250 4,781

10 0,129 0,700 1,093 1,372 1,812 2,228 2,764 3,169 4,587

11 0,129 0,697 1,088 1,363 1,796 2,201 2,718 3,106 4,437

12 0,128 0,695 1,083 1,356 1,782 2,179 2,681 3,055 4,318

13 0,128 0,694 1,079 1,350 1,771 2,160 2,650 3,012 4,221

14 0,128 0,692 1,076 1,345 1,761 2,145 2,624 2,977 4,140

15 0,128 0,691 1,074 1,341 1,753 2,131 2,602 2,947 4,073

16 0,128 0,690 1,071 1,337 1,746 2,120 2,583 2,921 4,015

17 0,128 0,689 1,069 1,333 1,740 2,110 2,567 2,898 3,965

18 0,127 0,688 1,067 1,330 1,734 2,101 2,552 2,878 3,922

19 0,127 0,688 1,066 1,328 1,729 2,093 2,539 2,861 3,883

20 0,127 0,687 1,064 1,325 1,725 2,086 2,528 2,845 3,850

21 0,127 0,686 1,063 1,323 1,721 2,080 2,518 2,831 3,819

22 0,127 0,686 1,061 1,321 1,717 2,074 2,508 2,819 3,792

23 0,127 0,685 1,060 1,319 1,714 2,069 2,500 2,807 3,768

24 0,127 0,685 1,059 1,318 1,711 2,064 2,492 2,797 3,745

25 0,127 0,684 1,058 1,316 1,708 2,060 2,485 2,787 3,725

26 0,127 0,684 1,058 1,315 1,706 2,056 2,479 2,779 3,707

27 0,127 0,684 1,057 1,314 1,703 2,052 2,473 2,771 3,689

28 0,127 0,683 1,056 1,313 1,701 2,048 2,467 2,763 3,674

29 0,127 0,683 1,055 1,311 1,699 2,045 2,462 2,756 3,660

30 0,127 0,683 1,055 1,310 1,697 2,042 2,457 2,750 3,646

40 0,126 0,681 1,050 1,303 1,684 2,021 2,423 2,704 3,551

80 0,126 0,678 1,043 1,292 1,664 1,990 2,374 2,639 3,416

120 0,126 0,677 1,041 1,289 1,658 1,980 2,358 2,617 3,373

∞ 0,126 0,675 1,037 1,282 1,645 1,960 2,327 2,577 3,293

Page 65: Analyse de variance et correlation

______________________________________________________________________________ 61 _____________________________________________________________________________

Tables statistiques

TABLE IV

TABLE DU2

La table donne la probabilité pour que 2 égale ou dépasse

une valeur donnée, en fonction du nombre de degrés de liberté.

Exemple : avec ddl = 3, pour 2 = 0,11 la probabilité = 0,99.

0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,001

ddl

1 0,0002 0,001 0,004 0,016 2,71 3,84 5,02 6,63 10,83

2 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 13,82

3 0,11 0,22 0,35 0,58 6,25 7,81 9,35 11,34 16,27

4 0,30 0,48 0,71 1,06 7,78 9,49 11,14 13,28 18,47

5 0,55 0,83 1,15 1,61 9,24 11,07 12,83 15,09 20,51

6 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 22,46

7 1,24 1,69 2,17 2,83 12,02 14,07 16,01 18,48 24,32

8 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 26,12

9 2,09 2,70 3,33 4,17 14,68 16,92 19,02 21,67 27,88

10 2,56 3,25 3,94 4,87 15,99 18,31 20,48 23,21 29,59

11 3,05 3,82 4,57 5,58 17,28 19,68 21,92 24,73 31,26

12 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 32,91

13 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69 34,53

14 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14 36,12

15 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58 37,70

16 5,81 6,91 7,96 9,31 23,54 26,30 28,85 32,00 39,25

17 6,41 7,56 8,67 10,09 24,77 27,59 30,19 33,41 40,79

18 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,81 42,31

19 7,63 8,91 10,12 11,65 27,20 30,14 32,85 36,19 43,82

20 8,26 9,59 10,85 12,44 28,41 31,41 34,17 37,57 45,31

21 8,90 10,28 11,59 13,24 29,62 32,67 35,48 38,93 46,80

22 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29 48,27

23 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 49,73

24 10,86 12,40 13,85 15,66 33,20 36,42 39,36 42,98 51,18

25 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 52,62

26 12,20 13,84 15,38 17,29 35,56 38,89 41,92 45,64 54,05

27 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96 55,48

28 13,56 15,31 16,93 18,94 37,92 41,34 44,46 48,28 56,89

29 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59 58,30

30 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89 59,70

Page 66: Analyse de variance et correlation

______________________________________________________________________________ 62 _____________________________________________________________________________

Tables statistiques

TABLE V-A

TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL ( = 0,05)

Si F est une variable aléatoire qui suit la loi de Snedecor à :

• degrés de liberté, (ddl du numérateur) et

• degrés de liberté, (ddl du dénominateur)

La table donne le nombre f tel que Prob (F ≥ f ) = = 0,05

Exemple : F0,05 = 3,36 pour 1 = 4 et 2 = 11

1 2 3 4 5 6 8 10 15 20 30 ∞

1 161 199 216 225 230 234 239 242 246 248 250 254

2 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,40 19,43 19,45 19,46 19,50

3 10,13 9,55 9,28 9,12 9,01 8,94 8,85 8,79 8,70 8,66 8,62 8,53

4 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,96 5,86 5,80 5,75 5,63

5 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,62 4,56 4,50 4,37

6 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,06 3,94 3,87 3,81 3,67

7 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,64 3,51 3,44 3,38 3,23

8 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,35 3,22 3,15 3,08 2,93

9 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,14 3,01 2,94 2,86 2,71

10 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,98 2,85 2,77 2,70 2,54

11 4,84 3,98 3,59 3,36 3,20 3,09 2,95 2,85 2,72 2,65 2,57 2,40

12 4,75 3,89 3,49 3,26 3,11 3,00 2,85 2,75 2,62 2,54 2,47 2,30

13 4,67 3,81 3,41 3,18 3,03 2,92 2,77 2,67 2,53 2,46 2,38 2,21

14 4,60 3,74 3,34 3,11 2,96 2,85 2,70 2,60 2,46 2,39 2,31 2,13

15 4,54 3,68 3,29 3,06 2,90 2,79 2,64 2,54 2,40 2,33 2,25 2,07

16 4,49 3,63 3,24 3,01 2,85 2,74 2,59 2,49 2,35 2,28 2,19 2,01

17 4,45 3,59 3,20 2,96 2,81 2,70 2,55 2,45 2,31 2,23 2,15 1,96

18 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,41 2,27 2,19 2,11 1,92

19 4,38 3,52 3,13 2,90 2,74 2,63 2,48 2,38 2,23 2,16 2,07 1,88

20 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,35 2,20 2,12 2,04 1,84

21 4,32 3,47 3,07 2,84 2,68 2,57 2,42 2,32 2,18 2,10 2,01 1,81

22 4,30 3,44 3,05 2,82 2,66 2,55 2,40 2,30 2,15 2,07 1,98 1,78

23 4,28 3,42 3,03 2,80 2,64 2,53 2,37 2,27 2,13 2,05 1,96 1,76

24 4,26 3,40 3,01 2,78 2,62 2,51 2,36 2,25 2,11 2,03 1,94 1,73

25 4,24 3,39 2,99 2,76 2,60 2,49 2,34 2,24 2,09 2,01 1,92 1,71

26 4,23 3,37 2,98 2,74 2,59 2,47 2,32 2,22 2,07 1,99 1,90 1,69

27 4,21 3,35 2,96 2,73 2,57 2,46 2,31 2,20 2,06 1,97 1,88 1,67

28 4,20 3,34 2,95 2,71 2,56 2,45 2,29 2,19 2,04 1,96 1,87 1,65

29 4,18 3,33 2,93 2,70 2,55 2,43 2,28 2,18 2,03 1,94 1,85 1,64

30 4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,16 2,01 1,93 1,84 1,62

40 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,08 1,92 1,84 1,74 1,51

50 4,03 3,18 2,79 2,56 2,40 2,29 2,13 2,03 1,87 1,78 1,69 1,44

60 4,00 3,15 2,76 2,53 2,37 2,25 2,10 1,99 1,84 1,75 1,65 1,39

Page 67: Analyse de variance et correlation

______________________________________________________________________________ 63 _____________________________________________________________________________

Tables statistiques

80 3,96 3,11 2,72 2,49 2,33 2,21 2,06 1,95 1,79 1,70 1,60 1,32

100 3,94 3,09 2,70 2,46 2,31 2,19 2,03 1,93 1,77 1,68 1,57 1,28

∞ 3,84 3,00 2,61 2,37 2,21 2,10 1,94 1,83 1,67 1,57 1,46 1,01

Page 68: Analyse de variance et correlation

______________________________________________________________________________ 64 _____________________________________________________________________________

Tables statistiques

TABLE V-B

TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL ( = 0,05)

Si F est une variable aléatoire qui suit la loi de Snedecor à :

• degrés de liberté, (ddl du numérateur) et

• degrés de liberté, (ddl du dénominateur)

La table donne le nombre f tel que Prob (F ≥ f ) = = 0,05

Exemple : F0,05 = 4,28 pour 1 = 4 et 2 = 11

1 2 3 4 5 6 8 10 15 20 30 ∞

1 648 799 864 900 922 937 957 969 985 993 1001 1018

2 38,5 39,0 39,2 39,2 39,3 39,3 39,4 39,4 39,4 39,4 39,5 39,5

3 17,4 16,04 15,44 15,10 14,88 14,73 14,54 14,42 14,25 14,17 14,08 13,90

4 12,22 10,65 9,98 9,60 9,36 9,20 8,98 8,84 8,66 8,56 8,46 8,26

5 10,01 8,43 7,76 7,39 7,15 6,98 6,76 6,62 6,43 6,33 6,23 6,02

6 8,81 7,26 6,60 6,23 5,99 5,82 5,60 5,46 5,27 5,17 5,07 4,85

7 8,07 6,54 5,89 5,52 5,29 5,12 4,90 4,76 4,57 4,47 4,36 4,14

8 7,57 6,06 5,42 5,05 4,82 4,65 4,43 4,30 4,10 4,00 3,89 3,67

9 7,21 5,71 5,08 4,72 4,48 4,32 4,10 3,96 3,77 3,67 3,56 3,33

10 6,94 5,46 4,83 4,47 4,24 4,07 3,85 3,72 3,52 3,42 3,31 3,08

11 6,72 5,26 4,63 4,28 4,04 3,88 3,66 3,53 3,33 3,23 3,12 2,88

12 6,55 5,10 4,47 4,12 3,89 3,73 3,51 3,37 3,18 3,07 2,96 2,73

13 6,41 4,97 4,35 4,00 3,77 3,60 3,39 3,25 3,05 2,95 2,84 2,60

14 6,30 4,86 4,24 3,89 3,66 3,50 3,29 3,15 2,95 2,84 2,73 2,49

15 6,20 4,77 4,15 3,80 3,58 3,41 3,20 3,06 2,86 2,76 2,64 2,40

16 6,12 4,69 4,08 3,73 3,50 3,34 3,12 2,99 2,79 2,68 2,57 2,32

17 6,04 4,62 4,01 3,66 3,44 3,28 3,06 2,92 2,72 2,62 2,50 2,25

18 5,98 4,56 3,95 3,61 3,38 3,22 3,01 2,87 2,67 2,56 2,44 2,19

19 5,92 4,51 3,90 3,56 3,33 3,17 2,96 2,82 2,62 2,51 2,39 2,13

20 5,87 4,46 3,86 3,51 3,29 3,13 2,91 2,77 2,57 2,46 2,35 2,09

21 5,83 4,42 3,82 3,48 3,25 3,09 2,87 2,73 2,53 2,42 2,31 2,04

22 5,79 4,38 3,78 3,44 3,22 3,05 2,84 2,70 2,50 2,39 2,27 2,00

23 5,75 4,35 3,75 3,41 3,18 3,02 2,81 2,67 2,47 2,36 2,24 1,97

24 5,72 4,32 3,72 3,38 3,15 2,99 2,78 2,64 2,44 2,33 2,21 1,94

25 5,69 4,29 3,69 3,35 3,13 2,97 2,75 2,61 2,41 2,30 2,18 1,91

26 5,66 4,27 3,67 3,33 3,10 2,94 2,73 2,59 2,39 2,28 2,16 1,88

27 5,63 4,24 3,65 3,31 3,08 2,92 2,71 2,57 2,36 2,25 2,13 1,85

28 5,61 4,22 3,63 3,29 3,06 2,90 2,69 2,55 2,34 2,23 2,11 1,83

29 5,59 4,20 3,61 3,27 3,04 2,88 2,67 2,53 2,32 2,21 2,09 1,81

30 5,57 4,18 3,59 3,25 3,03 2,87 2,65 2,51 2,31 2,20 2,07 1,79

40 5,42 4,05 3,46 3,13 2,90 2,74 2,53 2,39 2,18 2,07 1,94 1,64

50 5,34 3,97 3,39 3,05 2,83 2,67 2,46 2,32 2,11 1,99 1,87 1,55

60 5,29 3,93 3,34 3,01 2,79 2,63 2,41 2,27 2,06 1,94 1,82 1,48

Page 69: Analyse de variance et correlation

______________________________________________________________________________ 65 _____________________________________________________________________________

Tables statistiques

80 5,22 3,86 3,28 2,95 2,73 2,57 2,35 2,21 2,00 1,88 1,75 1,40

100 5,18 3,83 3,25 2,92 2,70 2,54 2,32 2,18 1,97 1,85 1,71 1,35

∞ 5,02 3,69 3,12 2,79 2,57 2,41 2,19 2,05 1,83 1,71 1,57 1,01

Page 70: Analyse de variance et correlation

______________________________________________________________________________ 66 _____________________________________________________________________________

Tables statistiques

TABLE VI-A

TABLE DE LA DISTRIBUTION DE F - TEST UNILATÉRAL ( = 0,01)

Si F est une variable aléatoire qui suit la loi de Snedecor à :

• degrés de liberté, (ddl du numérateur) et

• degrés de liberté, (ddl du dénominateur)

La table donne le nombre f tel que Prob (F ≥ f ) = = 0,01

Exemple : F0,01 = 5,67 pour 1 = 4 et 2 = 11

1

2 1 2 3 4 5 6 7 8 9 10 15 20 30 50 100 200 500 ∞

1 4052 4999 5404 5624 5764 5859 5928 5981 6022 6056 6157 6209 6260 6302 6334 6350 6360 6366

2 98,5 99,0 99,2 99,3 99,3 99,3 99,4 99,4 99,4 99,4 99,4 99,4 99,5 99,5 99,5 99,5 99,5 99,5

3 34,1 30,8 29,5 28,7 28,2 27,9 27,7 27,5 27,3 27,2 26,9 26,7 26,5 26,4 26,2 26,2 26,1 26,1

4 21,2 18,0 16,7 16,0 15,5 15,2 15,0 14,8 14,7 14,5 14,2 14,0 13,8 13,7 13,6 13,5 13,5 13,5

5 16,3 13,3 12,1 11,4 11,0 10,7 10,5 10,3 10,2 10,1 9,7 9,6 9,4 9,2 9,1 9,1 9,0 9,0

6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,56 7,40 7,23 7,09 6,99 6,93 6,90 6,88

7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,31 6,16 5,99 5,86 5,75 5,70 5,67 5,65

8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,52 5,36 5,20 5,07 4,96 4,91 4,88 4,86

9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 4,96 4,81 4,65 4,52 4,41 4,36 4,33 4,31

10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,56 4,41 4,25 4,12 4,01 3,96 3,93 3,91

11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,25 4,10 3,94 3,81 3,71 3,66 3,62 3,60

12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,01 3,86 3,70 3,57 3,47 3,41 3,38 3,36

13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,82 3,66 3,51 3,38 3,27 3,22 3,19 3,17

14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,66 3,51 3,35 3,22 3,11 3,06 3,03 3,00

15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,52 3,37 3,21 3,08 2,98 2,92 2,89 2,87

16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,41 3,26 3,10 2,97 2,86 2,81 2,78 2,75

17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,31 3,16 3,00 2,87 2,76 2,71 2,68 2,65

18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,23 3,08 2,92 2,78 2,68 2,62 2,59 2,57

19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,15 3,00 2,84 2,71 2,60 2,55 2,51 2,49

20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,09 2,94 2,78 2,64 2,54 2,48 2,44 2,42

22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 2,98 2,83 2,67 2,53 2,42 2,36 2,33 2,31

24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 2,89 2,74 2,58 2,44 2,33 2,27 2,24 2,21

26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,81 2,66 2,50 2,36 2,25 2,19 2,16 2,13

28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,75 2,60 2,44 2,30 2,19 2,13 2,09 2,06

30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,70 2,55 2,39 2,25 2,13 2,07 2,03 2,01

40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,52 2,37 2,20 2,06 1,94 1,87 1,83 1,80

50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,42 2,27 2,10 1,95 1,82 1,76 1,71 1,68

60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,35 2,20 2,03 1,88 1,75 1,68 1,63 1,60

80 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,27 2,12 1,94 1,79 1,65 1,58 1,53 1,49

100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,22 2,07 1,89 1,74 1,60 1,52 1,47 1,43

200 6,76 4,71 3,88 3,41 3,11 2,89 2,73 2,60 2,50 2,41 2,13 1,97 1,79 1,63 1,48 1,39 1,33 1,28

500 6,69 4,65 3,82 3,36 3,05 2,84 2,68 2,55 2,44 2,36 2,07 1,92 1,74 1,57 1,41 1,31 1,23 1,17

Page 71: Analyse de variance et correlation

______________________________________________________________________________ 67 _____________________________________________________________________________

Tables statistiques

∞ 6,64 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,04 1,88 1,70 1,52 1,36 1,25 1,15 1,02

Page 72: Analyse de variance et correlation

______________________________________________________________________________ 68 _____________________________________________________________________________

Tables statistiques

TABLE VI-B

TABLE DE LA DISTRIBUTION DE F - TEST BILATÉRAL ( = 0,01)

Si F est une variable aléatoire qui suit la loi de Snedecor à :

• degrés de liberté, (ddl du numérateur) et

• degrés de liberté, (ddl du dénominateur)

La table donne le nombre f tel que Prob (F ≥ f ) = = 0,01

Exemple : F0,01 = 6,88 pour 1 = 4 et 2 = 11

1

2 1 2 3 4 5 6 7 8 9 10 15 20 30 50 100 200 500 ∞

1 1621 2000 2161 2250 2306 2344 2372 2392 2409 2422 2463 2484 2504 2521 2534 2540 2544 2547

2 199 199 199 199 199 199 199 199 199 199 199 199 199 199 199 199 200 200

3 55,6 49,8 47,5 46,2 45,4 44,8 44,4 44,1 43,9 43,7 43,1 42,8 42,5 42,2 42,0 41,9 41,9 41,8

4 31,3 26,3 24,3 23,2 22,5 22,0 21,6 21,4 21,1 21,0 20,4 20,2 19,9 19,7 19,5 19,4 19,4 19,3

5 22,8 18,3 16,5 15,6 14,9 14,5 14,2 14,0 13,8 13,6 13,1 12,9 12,7 12,5 12,3 12,2 12,2 12,1

6 18,63 14,54 12,9 12,0 11,5 11,1 10,8 10,6 10,4 10,3 9,81 9,59 9,36 9,17 9,03 8,95 8,91 8,88

7 16,24 12,40 10,9 10,1 9,52 9,16 8,89 8,68 8,51 8,38 7,97 7,75 7,53 7,35 7,22 7,15 7,10 7,08

8 14,69 11,04 9,60 8,81 8,30 7,95 7,69 7,50 7,34 7,21 6,81 6,61 6,40 6,22 6,09 6,02 5,98 5,95

9 13,61 10,11 8,72 7,96 7,47 7,13 6,88 6,69 6,54 6,42 6,03 5,83 5,62 5,45 5,32 5,26 5,21 5,19

10 12,83 9,43 8,08 7,34 6,87 6,54 6,30 6,12 5,97 5,85 5,47 5,27 5,07 4,90 4,77 4,71 4,67 4,64

11 12,23 8,91 7,60 6,88 6,42 6,10 5,86 5,68 5,54 5,42 5,05 4,86 4,65 4,49 4,36 4,29 4,25 4,23

12 11,75 8,51 7,23 6,52 6,07 5,76 5,52 5,35 5,20 5,09 4,72 4,53 4,33 4,17 4,04 3,97 3,93 3,90

13 11,37 8,19 6,93 6,23 5,79 5,48 5,25 5,08 4,94 4,82 4,46 4,27 4,07 3,91 3,78 3,71 3,67 3,65

14 11,06 7,92 6,68 6,00 5,56 5,26 5,03 4,86 4,72 4,60 4,25 4,06 3,86 3,70 3,57 3,50 3,46 3,44

15 10,80 7,70 6,48 5,80 5,37 5,07 4,85 4,67 4,54 4,42 4,07 3,88 3,69 3,52 3,39 3,33 3,29 3,26

16 10,58 7,51 6,30 5,64 5,21 4,91 4,69 4,52 4,38 4,27 3,92 3,73 3,54 3,37 3,25 3,18 3,14 3,11

17 10,38 7,35 6,16 5,50 5,07 4,78 4,56 4,39 4,25 4,14 3,79 3,61 3,41 3,25 3,12 3,05 3,01 2,98

18 10,22 7,21 6,03 5,37 4,96 4,66 4,44 4,28 4,14 4,03 3,68 3,50 3,30 3,14 3,01 2,94 2,90 2,87

19 10,07 7,09 5,92 5,27 4,85 4,56 4,34 4,18 4,04 3,93 3,59 3,40 3,21 3,04 2,91 2,85 2,80 2,78

20 9,94 6,99 5,82 5,17 4,76 4,47 4,26 4,09 3,96 3,85 3,50 3,32 3,12 2,96 2,83 2,76 2,72 2,69

22 9,73 6,81 5,65 5,02 4,61 4,32 4,11 3,94 3,81 3,70 3,36 3,18 2,98 2,82 2,69 2,62 2,57 2,55

24 9,55 6,66 5,52 4,89 4,49 4,20 3,99 3,83 3,69 3,59 3,25 3,06 2,87 2,70 2,57 2,50 2,46 2,43

26 9,41 6,54 5,41 4,79 4,38 4,10 3,89 3,73 3,60 3,49 3,15 2,97 2,77 2,61 2,47 2,40 2,36 2,33

28 9,28 6,44 5,32 4,70 4,30 4,02 3,81 3,65 3,52 3,41 3,07 2,89 2,69 2,53 2,39 2,32 2,28 2,25

30 9,18 6,35 5,24 4,62 4,23 3,95 3,74 3,58 3,45 3,34 3,01 2,82 2,63 2,46 2,32 2,25 2,21 2,18

40 8,83 6,07 4,98 4,37 3,99 3,71 3,51 3,35 3,22 3,12 2,78 2,60 2,40 2,23 2,09 2,01 1,96 1,93

50 8,63 5,90 4,83 4,23 3,85 3,58 3,38 3,22 3,09 2,99 2,65 2,47 2,27 2,10 1,95 1,87 1,82 1,79

60 8,49 5,79 4,73 4,14 3,76 3,49 3,29 3,13 3,01 2,90 2,57 2,39 2,19 2,01 1,86 1,78 1,73 1,69

80 8,33 5,67 4,61 4,03 3,65 3,39 3,19 3,03 2,91 2,80 2,47 2,29 2,08 1,90 1,75 1,66 1,60 1,56

100 8,24 5,59 4,54 3,96 3,59 3,33 3,13 2,97 2,85 2,74 2,41 2,23 2,02 1,84 1,68 1,59 1,53 1,49

200 8,06 5,44 4,41 3,84 3,47 3,21 3,01 2,86 2,73 2,63 2,30 2,11 1,91 1,71 1,54 1,44 1,37 1,31

500 7,95 5,35 4,33 3,76 3,40 3,14 2,94 2,79 2,66 2,56 2,23 2,04 1,84 1,64 1,46 1,35 1,26 1,18

Page 73: Analyse de variance et correlation

______________________________________________________________________________ 69 _____________________________________________________________________________

Tables statistiques

∞ 7,88 5,30 4,28 3,72 3,35 3,09 2,90 2,74 2,62 2,52 2,19 2,00 1,79 1,59 1,40 1,28 1,17 1,02

Page 74: Analyse de variance et correlation

______________________________________________________________________________ 70 _____________________________________________________________________________

Tables statistiques

TABLE VII CORRÉLATION TRANSFORMÉE DE FISHER

La valeur Z s'obtient par addition des chiffres de la ligne et de la colonne. La valeur

correspondante de r se lit à l'intersection de la ligne et de la colonne

Exemple : pour Z = 2,03, r = 0,96609

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10

0,0 0,00000 0,01000 0,02000 0,02999 0,03998 0,04996 0,05993 0,06989 0,07983 0,08976 0,09967

0,1 0,09967 0,10956 0,11943 0,12927 0,13909 0,14889 0,15865 0,16838 0,17808 0,18775 0,19738

0,2 0,19738 0,20697 0,21652 0,22603 0,23550 0,24492 0,25430 0,26362 0,27291 0,28213 0,29131

0,3 0,29131 0,30044 0,30951 0,31852 0,32748 0,33638 0,34521 0,35399 0,36271 0,37136 0,37995

0,4 0,37995 0,38847 0,39693 0,40532 0,41364 0,42190 0,43008 0,43820 0,44624 0,45422 0,46212

0,5 0,46212 0,46995 0,47770 0,48538 0,49299 0,50052 0,50798 0,51536 0,52267 0,52990 0,53705

0,6 0,53705 0,54413 0,55113 0,55805 0,56490 0,57167 0,57836 0,58498 0,59152 0,59798 0,60437

0,7 0,60437 0,61068 0,61691 0,62307 0,62915 0,63515 0,64108 0,64693 0,65271 0,65841 0,66404

0,8 0,66404 0,66959 0,67507 0,68048 0,68581 0,69107 0,69626 0,70137 0,70642 0,71139 0,71630

0,9 0,71630 0,72113 0,72590 0,73059 0,73522 0,73978 0,74428 0,74870 0,75307 0,75736 0,76159

1,0 0,76159 0,76576 0,76987 0,77391 0,77789 0,78181 0,78566 0,78946 0,79320 0,79688 0,80050

1,1 0,80050 0,80406 0,80757 0,81102 0,81441 0,81775 0,82104 0,82427 0,82745 0,83058 0,83365

1,2 0,83365 0,83668 0,83965 0,84258 0,84546 0,84828 0,85106 0,85380 0,85648 0,85913 0,86172

1,3 0,86172 0,86428 0,86678 0,86925 0,87167 0,87405 0,87639 0,87869 0,88095 0,88317 0,88535

1,4 0,88535 0,88749 0,88960 0,89167 0,89370 0,89569 0,89765 0,89958 0,90147 0,90332 0,90515

1,5 0,90515 0,90694 0,90870 0,91042 0,91212 0,91379 0,91542 0,91703 0,91860 0,92015 0,92167

1,6 0,92167 0,92316 0,92462 0,92606 0,92747 0,92886 0,93022 0,93155 0,93286 0,93415 0,93541

1,7 0,93541 0,93665 0,93786 0,93906 0,94023 0,94138 0,94250 0,94361 0,94470 0,94576 0,94681

1,8 0,94681 0,94783 0,94884 0,94983 0,95080 0,95175 0,95268 0,95359 0,95449 0,95537 0,95624

1,9 0,95624 0,95709 0,95792 0,95873 0,95953 0,96032 0,96109 0,96185 0,96259 0,96331 0,96403

2,0 0,96403 0,96473 0,96541 0,96609 0,96675 0,96740 0,96803 0,96865 0,96926 0,96986 0,97045

2,1 0,97045 0,97103 0,97159 0,97215 0,97269 0,97323 0,97375 0,97426 0,97477 0,97526 0,97574

2,2 0,97574 0,97622 0,97668 0,97714 0,97759 0,97803 0,97846 0,97888 0,97929 0,97970 0,98010

2,3 0,98010 0,98049 0,98087 0,98124 0,98161 0,98197 0,98233 0,98267 0,98301 0,98335 0,98367

2,4 0,98367 0,98400 0,98431 0,98462 0,98492 0,98522 0,98551 0,98579 0,98607 0,98635 0,98661

2,5 0,98661 0,98688 0,98714 0,98739 0,98764 0,98788 0,98812 0,98835 0,98858 0,98881 0,98903

2,6 0,98903 0,98924 0,98946 0,98966 0,98987 0,99007 0,99026 0,99045 0,99064 0,99083 0,99101

2,7 0,99101 0,99118 0,99136 0,99153 0,99170 0,99186 0,99202 0,99218 0,99233 0,99248 0,99263

2,8 0,99263 0,99278 0,99292 0,99306 0,99320 0,99333 0,99346 0,99359 0,99372 0,99384 0,99396

2,9 0,99396 0,99408 0,99420 0,99431 0,99443 0,99454 0,99464 0,99475 0,99485 0,99496 0,99505

3,0 0,99505 0,99515 0,99525 0,99534 0,99543 0,99552 0,99561 0,99570 0,99578 0,99587 0,99595

3,1 0,99595 0,99603 0,99611 0,99618 0,99626 0,99633 0,99641 0,99648 0,99655 0,99662 0,99668

3,2 0,99668 0,99675 0,99681 0,99688 0,99694 0,99700 0,99706 0,99712 0,99717 0,99723 0,99728

3,3 0,99728 0,99734 0,99739 0,99744 0,99749 0,99754 0,99759 0,99764 0,99768 0,99773 0,99777

3,4 0,99777 0,99782 0,99786 0,99790 0,99795 0,99799 0,99803 0,99807 0,99810 0,99814 0,99818

3,5 0,99818 0,99821 0,99825 0,99828 0,99832 0,99835 0,99838 0,99842 0,99845 0,99848 0,99851

3,6 0,99851 0,99854 0,99857 0,99859 0,99862 0,99865 0,99868 0,99870 0,99873 0,99875 0,99878

3,7 0,99878 0,99880 0,99883 0,99885 0,99887 0,99889 0,99892 0,99894 0,99896 0,99898 0,99900

3,8 0,99900 0,99902 0,99904 0,99906 0,99908 0,99909 0,99911 0,99913 0,99915 0,99916 0,99918

3,9 0,99918 0,99920 0,99921 0,99923 0,99924 0,99926 0,99927 0,99929 0,99930 0,99932 0,99933

4,0 0,99933 0,99934 0,99936 0,99937 0,99938 0,99939 0,99941 0,99942 0,99943 0,99944 0,99945

Page 75: Analyse de variance et correlation

______________________________________________________________________________ 71 _____________________________________________________________________________

Tables statistiques

BIBLIOGRAPHIE

Les Statistiques : une approche nouvelle.

Donald H. Sanders ; A. Franklin Murph et Robert J. Eng. 2e édition.

McGraw-Hill, Editeurs.

Statistique et Probabilités.

M. Laviéville.

Dunod Université.

Probabilité et statistique pour biologistes.

F. Couty ; J. Debord et D. Fredon.

Flash U. Armand Colin.

Statistique : cours et exercices résolus .

E. Azoulay et D. Cohen.

Ediscience International.

Théorie et méthodes statistiques. (Volumes 1 et 2)

P. Dagnélie.

Les Presses Agronomiques de Gembloux.

Méthodes statistiques à l'usage des médecins et des biologistes.

D. SChwartz

Flammarion Medecine Sciences

Page 76: Analyse de variance et correlation

______________________________________________________________________________ 72 _____________________________________________________________________________

Tables statistiques