Mise à niveau Statistique - statsoft.fr · Mise à Niveau Statistique avec Des logiciels...
Transcript of Mise à niveau Statistique - statsoft.fr · Mise à Niveau Statistique avec Des logiciels...
Mise à Niveau Statistique
avec
Des logiciels Statistiques Performants
2, Rue Louis Pergaud 94700 Maisons-Alfort
Tél : 01-45-185-999 Fax : 01-45-185-285
e-mail : [email protected]
Web : www.statsoft.fr
SOMMAIRE
4
Copyright © StatSoft, 2008
5
Copyright © StatSoft, 2008
La variabilité d'un échantillon peut se décomposer en plusieurs types. Elle est expliquée en partie par un facteur bien
défini (exemple: dans l'exemple ci-dessous, le poids des poissons peut s’expliquer par le dimorphisme sexuel c'est-à-
dire que les mâles sont plus petits que les femelles): cette variabilité est dite "factorielle". La variabilité restante est
due à des erreurs de mesures (imprécision) ou à une diversité génétique (variabilité individuelle) et forme la
variabilité résiduelle). Nous observons ici une forme de la variabilité irréductible qui doit être rendue la plus petite possible, mais qu’il est vain de penser pouvoir supprimer. Cette variabilité fait partie de ce que l’on appellera la
variabilité résiduelle. Imaginons maintenant que deux individus tirent sur une cible avec la même carabine, puis
chacun recommence avec une autre carabine. Nous voyons apparaître une nouvelle forme de variabilité. La première
carabine (impacts circulaires) n’a pas la même déviation par rapport au centre de la cible que la seconde carabine
(impacts carrés). Cette différence est due à un facteur identifiable, qui est ici l’emploi de deux carabines différentes.
Dans le cas de nos poissons, il s’agirait de différence de mesures entre males et femelles (facteur sexe). On pourrait
imaginer qu’il s’agit de différences de poissons d’un an et de deux ans (facteur âge), entre morues et lottes (facteur
espèce)... C’est ce que l’on appellera la variabilité factorielle. Cette variabilité se distingue fondamentalement de la
variabilité résiduelle : elle représente de l’information qui permet de répondre à des questions correspondant aux
différents niveaux du facteur : les carabines sont-elles réglées de la même façon (niveaux 1 et 2 du facteur carabine)
? Les morues males atteignent elles la même taille à un an que les morues femelles (niveaux 1 et 2 du facteur sexe) ? Quelle est la différence de taille entre un et deux ans (niveaux 1 et 2 du facteur âge) ? Quelle est la différence de
taille entre males et femelles (niveaux 1 et 2 du facteur sexe) ?
Tandis que la variabilité résiduelle peut-être considérée comme du bruit parasite : si c’était possible, je préférerais
que le poids affiché sur la balance soit exactement la valeur réelle du poids de l’individu, et que deux morues placés
dans les mêmes conditions pendant 365 jours aient exactement la même taille : je pourrais ainsi répondre
directement à la question !
Notons que si je ne dispose pas, au minimum, de la mesure de deux individus dans chacune des conditions, la
variabilité factorielle sera indissociable de la variabilité résiduelle : car la seule mesure de distance disponible
est à la fois la distance entre deux individus de la mesure et des niveaux du facteur différents.
La variabilité individuelle ne peut être détectée que si j’effectue la mesure dans les mêmes conditions sur au moins
deux individus (ces mesures sont appelés réplications).
La variabilité factorielle ne peut être détectée que si j’effectue la mesure dans les mêmes conditions sur au moins deux individus pour au moins deux niveaux d’un facteur identifiable et pris en compte dans la définition de la
population.
2
Copyright © StatSoft, 2008
1.1.1 Imprécision Un individu mesuré plusieurs fois ne génère pas nécessairement le résultat. Ceci peu s'expliquer par exemple par les
limites de l'appareil de mesure, la façon dont il a été étalonné, …): on parle d'imprécision. Si la mesure n’est
effectuée qu’une seule fois par individu, la variabilité individuelle sera indissociable de l’imprécision, car la
seule mesure de distance disponible est à la fois la distance entre deux répétitions de la mesure et entre deux
individus différents. Dans ce cas, ce que l’on appelle la variabilité résiduelle sera la somme de la variabilité
individuelle (distance entre les valeurs réelles de différents individus) et de l’imprécision de la mesure (distance
entre les valeurs mesurées pour un même individu).
L’imprécision ne peut être détectée que si j’effectue la mesure au moins deux fois dans les mêmes conditions, sur le
même individu (ces mesures sont appelées duplications).
1.1.2 Inexactitude La mesure expérimentale d'un individu n'est pas identique à la mesure réelle de ce même individu. On parle
d'inexactitude. Cette différence systématique entre la mesure effective (ici l’impact) et la valeur réelle (ici le centre
de la cible) représente l’inexactitude. Si l’inexactitude est supérieure à l’imprécision, on parlera d’erreur, cette fois dans le bon sens du terme :si je pèse les poissons, je peux imaginer que la balance est mal tarée, ou que le poisson
est mal égoutté ; si je le mesure je peux imaginer que je le mesure jusqu’au bout de la nageoire caudale, alors que la
convention serait de le mesurer jusqu’à la fourche de la queue. Remarquons que si l’imprécision est grande, elle
pourra masquer l’inexactitude.
3
Copyright © StatSoft, 2008
Hors d'une population de morues atlantiques, il est possible de prélever un échantillon d'individus. C'est cet
échantillon qui sera décrit et qui servira de point de départ à une estimation (inférence) ultérieure sur la population
(Pour accéder à la partie "inférence").
La théorie de l’échantillonnage consiste à déterminer des propriétés sur des échantillons prélevés dans une population dont on connaît déjà des propriétés. On ne considère ici que des échantillons aléatoires, c’est-à-dire
constitués d’éléments pris au hasard dans une population. Le tirage des éléments d’un échantillon peut être fait sans
remise; On dit qu’il est exhaustif. Sinon si le tirage est fait avec remise, on dit qu’il est non exhaustif ; dans ce cas
les tirages sont indépendants. Dans la plupart des cas, la population ayant un grand effectif, dans laquelle on tire une
faible proportion d’éléments, on assimile un tirage sans remise à un tirage avec remise.
Le but d'une étude statistique est souvent, sinon la plupart du temps, de se faire une idée assez juste sur les variations
d'une variable dans une population. Cependant, il peut être très difficile, voire impossible, d'interroger ou d'observer
selon le cas tous les individus de la population. En pratique, donc, les données dont on dispose pour faire une
distribution sont, le plus souvent, les données d'un échantillon. Il surgit alors une question fondamentale qui ne se
pose pas lorsqu'on a les données de la population entière. C'est de savoir jusqu'à quel point il est permis d'extrapoler
à la population entière les phénomènes observés dans l'échantillon. Cette problématique est souvent traduite par la question: « Est-ce que l'échantillon est représentatif de la population? » En fait, on ne peut répondre par oui ou
non à cette question, car cela suppose l'existence d'un critère qui permettrait de déclarer une fois pour toutes que
l'échantillon est bon et d'affirmer que tout ce qui est vrai de l'échantillon est vrai de la population. Un tel critère
n'existe pas. C'est chaque conclusion qui doit être validée, et non l'échantillon comme tel. La question posée sera,
non pas si l'échantillon est bon ou mauvais, mais : « Est-ce que telle conclusion peut, avec peu de risque
d'erreur, s'appliquer à la population entière? »
La façon de répondre à cette question repose sur l’étude de la similitude entre la population et l’échantillon et
dépend de la caractéristique que l’on désire étudier. Par exemple, si l’on désire mieux connaître un paramètre de la
distribution d’une variable dans la population, disons sa moyenne m, notre attention se portera de façon naturelle sur
la moyenne x calculée dans un échantillon. Nous aurons besoin à ce moment de l’outillage théorique pertinent qui
nous permettra de comparer x et m et de tirer une conclusion. Pour le moment, nous voulons étudier la distribution
4
Copyright © StatSoft, 2008
même d’une caractéristique ou d’une variable. Il s’agira de comparer la distribution observée de la variable dans un
échantillon avec une distribution hypothétique (ou souhaitée parfois) au moyen d’un outil d’analyse adéquat. La
procédure d’analyse qui sera élaborée ici porte le nom de test d’ajustement analytique.
Que doit-on conclure au sujet de notre hypothèse, la rejeter ou non?
5
Copyright © StatSoft, 2008
Parmi les raisons justifiant un échantillonnage plutôt que de travailler sur la globalité de la population:
1. les ressources sont illimitées... (pêcher toutes les morue atlantiques de la mer est impossible).
2. les données disponibles sont limitées... (la reproduction des pandas captifs ne peut être étudiée que sur l'effectif captif c'est-à-dire composé d'un nombre restreint d'individus).
3. l'expérimentation est destructive... (impossible de sacrifier la population de chauve souris [200 individus]
pour mesurer la longueur de l'intestin).
6
Copyright © StatSoft, 2008
Supposons que l'on prélève dans les filets de ce chalutier 15 morues atlantiques. Celles-ci constitue l'échantillon.
Chaque individu est mesuré depuis la tête jusqu'à la fourche (la mesure xi du paramètre X) et les résultats sont
répertoriés ci-dessous. Il s'agit de la première étape du processus de description de l'échantillon.
1 paramètre étudié: poids moyen en Kg = 1 DIMENSION (X) 1 individu = 1 mesure de poids (xi)
La description de l'échantillon se poursuit par le classement des données, les mesures de la tendance centrale et de la
dispersion
7
Copyright © StatSoft, 2008
TRI DES POISSONS EN FONCTION DE LEUR POIDS DANS PLUSIEURS CLASSES
La classification des données xi (poids des morues pêchées) est obtenue en créant artificiellement des classes (ou
catégories) d'individus.
Le nombre de classes dépend du nombre d'individus pêchés:
il ne peut être trop petit sous peine de perdre de l'information: 1 classe contenant tous les
individus de l'échantillon revient à ne pas faire de classe
il ne peut être trop grand sous peine de perdre de l'information: pour un échantillon de 15
individus, réaliser 15 classes revient à avoir des classes ne contenant qu'un poisson voire
aucun les classes possèdent toutes le même intervalle séparant leur limite inférieure et supérieure (dans l'exemple:
l'intervalle de classe Li vaut 2 Kg):
classe 1: de 0 Kg inclus à 2 Kg exclus
classe 2: de 2 Kg inclus à 4 Kg exclus
classe 3: de 4 Kg inclus à 6 Kg exclus
classe 4: de 6 Kg inclus à 8 Kg exclus
8
Copyright © StatSoft, 2008
fréquences: est le nombre d'individus appartenant à une classe. Il est généralement noté ni . La
somme des fréquences de toutes les classes est la taille de l'échantillon n.
fréquences cumulées: est la somme des fréquences de la classe étudiée et des fréquences des
classes qui lui sont inférieures. La fréquence cumulée de la dernière classe vaut N (c'est-à-dire la
somme des ni).
la fréquences relative : est le rapport entre la taille de la classe étudiée et la taille de l'échantillon.
Nous étudions dans ce cas l'importance de la classe par rapport à la globalité de l'échantillon (exemple:
20% des individus de l'échantillon présenté dans la figure ci-dessous ont une envergure comprise entre
380 et 400 mm). La somme de toutes les fréquences relatives est égale à 1. Elle est notée ni/n.
la fréquence relative cumulée : est la somme des fréquences relatives de la classe étudiée et des fréquences relatives des classes qui lui sont inférieures. La fréquence relatives cumulée de la dernière
classe vaut 1.
la densité de fréquences relatives : est souvent employée car la surface de chaque rectangle de
l'histogramme correspond à la fréquence relative de la classe:
Un cas extrême est celui où la taille de l'échantillon tend vers l'infini. A ce moment, le nombre de classes possible
tend aussi vers l'infini. Chaque classe possède un intervalle (une base) infinitésimale. La surface d'un rectangle tend
vers 0. On ne parlera plus de distribution de densités de fréquences relatives mais de distribution de densités de
probabilités. L'intervalle de classe (Li) est la distance séparant la limite supérieure de la limite inférieure de chaque classe.
9
Copyright © StatSoft, 2008
Les statistiques descriptives à une dimension se limitent à décrire une seule variable à la fois, discrète (le nombre d'enfants par famille) ou continue (concentration naturelle des eaux en Cd, on effectue la mesure sur 150
échantillons d'eau en ng/l)...
Prenons l'exemple de la variable X: nombre d'enfants par famille. J'étudie cette variable dans la population française,
10
Copyright © StatSoft, 2008
parmi laquelle je sélectionne 50 familles. J'obtiens une série statistique de 50 valeurs, x1, x2, x3 .... xi, ... x50. Si je
me contente d'énumérer les 50 valeurs, c’est-à-dire de produire la série statistique, l'information ne sera guère
pratique.
Comment dès lors répondre facilement aux questions: quelle est la proportion de familles de moins de
deux enfants, quelle est la proportion de familles bénéficiant d'une réduction au chemin de fer, la proportion de
familles de trois enfants est-elle différente en France et en Belgique ???
Une façon commode de représenter les résultats consiste à créer une distribution statistique des valeurs numériques.
La distribution de fréquence reprend l'ensemble des k valeurs différentes observées, classées par ordre croissant, x1,
x2, ... xi,... , xk, et les fréquences correspondantes, n1, n2, ...,ni, ..., nk, la fréquence ni étant le nombre de fois que
j'observe une valeur particulière xi dans l'échantillon.
n étant l'effectif (ici 50), on a évidemment la relation:
Cette équation implique que chaque observation peut être classée dans une et une seule des k catégories définies.
Toute statistique se réfère à des conventions : il faudra décider comment classer une femme enceinte, un enfant
décédé, les enfants de familles recomposées...
En général, on définira toutes les catégories correspondant aux valeurs discrètes comprises entre les valeurs
minimum et maximum observées ; si certaines valeurs ne sont pas observées, on associera à ces catégories une
fréquence nulle.
Cela fait, on y voit déjà plus clair dans les résultats. Cependant, si je veux comparer l'échantillon belge à
l'échantillon français, et que celui-ci comprend un effectif de 80 observations, le niveau absolu des mesures
est un obstacle à la comparaison. 19 n'est pas comparable comme tel à 15, puisqu'il s'agit de 19 parmi 67 et 15 parmi
50. J'aurai donc intérêt à établir la distribution de fréquences relatives dans laquelle chaque fréquence est exprimée
en proportion (comprise entre 0 et 1) ou en pourcentage (compris entre 0 et 100) de l'effectif.
11
Copyright © StatSoft, 2008
Enfin, les distributions de fréquences cumulées permettent de répondre facilement à des questions du type: quelle
est la proportion de familles profitant d'une réduction au chemin de fer ? La fréquence cumulée est établie en
additionnant les fréquences de proche en proche à partir de la première valeur n1. La fréquence relative cumulée est
définie de la même façon. Si N'i est la fréquence relative cumulée correspondant à la catégorie i, on peut écrire:
L'abscisse correspond aux différentes valeurs discrètes prises par la variable X, et l'ordonnée représente une des distributions de fréquence. Un tel diagramme est appelé tracé en bâtons/colonnes, en raison de la discontinuité de
l'abscisse.
12
Copyright © StatSoft, 2008
Les métaux lourds exercent une importante série d’effets sur les poissons. Ceci va des effets métaboliques aux effets
physiologiques en passant par des modifications comportementales. Parmi ces métaux lourds, le cadmium
est un des effluents les plus communs. Il est souvent déversé avec les effluents industriels et domestiques. Chez le poisson, le Cd a des effets sur la croissance et est responsable de stress osmorégulateur. Il a même été montré
que le Cd pouvait altérer la structure et la fonction de divers organes tels que le foie. La réponse à un stress est
encore mal comprise et en particulier les effets spécifiques du Cd sur les voies métaboliques de production
d’énergie. Ce rapport met en évidence les effets du Cd sur plusieurs voies du métabolisme des hydrates de carbone
dans le foie des saumons atlantiques.
Osmorégulateur :qui régule l’osmose, mécanisme impliqué dans le maintien d’une concentration ionique
intracellulaire différente de celle du milieu.
Afin de déterminer la concentration naturelle des eaux en Cd, on effectue la mesure sur 150 échantillons d'eau (ng/l).
Les valeurs, continues, ont été tronquées à deux chiffres significatifs. (feuille de données ci-dessous)
Les résultats sont relativement encombrants. Il faudrait un long examen rien que pour établir que la concentration
observée est comprise entre 33 et 66 ng/l ou alors de réaliser des stats en colonne dans STATISTICA.
13
Copyright © StatSoft, 2008
25
Une première synthèse est obtenue en regroupant d'abord les données en classes. Ceci implique de définir un
intervalle de classe, globalement constant, qui divise l’intervalle (maximum-minimum) en une série d’intervalles
plus petits (limite supérieure - limite inférieure). Les données appartenant à cet intervalle sont assignées à la classe
correspondante. A chaque classe est associée une fréquence, qui correspond au nombre d'observations individuelles
assignées à cette classe. Les classes doivent toujours être exclusives, de façon à réaliser la relation :
Pour cela, il faut classer arbitrairement les valeurs qui correspondent aux limites de classes, soit systématiquement dans la catégorie supérieure ou inférieure, soit alternativement dans l'une et dans l'autre. Ce problème est lié au fait
que la variable continue a artificiellement un caractère discret de par la limitation du nombre de chiffres significatifs.
14
Copyright © StatSoft, 2008
Les fréquences, fréquences relatives et fréquences relatives cumulées peuvent dès lors être définies de la même
façon que pour les variables discrètes, chaque classe étant identifiée soit par ses limites, soit par son centre (valeur
équidistance des limites).
Le nombre de classes est arbitraire. On se rend aisément compte qu'il doit réaliser un compromis entre deux
extrêmes : une seule classe, ce qui supprime presque toute l'information, et autant de classes qu'il y a de valeurs différentes, ce qui ne réalise aucune synthèse des résultats. Globalement, le nombre de classes est proportionnel au
nombre d'observations, l'intervalle de classe est constant, et les classes de fréquence nulle sont évitées.
Ensuite un graphique peut être réalisé en plaçant en abscisse la variable continue (le centre, ou les limites, ou une
sélection des ces valeurs, est indiqué en fonction de l’espace disponible) en ordonnée la fréquence, la fréquence
relative ou la fréquence relative cumulée. On représente la fréquence par une série de rectangles contigus, ce qui
indique le caractère continu de la variable.
Avant de construire notre distribution de fréquences nous devons déterminer combien de classes nous utiliserons.
C’est purement arbitraire, mais trop peu ou trop de classes ne donnera pas une image aussi nette qui peut être
obtenue avec des nombres plus proches de l’optimum. Une relation empirique, connue comme la règle de Sturge,
peut être utilisée comme un guide utile pour déterminer le nombre optimal de classes (k) est donné par
k = le plus petit entier supérieur ou égal à 1 + 3.332 Log(n)
où k est le nombre de classes, Log est en base 10, n est le nombre total de valeurs numériques du fichier de données.
Par conséquent, la largeur de classe est :
(Valeur maxi – valeur mini) / (1 + 3.332 Log(n))
où n est le nombre total d’items du fichier de données.
Pour avoir un "optimum" vous avez besoin de mesurer la qualité – vraisemblablement dans ce cas, le "meilleur" affichage quelque soit l’information disponible dans les données. La taille d’échantillon contribue à cela ; ainsi la
méthode habituelle est d’utiliser entre 5 et 15 classes, avec le plus de classes possible si vous disposez d’un gros
échantillon. Vous devrez prendre en compte une préférence pour des largeurs de classes soignées, de préférence un
multiple de 5 ou 10, parce que c’est plus facile à comprendre.
Les approches suivantes sont également reportées :
Posons n comme étant la taille d’échantillon, puis le nombre de classes d’intervalles serait :
MIN {n, 10 Log(n) }
Il s’agit bien du logarithme de base 10. Ainsi pour 200 observations vous aurez 14 intervalles mais pour 2000 vous
en aurez 33.
15
Copyright © StatSoft, 2008
La moyenne arithmétique est la mesure de la tendance centrale la plus facile à calculer. Elle est obtenue par la
division de la somme de toutes les valeurs de l'échantillon par la taille de l'échantillon (n). Cette mesure est très
sensible aux valeurs extrêmes.
La moyenne d’une variable aléatoire est une mesure de tendance centrale de cette variable. Elle est également
appelée espérance mathématique. Dans la pratique, le terme moyenne est très souvent utilisé dans le sens de
moyenne arithmétique.
C’est une tendance centrale permettant de caractériser le centre de la distribution de fréquences d’une variable
quantitative en considérant toutes les observations et en leur attribuant le même poids.
Elle peut être considérée comme le centre de gravité des données, affectée de coefficients égaux pour chaque
individu.
Inconvénients : Un des inconvénients de la moyenne empirique, vu comme valeur centrale d’un échantillon, est
d’être sensible aux valeurs extrêmes. Une valeur manifestement très différente des autres est souvent qualifiée de
valeur aberrante. Qu’elle soit ou non le résultat d’une erreur dans le recueil ou la transcription, on ne peut pas la
considérer comme représentative. Supposons que sur un échantillon de 10 valeurs, toutes soient de l’ordre de 10,
sauf une, qui est de l’ordre de 1000. La moyenne empirique sera de l’ordre de 100, c’est très éloigné de la plupart
des valeurs de l’échantillon. Pour palier cet inconvénient, on peut décider ne pas tenir compte des valeurs extrêmes
dans le calcul de la moyenne. On obtient alors une moyenne élaguée. Si certaines observations sont considérées
16
Copyright © StatSoft, 2008
moins fiables que d’autres, il pourrait être avantageux d’attribuer à celles-ci moins d’importance, soit en calculant
une moyenne arithmétique pondérée, soit en utilisant la médiane qui n’est pas trop influencée par les observations
aberrantes.
La moyenne géométrique est définie comme la n-ième racine du produit de n nombres non négatifs.
Comme la moyenne arithmétique, elle prend en compte chaque observation individuellement. Toutefois, elle diminue l'effet des très grands nombres. C’est une raison pour laquelle elle est parfois préférée à la moyenne
arithmétique.
Elles est plus utilisée dans le calcul de ratios ou plus particulièrement d’indices.
La moyenne harmonique de n nombres est définie comme n divisé par la somme des inverses de chaque nombre.
Elle est très peu utilisée en statistique mais peut se révéler appropriée dans certains cas : pour des taux
d’investissement différents par exemple.
Une propriété de la moyenne harmonique est d’être peu influencée par des valeurs aberrantes lorsque celles ci sont
beaucoup plus grandes que l’ensemble des données. Par exemple, pour l’ensemble de données 1,2,3,4,5,100, la
moyenne harmonique est égale à 2.62 tandis que la moyenne arithmétique vaut 19.17. Par contre, elle est beaucoup
plus sensible aux valeurs aberrantes lorsque celles-ci sont beaucoup plus petites que l’ensemble des données. C’est
ainsi qu’avec les observations 1,6,6,6,6,6, on trouve H=3.27 alors que la moyenne arithmétique vaut 5.17.
Le mode détermine la valeur la plus fréquente dans un échantillon. Si l'échantillon est divisé en classes, la classe
modale constitue la classe la plus fréquente. Dans l'exemple ci-dessus, les classes modales sont les classes 2 et 3 et
contiennent 5 individus chacune. Le mode est la valeur pour laquelle on enregistre le plus grand effectif.
Inconvénients : En examinant la distribution on se rend compte que de part et d’autre de cette valeur les effectifs
diminuent. En réalité, il faut être prudent dans l’utilisation du mode lorsqu’on a affaire à une variable qui possède un
nombre infini de modalités. Le mode n’a plus de signification. On retiendra cette statistique uniquement dans le cas
de variables discrètes possédant un nombre limité de modalités.
La médiane est la valeur telle que 50% des observations de l'échantillon lui sont inférieures. La médiane est la valeur qui sépare la population en deux classes d’effectifs égaux.
Si le nombre d'observations est pair: la médiane est la moyenne entre les observations n/2 et (n+2)/2.
Si le nombre d'observations est impair: la médiane est la valeur (n+1)/2. Dans l'exemple ci-dessus,
l'échantillon est composé de 15 individus. Cela implique que la médiane se trouve au niveau de l'individu
n°8. En effet, il existe 7 individus de taille inférieure à la médiane et 7 individus de taille supérieure à cette
même médiane.
Les mesures d’“aplatissement” d’une distribution font partie des mesures de forme et caractérisent un aspect de la
forme d’une distribution donnée. Plus précisément, elles caractérisent le degré d’aplatissement de la distribution
normale. En effet, certaines distributions se rapprochent de la loi normale sans toutefois y être totalement identiques.
Il est alors utile de pouvoir tester si la forme de la distribution présente une déviation par rapport à l’aplatissement de la distribution normale. On parle de distribution platicurtique si la courbe est plus aplatie que la courbe normale
(valeur négative d’aplatissement) et de distribution leptocurtique si la courbe est plus pointue que la courbe normale
(valeur positive). Si l’aplatissement est nettement différent de 0, alors la distribution est soit étalée soit pointue par
rapport à une courbe normale ; le coefficient d’aplatissement ou kurtosis d’une distribution normale est 0.
L’asymétrie ou sknewness prendra une valeur de 0 (entre –0.1 et +0.1) quand la distribution présente une courbe
symétrique. Une valeur positive indique que les observations sont plus rangées à droite de la moyenne avec la
plupart des valeurs extrêmes à droite de la moyenne. Une asymétrie négative indique un regroupement à gauche.
Dans ce cas nous avons : Moyenne <Médiane <Mode. L’ordre inverse s’applique pour les observations avec une
asymétrie positive.
Dans une distribution symétrique, la médiane, la moyenne, et le mode se confondent en un même point central. Cet
équilibre n’existe plus lorsqu’il y a asymétrie. Dans ce cas , le mode est séparé de la moyenne, et la médiane se
17
Copyright © StatSoft, 2008
trouve entre les deux. Par conséquent, il est nécessaire de développer des mesures d’asymétrie pour appréhender le
degré de déviation de la forme de la distribution par rapport à une distribution symétrique. Si l’asymétrie est
nettement différente de 0, alors cette distribution est asymétrique, alors que les distributions normales sont
parfaitement symétriques.
Représentation graphique de la moyenne et de l'écart-type. Une technique graphique similaire à celle du Tracé en bâtons peut être utilisé pour représenter la moyenne de différents échantillons. On l'accompagne souvent
d'une représentation de la variabilité des observations (par exemple 1). Il s’agit du graphique Moyenne avec Barres d’erreur.
18
Copyright © StatSoft, 2008
19
Copyright © StatSoft, 2008
20
Copyright © StatSoft, 2008
21
Copyright © StatSoft, 2008
Les notions de variance et d’écart-type servent à quantifier la dispersion d’un échantillon autour de sa moyenne.
L’écart-type est une mesure de dispersion très largement utilisée. Il correspond à la racine carrée positive de la
variance, où la variance est la moyenne des déviations au carré de chaque observation par rapport à la moyenne de
l’ensemble des observations. L’avantage de l’écart-type sur la variance est qu’il s’exprime, comme la moyenne,
dans la même unité que les données. La variance est une mesure de dispersion d’une distribution correspondant à
l’écart-type élevé au carré. Empiriquement, la variance d’une variable quantitative est définie comme la somme des
déviations au carré de chaque observation par rapport à la moyenne arithmétique, divisée par le nombre
d’observations. Il est toutefois difficile d’utiliser la variance comme mesure de dispersion car le recours au carré
conduit à un changement d’unités (ordre de grandeur des écarts). C’est pour cette raison qu’on lui préfère l’écart-type qui est la racine carré de la variance.
22
Copyright © StatSoft, 2008
Le coefficient de variation est souvent utilisé pour exprimer la précision d'un appareil. Si l'on dit qu'une balance est précise à 1%, cela signifie que l'écart-type entre différentes mesures représente 1% de la valeur pesée. Si l'on pèse
plusieurs fois une masse d'un gramme, 95% des pesées seront comprises entre 0.98 g et 1.02 g. Si l'on utilise la
23
Copyright © StatSoft, 2008
même balance pour peser 100 g, 95% des pesées seront comprises entre 98 et 102 g. Pour une même erreur relative
l'erreur absolue est passée de 0.02 g à 2 g!
Test de Kolmogorov
Avantages du Test : L’avantage du Test de K-S réside dans le fait qu’il n’exige aucune hypothèse sur les données
(c’est-à-dire que c’est un test non paramétrique à distribution libre) ; il s’applique à des variables quantitatives
continues (par exemple le poids ou la quantité de feuilles) ; il ne nécessite pas de regroupement de classes quand l’effectif est faible et peut s’appliquer quand l’effectif de l’échantillon est très petit.
Principe du Test : Ce test détermine si deux ensembles de données différent significativement. Il consiste à calculer
les différences existant entre les distributions de fréquences relatives cumulées de deux échantillons et à vérifier si
la plus grande des déviations D peut être le fruit de fluctuations fortuites d’échantillonnage. Si tel n’est pas le cas,
l’écart peut provenir d’une différence de position entre les deux distributions ou encore d’une différence de
dispersion, d’asymétrie ou autre. Dans le cadre de la vérification de la normalité, on compare donc la distribution
des fréquences relatives cumulées des données d’un échantillon à la distribution des fréquences relatives cumulées
théoriques (c’est-à-dire normales) puis on observe où se situe la déviation D la plus grande entre les deux
distributions. Le test de Kolmogorov-Smirnov doit être utilisé quand la variable considérée a une distribution
continue. Mais dans le cas contraire, appliqué à une variable discontinue, si H0 est rejetée, nous pouvons avoir
confiance en cette décision. Comme ce test ne nécessite aucun groupement des données et qu'il permet de traiter des
échantillons de faible taille, chaque fois que ces conditions sont remplies, il est le plus puissant des tests d'ajustement présentés.
Si la plus grande déviation D n’est pas significative (pour =0.05), alors la distribution des données est considérée comme normale.
Si elle est significative, cela montre que les données ne sont pas distribués normalement, et qu’il faut faire appel à
des tests non-paramétriques.
Ce test est plus naturel que celui du chi2 lorsque la loi attendue a une fonction de répartition continue. Il s’agit d’un
test d’ajustement à une loi avec densité, qui prend en compte l’ensemble des quantiles. Soit X une variable aléatoire réelle dont la loi a une fonction de répartition continue F et X1,X2…,Xn, n réalisations
indépendantes d’un processus dont on suppose qu’il suit la même loi que X (on cherche à tester cette hypothèse). Le
test consiste à mesurer l’écart entre la fonction de répartition exacte et la fonction de répartition empirique et à le
comparer à une valeur « admissible ».
Ce test étudie l'écart entre :
la fonction des probabilités cumulées de l'échantillon
la fonction des probabilités cumulées de la loi théorique
On regarde pour tous les points cet écart. Et on garde la valeur la plus élevée en valeur absolue.
Pour valider un ajustement à une valeur théorique on compare à une valeur théorique dans une table. On choisit les valeurs suivant un critère bilatéral car on ne cherche pas à rejeter uniquement si la courbe est en dessous ou au
dessus mais dès qu'elle ne suit plus la loi normale.
Le fichier de données suivant est ouvert :
24
Copyright © StatSoft, 2008
Calcul de F(X(i)) pour la valeur X(i) = 3.8 dans STATISTICA est donnée par le calculateur de probabilité issu d’une
distribution N (2,1), ici 0.96 :
25
Copyright © StatSoft, 2008
La distribution d'échantillonnage de D est connue. La table en donne certaines valeurs critiques. La signification
d'une valeur donnée de D dépend de la les valeurs critiques de D par les divisions indiquées dans la table. Par
exemple, lorsque l'on travaille avec un échantillon de 43 observations et que l'on a fixé a = 0,05, la table montre que
tout D égal ou supérieur à 1,36 / N sera significatif. Ainsi, tout D, calculé par la formule, égal ou supérieur à 1,36
/43 = 0,207 sera significatif au seuil 0,05 pour un test bilatéral. La table ne donne que les valeurs critiques de D pour N compris de 1 à 35.
Les résultats donnés par STATISTICA sont les suivants :
26
Copyright © StatSoft, 2008
Recommandations :
Utilisé comme test sur une distribution de variables discrètes lorsque n 25.
Aussi utilisé lorsque n 25 sur les variables discrètes (Poisson et Binomiale), mais les résultats ne sont
qu’approximatifs.
Utilisé pour des distributions de fréquences de variables continues (échelles d’intervalle, de rapport et ordinale),
même lorsque n 25.
Le test se fait généralement sur les valeurs non-groupées (quand n est très grand, on place les effectifs dans des
classes).
Les données non-groupées sont rangées en ordre ascendant.
Le test se fait à partir de distributions de fréquences cumulées relatives des effectifs observés et théoriques.
Ce test traite les observations individuelles séparément et ne nécessite en aucun cas la combinaison de classes
comme dans le chi-deux. De plus ce test est utilisable avec de petits échantillons, contrairement au chi-deux.
Aussi le test de Kolmogorov-Smirnov est dans tous les cas plus puissant que le test du chi-deux.
Test de Lilliefors
Le test de Lilliefors corrige le test de Kolmogorov-Smirnov si on ne connaît pas la moyenne et la variance de la
population.
La sortie du Test de Lilliefors, qui devrait être comparée avec les valeurs critiques suivantes après avoir établi un
Valeurs critiques du Test de Lilliefors
Niveau de Significativité
Valeur Critique
= 0.15 0.775 / ( n ½ - 0.01 + 0.85 n
-½ )
= 0.10 0.819 / ( n ½ - 0.01 + 0.85 n
-½ )
= 0.05 0.895 / ( n ½ - 0.01 + 0.85 n
-½ )
27
Copyright © StatSoft, 2008
= 0.025 0.995 / ( n ½ - 0.01 + 0.85 n
-½ )
Pour n = 100, la valeur critique pour = 0.05, est égale à 0.088.
Test de Shapiro
Exemple d'utilisation du test de Shapiro et Wilk :
On a titré une série de 10 lots de Streptomycine par dosage au maltol. On a obtenu les résultats suivants diminués de 700 unités : 60-80-55-45-60-65-65-60-70-40.
Les n observations expérimentales ont été au préalable rangées par ordre de valeur croissante.
On désire tester la normalité de cette série de résultats en calculant la somme.
où d1 = yn - y1 , d2 = yn-1 - yn-2, …, di = yn-i+1 - yi.
Remarquons que si n = 2p (n pair), on aura p différences et si n = 2p + 1 (n impair) on aura aussi p différences,
l'observation médiane n'intervenant pas.
Où Pour les valeurs de aj voir la table des aj (jusqu’à n = 15) ci-dessous.
28
Copyright © StatSoft, 2008
29
Copyright © StatSoft, 2008
On lit dans la table de Shapiro et Wilk pour n =10 et un risque de 5% la valeur de Wcrit. On trouve :
Wcrit = 0,842
On choisit un risque (5 % ou 1 %) et on compare la valeur de W à une valeur Wcrit, dite valeur critique, lue dans la
table de Shapiro et Wilk. La règle du test est alors la suivante :
Si W > Wcrit on accepte, au risque choisi, l'hypothèse de normalité de la série de mesure. Si W < Wcrit on rejette l'hypothèse de normalité de la série de mesure.
On a donc W > Wcrit, on accepte donc au risque de 5% l'hypothèse de normalité de la distribution statistique
donnée.
30
Copyright © StatSoft, 2008
STATISTICA trouve une valeur du W de Shapiro égale à 0.96481 > W crit, donc on accepte l’hypothèse de normalité
à près de 84%.
Test du Chi-deux
L'outil statistique le plus classique pour tester l'adéquation entre une distribution expérimentale et une distribution
théorique est le test du chi-deux, aussi connu sous le nom de test de Pearson.
Pearson a démontré que, si l'échantillon est assez important, la variable Z suit approximativement une loi du 2 à degrés de liberté.
En pratique, le test ne peut être valablement effectué que si l'on dispose d'un nombre suffisant d'observations (N >
50) et si les effectifs théoriques N pi des différentes classes sont au moins égaux à 5. Si cette condition n'est pas
satisfaite, on regroupe les classes trop petites (en général, aux extrémités de la distribution). Le nombre k utilisé plus
haut est le nombre de classes après le regroupement.
Le test du chi-deux concerne uniquement les lois discrètes, mais on peut l'utiliser aussi pour des échantillons
continus regroupés en classes.
On cherche à tester l'hypothèse nulle Ho selon laquelle la distribution empirique est proche de la distribution
théorique.
La statistique du chi-deux est donc une moyenne pondérée d'écarts quadratiques entre la distribution empirique et la
distribution théorique.
Lorsque l'hypothèse nulle d'ajustement à la loi théorique est vraie, la quantité Chi-deux observée suit
approximativement une distribution du chi-deux à (R-1) degrés de liberté.
La valeur du chi-deux observé est nulle lorsque les fréquences observées sont égales aux fréquences attendues, c'est-
à-dire lorsqu'il y a concordance complète entre la distribution observée et la distribution théorique. On rejette donc
l'hypothèse nulle lorsque la valeur observée est trop élevée c'est-à-dire lorsque : Chi-deux observé > chi-deux (1-), étant l'erreur de première espèce relative au test.
31
Copyright © StatSoft, 2008
Le Chi-deux est une distribution, comme la distribution Normale et les autres. La distribution normale (ou
Gaussienne ou en forme de cloche) est très présente par nature dans la vie réelle.
Les distributions du chi-deux suivent toujours une distribution en cloche caractérisée par une dissymétrie à gauche.
La forme de la courbe est déterminée par le nombre de degrés de liberté et du nombre de catégories dans lesquelles
les fréquences sont dénombrées. En effet plus le nombre de degrés de liberté augmente, plus on tend vers une
distribution normale et donc on adopte une courbe en cloche. La seule valeur caractéristique de la distribution est n, le nombre de degrés de liberté ou n représente le nombre de variables aléatoires indépendante, chacune distribuée
selon la loi normale centrée réduite. Quand nous connaissons la moyenne et la variance d’une distribution Normale alors cela nous permet de trouver les
probabilités. Ainsi si par exemple, vous connaissiez des infos à propos de la hauteur moyenne des femmes du pays
(y compris le fait que les hauteurs soient distribuées normalement, vous pourriez mesurer toutes les femmes de votre
famille, trouver la hauteur moyenne et déterminer une probabilité associée avec votre résultat ; si la probabilité d’obtenir votre résultat, étant donné votre connaissance du pays tout entier, est élevée. Alors on ne pourra pas dire
que la hauteur des femmes de votre famille soit différent de la moyenne. Si cette probabilité est faible, alors votre
résultat est rare (étant donné la connaissance des femmes du pays tout entier), et vous pouvez dire que votre famille
est différente. Vous venez de réaliser un test d’hypothèse confirmant que la hauteur moyenne des femmes de votre
famille est différente de la moyenne générale.
Il y a d’autres tests (similaires) pour trouver cette probabilité qui n’induisent PAS d’utiliser la distribution Normale. Un de ceux là est le test du Chi-deux. Par exemple, si vous testez la variance des hauteurs des femmes de votre
famille (qui est analogue à votre test précédent sur la moyenne), vous ne pouvez pas supposer que l’usage de la
distribution normale soit approprié. Cela paraît sensé, puisque la distribution Normale a une forme en cloche, et les
variances ont une limite inférieure à zéro. Donc, alors qu’une variance pourrait être un nombre très important, elle
est limitée dans la partie inférieure par zéro. Si vous deviez tester si la variance des hauteurs des femmes de votre
famille est différente de celles du pays, un test du Chi-deux semble être approprié, étant donné nos conditions
originales ci-dessus. Tables croisées : Il n’y a pas que la variance pour laquelle nous utilisons le test du Chi-deux. Très souvent il est
utilisé pour tester la relation entre deux catégories de type de données, ou l’indépendance de deux variables, tel que
fumer une cigarette et l’usage de drogues. Si vous deviez enquêter sur 1000 personnes pour savoir s’ils fument ou
non et s’ils consomment des drogues, vous obtiendrez une des quatre réponses : (non, non) (non, oui) (oui, non) (oui, oui). En regroupant le nombre des personnes dans chaque catégorie, vous pouvez tester à la fin si fumer des cigarettes est
indépendant de l’usage de drogue en utilisant la distribution du Chi-deux (c’est approximatif, mais fonctionne bien).
Le calcul des degrés de liberté est égal à (nombre de lignes-1)(nombre de colonnes -1). C’est à dire, ces nombreuses
résultats ont besoin de remplir le corps entier de la table croisée, le reste sera déterminé en utilisant la somme des
lignes et des colonnes. Ne pas oublier les conditions de validité du test du Chi-deux et des valeurs attendues supérieures à 5 dans 80% ou
plus des cellules. Sinon, on utilisera le test "exact", en utilisant soit une permutation ou un ré échantillonnage. Pour une table 2-fois-2, vous utiliserez la correction de Yates sur le chi-deux. La distribution du chi-deux est utilisée
comme une approximation de la distribution binomiale. En appliquant une correction continue nous obtenons une
meilleure approximation de la distribution binomiale dans le but de calculer les probabilités en queue.
La valeur p, qui dépend directement d’un échantillon donné, tente de donner une mesure de la puissance des
résultats à un test de l’hypothèse nulle, en contraste à un simple rejet ou de ne pas rejeter dans l’approche classique du test d’hypothèse. Si l’hypothèse nulle est vraie et la chance d’une variation aléatoire est la seule raison des
différences entre échantillons, alors la valeur p est une mesure quantitative permettant de faciliter la décision. La
table suivante donne une interprétation raisonnable des valeurs de p :
32
Copyright © StatSoft, 2008
Niveau P Interprétation
P 0.01 Très forte évidence par rapport à
H0
0.01 P 0.05 Evidence modérée par rapport à H0
0.05 P 0.10 Evidence suggestive par rapport à
H0
0.10 P Petite ou pas d’évidence par
rapport à H0
Principes généraux
Objectifs Il existe de très nombreux tests qui permettent d’évaluer des aspects différents de significativité. Les objectifs
principaux auxquels peuvent répondre les tests statistiques sont :
l’évaluation de la représentativité des répartitions observées par rapport aux valeurs connues pour l’ensemble de la
population,
la mesure de la significativité de la différence constatée sur les observations de deux groupes d’individus ou d’un
même groupe pour deux variables observées,
l’existence et l’intensité d’une liaison entre deux variables.
Fonctionnement Les tests statistiques fonctionnent tous sur le même principe qui consiste à énoncer une hypothèse sur la population
mère puis à vérifier, sur les observations constatées, si celles-ci sont vraisemblables dans le cadre de cette
hypothèse.
Autrement dit, on cherche à estimer la probabilité de tirage au sort dans la population mère, d’un échantillon ayant
les caractéristiques observées. Si cette probabilité est minime, on rejette l'hypothèse énoncée ; dans le cas contraire,
celle-ci peut être adoptée, au moins provisoirement, dans l’attente de validations complémentaires.
L’hypothèse à tester est appelée H0 ou hypothèse nulle. Elle s’accompagne impérativement de son hypothèse
alternative appelée H1.
Le test s’attachera à valider ou à rejeter H0 (et par conséquent a tirer la conclusion inverse pour H1).
Si le résultat du test amène à accepter l’hypothèse nulle H0, le chargé d’études en déduit qu’il ne peut rien conclure
à partir des observations concernées, la probabilité que la répartition soit due au hasard étant élevée.
En revanche, le rejet de H0 signifie que la répartition des réponses recèle des informations particulières qui ne semblent pas être dues au hasard et qu’il convient d’approfondir.
Mode d’utilisation
La mise en œuvre d’un test statistique se déroule généralement en 5 étapes :
Formulation de l’hypothèse nulle H0 et de son hypothèse alternative H1 : ces hypothèses sont toujours formulées par rapport à la population globale, alors que le test portera sur les observations effectuées dans le cadre de l’échantillon.
Exemple : Par rapport à l’année dernière où nos clients avaient donné une note de 8,7 sur 10 à notre magasin, la note
33
Copyright © StatSoft, 2008
donnée cette année par 100 clients que nous avons interrogés et qui se situe à 8,5 sur 10 n’est pas significativement
inférieure.
Détermination du seuil de signification du test.
Exemple : nous acceptons un risque d’erreur de 5%.
Dans le cadre des tests paramétriques, détermination de la loi de probabilité qui correspond à la population mère.
Exemple : si on interrogeait tous nos clients potentiels, les notes données se répartiraient selon une distribution normale ayant un écart type de 1.
Calcul du seuil de rejet de H0 pour déterminer la région de rejet et la région d’acceptation de H0 (et inversement de
H1).
Exemple : Pour un risque de 5%, la loi normale donne une valeur critique de -0,1645. Si la valeur de notre test est supérieure à ce seuil, notre hypothèse H0 est vérifiée : la note de cette année
n’est pas significativement inférieure.
Décision de rejet ou d’acceptation de l’hypothèse H0.
Exemple : La comparaison de la différence entre 8,5 et 8,7, qui est de -0,2 étant inférieure à la valeur critique, nous
devons rejeter l’hypothèse H0. Nous devons donc estimer que la note donnée cette année est significativement
inférieure à celle de l’année dernière.
Test unilatéral, ou bilatéral
Lorsque l’hypothèse nulle consiste à tester l’égalité de la valeur du test avec une valeur donnée, le test est bilatéral. En effet, le rejet de l’hypothèse est décidé si la valeur du test est significativement différente, qu’elle soit inférieure
(zone de rejet de gauche) ou supérieure (zone de rejet de droite).
Le test est dit unilatéral lorsque l’hypothèse nulle évalue si une valeur est supérieure ou égale à la valeur de test
(unilatéral gauche) ou inférieure ou égale à cette valeur (unilatéral droit).
Le test donné en exemple ci-dessus est donc un test unilatéral gauche.
34
Copyright © StatSoft, 2008
Nous allons à présent aborder les techniques relatives à la description de deux variables mesurées simultanément.
Ces techniques sont utilisées lorsque l'expérimentateur s'intéresse à la relation qui pourrait exister entre deux
variables qui interviennent dans un phénomène naturel. Ces études sont très fréquentes; imaginons par exemple
l'étude de l'évolution de la capacité respiratoire en fonction de l'exercice, de l'évolution du rythme cardiaque en
fonction de l'administration d'une drogue, du poids des individus en fonction de leur taille, du taux de cholestérol sanguin en fonction du poids du corps, de la production laitière en fonction de la teneur des aliments en protéines
etc…etc…
L’expérimentateur mesure deux valeurs expérimentales pour chaque observation individuelle, ce qui produira une
série statistique à deux dimensions :
Nous pouvons généraliser les techniques utilisées pour la description des observations à une dimension. Les
variables continues seront regroupées en classes comme précédemment dans un histogramme bivarié.
35
Copyright © StatSoft, 2008
Les données sont représentées sur un autre type de graphique
On peut recentrer ce diagramme
36
Copyright © StatSoft, 2008
A partir des moyennes de X et de Y, il est possible de tracer deux droites respectivement parallèles à l'axe des Y et
des X. A l'intersection de ces deux droites se trouve le centre de gravité dont les coordonnées sont (moyenne de X;
moyenne des Y).
Le centre de gravité du nuage de points constitue le point par lequel passe obligatoirement une droite de régression
(pour autant qu'un modèle linéaire soit la solution la mieux adaptée à cette situation).
Notons aussi que le centre de gravité peut être repositionné afin d'avoir comme coordonnées (0; 0). Le processus de réduction s'opère par retranchement aux coordonnées en X et en Y de leur moyenne respective. Pour éliminer la
variabilité propre au contexte expérimental, les différences entre coordonnées (X ou Y) expérimentales et moyenne
(de X ou de Y) sont divisées par l'écart type (de X ou de Y). En ce qui concerne les différents points expérimentaux,
la valeur réduite n'est pas nulle. Dans le cas du centre de gravité, la différence entre la coordonnée X (ou Y) de ce
point et la moyenne correspondante, générant une différence nulle.
Il est possible de quantifier cette relation entre X et Y en utilisant des coefficients :
37
Copyright © StatSoft, 2008
Le coefficient de corrélation d’une série statistique double est le nombre r défini par :
38
Copyright © StatSoft, 2008
R s’appelle le coefficient de corrélation linéaire. Il est toujours compris entre -1 et +1. Ces deux extrêmes
correspondent à une relation parfaite, entre X et Y. Un coefficient de corrélation nul correspond à une absence de relation linéaire entre X et Y.
Interprétation de la valeur du coefficient de corrélation. Le coefficient de corrélation a une interprétation
similaire à celle du coefficient de détermination (ils sont évidemment très liés, l’un étant le carré de l’autre). Lorsque
l’on s’intéresse à l’intensité de la relation, on préférera R² qui s’exprime directement en proportion (souvent exprimé
en %) de variabilité expliquée par le modèle ; si on s’intéresse au signe de la relation, on choisira R, car R² n’en a
pas.
Relations non linéaires. Ni R ni R² ne permettent de déterminer si une relation est non linéaire. Certaines relations
très étroites entre deux variables, mais non linéaires, correspondent à un coefficient de corrélation nul ou presque
nul.
Mesure de l’association entre deux variables qualitatives. Le croisement de deux questions qualitatives produit
un tableau que l’on désigne généralement par “tableau de contingence”.
Pour savoir si la distribution des réponses de ces deux variables est due au hasard ou si elle révèle une liaison entre
elles, on utilise généralement le test du Chi-deux, qui est sans doute le test statistique le plus connu et le plus utilisé
dans le domaine des études marketing. Un prochain paragraphe détaillera son fonctionnement.
En général, le chi-deux est calculé pour un tableau croisé. Cependant certains outils comme STATISTICA sont
capables de l’appliquer en série à un grand nombre de combinaisons de variables prises 2 à 2, pour détecter
automatiquement les couples de variables qui présentent les liaisons les plus significatives.
39
Copyright © StatSoft, 2008
Mesure de l’association entre deux variables numériques. Lorsque l’on cherche à déterminer si deux variables
numériques sont liées, on parle de corrélation. Les trois tests de corrélation les plus utilisés sont ceux de Spearman,
Kendall et Pearson. Les deux premiers sont des tests non-paramétriques que l’on peut également appliquer sur des
variables qualitatives ordinales. Ces deux tests commencent par classer les valeurs observées pour chaque individu
à chacune des deux variables. Ainsi, si on cherche à évaluer la corrélation entre l’âge et le revenu, la première étape du calcul évalue pour l’individu 1 puis 2, puis n, son classement en fonction de l’âge et celui en fonction du revenu.
Le test de Spearman se base sur la différence des rangs pour chaque individu, pour donner, à partir d’une formule
particulière, la valeur du test (r de Spearman). Plus cette valeur est proche de 0 plus les 2 variables sont
indépendantes. A l’inverse, plus il est proche de 1 plus elles sont corrélées.
Il est possible de tester la signification statistique de cette valeur obtenue, à l’aide de la formule suivante de
comparaison, basée sur le t de Student :
t = RxRacine(n-2) Racine(1-r²)
Cette valeur doit être comparée dans la table de Student, à la valeur t avec n-2 degrés de liberté. Ainsi, si on obtient
une valeur r de 0,8 sur un échantillon de 30 personnes, le calcul ci-dessus nous donne la valeur 8,53. La valeur donnée dans la table de Student pour 28 degrés de liberté avec un seuil de 5% d’erreur est de 2,05. Cette valeur étant
inférieure à notre t calculé, le taux de corrélation calculé est significatif.
Le test de Kendall part de la même manière que celui de Spearman. Mais une fois que les rangs sont calculés, le test
classe l’une des deux variables sur ces rangs et s’intéresse au nombre de fois où la deuxième respecte le même ordre
de classement.
En final, le test fournit un coefficient de corrélation que l’on appelle le Tau de Kendall dont on peut également
évaluer la significativité à l’aide d’un test complémentaire. Contrairement aux deux tests ci-dessus, le test de
corrélation de Pearson est un test paramétrique exigeant. Il ne s’applique que sur deux variables numériques qui,
prises ensemble doivent suivre la loi normale.
Ce test de corrélation fait appel à des calculs statistiques basés sur la covariance des deux variables et sur leurs
variances. Là aussi, ces calculs aboutissent à la production d’un coefficient de corrélation entre 0 et 1, qui peut être également testé quant à sa significativité.
40
Copyright © StatSoft, 2008
Celui-ci rend compte de la dispersion du nuage de points autour de la droite de régression.
r2=1-var. résiduelle/var. totale
r2=(var. totale-var. résiduelle)/var. totale
r2=var. expliquée/var. totale
Les droites ci-dessus ne tiennent pas compte de la pente réelle. Il s’agit uniquement de montrer la concentration des
points du nuage de points par rapport à la droite théorique.
D’un coefficient de détermination nul (r²=0) où aucune relation linéaire n’existe entre X et Y jusqu’à un coefficient
de détermination maximum (r²=1) où tous les points du nuage se trouvent sur la droite sans écart à la linéarité.
Le rapport entre la variabilité factorielle et la variabilité totale représente la qualité explicative du modèle :
41
Copyright © StatSoft, 2008
Dans le cas présent, le modèle linéaire est de bonne qualité car le rapport 460/500 =0.92 soit 92% de la variabilité du
poids est expliquée par l’âge. Les 8% restant représentent la variabilité inexpliquée par ce modèle (peut-être explicable par un autre modèle). Il s’agit de la variabilité résiduelle du modèle.
Ce rapport porte le nom de coefficient de détermination. Il est noté R². Nous montrerons que dans le cas du
modèle linéaire (uniquement) ce coefficient est le carré du coefficient de corrélation, noté R, ce qui justifie
sa notation R².
Plus le modèle est complexe, plus la variabilité résiduelle est censée diminuer. Des modèles plus complexes sont soit
non linéaires, soit font intervenir plusieurs variables explicatives (le sexe, la T° de l’eau..).
Propriétés du coefficient de détermination : De ce qui précède, nous pouvons conclure que la variabilité du poids
(SCET) peut être répartie en deux types de variabilité :
1 la variabilité expliquée par la relation linéaire entre X et Y (SCEF). Dans une certaine mesure, Y varie lorsque X
varie: le poids est plus élevé lorsque la taille est plus élevée.
2 la variabilité inexpliquée par la relation linéaire entre X et Y (SCER). La variabilité de Y n'est pas strictement
liée à la variabilité de X : deux enfants de même taille ont des poids différents, parce que le poids dépend d'autres
variables qui ne sont pas prises en considération (ce qui pourrait être expliqué par un modèle plus complexe), et par
effet du hasard et de l'erreur expérimentale (considéré comme inexpliquée).
Le coefficient de détermination R² représente la proportion de la variabilité de y qui est expliquée par la relation
linéaire entre X et Y. Cette affirmation ne sera démontrée qu'après le développement de la régression. Nous pouvons
en déduire que cette proportion va être comprise entre deux extrêmes :
1 il n'y a aucune relation linéaire entre X et Y, et donc aucune variabilité de Y n’est expliquée par X : R² = 0 2 la valeur de Y est déterminée entièrement par la valeur de X, et donc il n'y a aucune variabilité inexpliquée de Y
: R² = 1.
42
Copyright © StatSoft, 2008
S'écrit aussi
ou encore c'est parce que x varie que Y varie
ou encore la variation de X est expliquée par la variation de Y
43
Copyright © StatSoft, 2008
S'il existe une relation entre deux variables, l'intérêt de l'expérimentateur sera de pouvoir prédire la valeur que
devrait prendre une variable à partir de la valeur observée pour l'autre. Nous allons donc rechercher des valeurs qui
nous permettront de caractériser la relation, de façon à disposer d'un outil de prédiction. Dans le cadre des relations
linéaires entre variables, on peut exprimer dans la population la relation entre X et Y par l’équation d’une droite qui
exprime la relation entre X et Y :
Dans cette expression,
la pente de la droite, qui correspond à l'augmentation de Y attendue pour une augmentation d’une unité de X.
Si X est exprimé en cm et Y en kg, est exprimé en kg et en kg/cm.
Dans un échantillon, la relation est estimée par la relation suivante :
Dans cette expression, B0
B1 ntation de Y estimé pour une augmentation d’une unité de X.
Les valeurs Yoi observées dans l'échantillon ne seront pas égales aux valeurs Ymi formant la droite :
Nous pourrions donc tracer plusieurs droites, caractérisées par différentes valeurs de B0 et de B1 .
44
Copyright © StatSoft, 2008
Intuitivement, nous pouvons établir que des deux situations présentées ci-dessus, la seconde apparaîtra meilleure que la première. Le but de notre démarche est de rechercher la ou les droite(s) qui exprime(nt) au mieux la relation
linéaire ente X et Y dans l’échantillon. La seconde solution apparaîtra meilleure parce que les écarts entre les points
et la droite sont plus petits. On comprend intuitivement que la droite qui exprimera au mieux la relation entre X et Y
correspondra à l'écart moyen le plus petit possible, pour l'ensemble des observations. Cependant, en considérant les
observations de chacune des situations, nous constatons que les écarts ont une somme (et dès lors une moyenne)
nulle, que l’ajustement soit favorable ou non.
Le critère d’ajustement sera donc de rendre minimale SCER, ce qui revient à rendre maximale SCEF et donc le
rapport SCEF/SCET = R². C’est aussi dans cette seule situation que nous respecterons la relation :
45
Copyright © StatSoft, 2008
SCET=SCEF+SCER : 345.66 = 250.1 + 95.56
Déterminer la meilleure droite revient donc à minimiser SCER calculée entre les valeurs observées et les valeurs
estimées. SCEr est une fonction de B0 et de B1 : SCER se modifie lorsque l’on modifie les paramètres. Nous
pouvons visualiser schématiquement la façon dont la SCER, toujours positive, varie en fonction de B0 et de B1
Lorsque les valeurs de B0 et de B1 ne peuvent pas être modifiées sans provoquer une augmentation de SCE, elles correspondront aux valeurs caractéristiques de la droite de régression de Y en fonction de X, c’est-à-dire le meilleur
outil de prédiction de Y pour une valeur de X, dans le cadre d'une relation linéaire entre ces variables.
On peut imaginer calculer un très grand nombre de droites et choisir celle qui présente la SCER minimale. Certains
algorithmes programmés sur ordinateur procèdent de cette façon. Il existe cependant une solution analytique à ce
problème qui repose sur le principe que l’on se trouve au minimum d'une fonction de plusieurs paramètres lorsque la
dérivée première par rapport à chacun de ces paramètres est nulle, et la dérivée seconde positive.
46
Copyright © StatSoft, 2008
47
Copyright © StatSoft, 2008
48
Copyright © StatSoft, 2008
Pour analyser une relation non linéaire, deux possibilités se présentent : la régression non linéaire et, dans certains
cas, la transformation linéaire des variables Y et/ou X. La régression non linéaire est une technique simple sur le
plan statistique, mais relativement complexe sur le plan algorithmique
49
Copyright © StatSoft, 2008
50
Copyright © StatSoft, 2008
Les distributions discrètes et continues Il existe deux grands types de distributions : les distributions discontinues (ou discrètes) et les distributions
continues.
Les distributions discrètes se représentent par des histogrammes formés d’un nombre fini de classes d’intervalles
constants (Li). En abscisse, on place les classes et en ordonnée, les densités de fréquences relatives.
La conséquence est que la probabilité P(X=xi) est la fréquence relative de la classe correspondante. Cette probabilité
est non nulle car l’intervalle de classe Li est différent de 0.
Exemple: Parmi ces distributions figurent les distributions binomiales et de poisson.
Les distributions continues sont composées d’un nombre de classes infini. Dans ce cas, les ordonnées correspondent
à des densités de probabilités.
La conséquence est que la probabilité P(X=xi) est nulle car l’intervalle de classe Li tend vers 0.
Les distributions continues peuvent être modélisées par des fonctions [f(x)].
Exemple: Parmi ces distributions figurent les distributions normales, normales réduites et chi-deux.
51
Copyright © StatSoft, 2008
Conditions d'application:
La distribution de probabilité d'une variable discrète (discontinue) de type binomiale fait intervenir n répétitions
indépendantes. Elle implique la présence de seulement deux types de résultats: A (succès) et A* (échec) avec une
probabilité de A égale à une constante .
Nomenclature
Soit X une variable binomiale. Elle se caractérise par n (le nombre de répétitions indépendantes) et (la probabilité de
A) et s'écrit:
X v.a. Bi (n; )
ou bien
X = Bi (n; )
Valeurs caractéristiques:
L'espérance de X est: E(X) = n.
La variance est VAR(X) = 2= n..(1-)
Exemples de variables aléatoires binomiales
Le nombre de fois que l'on fait 6 en lançant n fois un dé à 6 faces non pipé
Le nombre de drosophiles mâles dans des expériences portant sur n individus
Le nombre de chauves-souris Grand Rhinolophe de plus de 380 mm d'envergure parmi n individus capturés
52
Copyright © StatSoft, 2008
Probabilité élémentaire
Pour X v.a.Bi (n; ), la probabilité élémentaire (1) s'écrit:
Combinaisons de résultats
Lorsque l'on décide de calculer la probabilité d'un évènement dans un échantillon (par exemple: déterminer la
probabilité d'avoir 4 filles dans une famille de 12 enfants), toutes les combinaisons de succession des naissances sont
possibles. Pour calculer le nombres de combinaisons, on emploi la formule combinatoire suivante:
Dans notre exemple, il existe 12!/(4!.(12-4)!) soit 495 possibilités de combinaisons de 4 filles dans une famille de 12
enfants.
Détermination de la probabilité P(X = xi)
La probabilité d'avoir 4 filles dans une famille de 12 enfants tient compte du nombre de combinaisons possibles
d'avoir 4 filles multiplié par la probabilité élémentaire. La formule est donc:
Dans une famille de 12 enfants, la probabilité d'avoir 4 filles [P(X = 4)] vaut:
P(X = 4) = 495.0,54.0,5
(12-4)= 0,12...
Exercice résolu
Soit une étude portant sur des familles de 10 enfants. On sait que la probabilité d'avoir une fille ou un garçon est
identique. Quelle est la probabilité pour que:
2 d'entre eux soient des filles (combien de combinaisons sont possibles?)
une famille comporte au minimum 2 filles
une famille ne comporte pas plus de 2 garçons
1. P(X = 2) = (10! / (2!*8!)) * 0,52 * (1-0,5)(10-2) = 0,0439 pour 45 combinaisons possibles
2. P(X ≥ 2) = 1- P(X<2) = 1 - P(X=0) - P(X=1) = 0,989, près de 99 chances sur 100 d’avoir au minimum 2 filles sur 10 enfants
3. P(X ≤ 2) = P(X=0) + P(X=1) + P(X=2) = 0,0546, près de 5 chances sur 100 de n’avoir pas plus de 2 garçons sur
10 enfants
53
Copyright © StatSoft, 2008
Liste d'exercices:
1. Dans une population donnée, la probabilité de trouver le gène Z actif (responsable de la dégradation rapide des
graisses) est de 50%. Soit X le nombre de patients possédant ce gène Z actif. Une expérience a été menée sur un
échantillon de 25 personnes présentant des signes évidents d'obésité.
- Quelle est la probabilité de déceler la présence d'un gène inactif chez 10 personnes au moins dans cette expérience? solution: P(X ≥ 10) = 1-P(X≤9)=1 - 0.1148= 0.8852
- Quelle est la probabilité de trouver 5 personnes possédant ce gène Z actif? Combien de combinaisons sont
possibles?
solution: P(X=5) = 0,0015833 ; 53 130 combinaisons possibles
2. Un examen de statistique rencontre un taux d'échec de 35%. Quelle est la probabilité que, sur 10 étudiants
sélectionnés aléatoirement dans l'auditoire, il y ait:
- Plus de 2 étudiants en échec?
solution: P(X>2) = 0,7384
- Plus de 5 étudiants en échec?
solution: P(X>5) = 0,0949
3. Une rivière comporte une population d'écrevisses. Un écologiste réalise une expérience en disposant tous les 10
mètres une nasse à écrevisses. Il en place ainsi 25 et les numérote de 1 à 25. Sachant que pour cette rivière, il n'y a
que 15% de chances de relever une nasse vide:
- Déterminer la probabilité de relever 3 nasses vides?
solution: P(X=3) = 0,2174
- Si l'écologiste relève 2 nasses vides sur les 25, combien de combinaisons sont possibles?
solution : 300 combinaisons possibles
Conditions d'application :
La distribution de Poisson s'applique aux variables quantitatives discrètes définies par le nombre d'événements
observés dans le cas où ces événements sont rares et se produisent de manière indépendante et aléatoire dans le
temps ou dans l'espace. Cette distribution est caractérisée par le seul paramètre qui est précisément la moyenne de la distribution. La distribution de Poisson peut s'appliquer dans des problèmes de gestion (file d'attente, centrales
téléphoniques : événement aléatoire dans le temps), en microbiologie pour calculer par exemple la probabilité
d'observer un certain nombre de bactéries dans une boite de Pétri (événement aléatoire dans l'espace); elle est aussi
utilisée en modélisation des taux. Il s'agit donc de l'occurrence d'un événement élémentaire par unité de volume, de
surface ou de temps.
Contrairement à la Binomiale, il n'y a pas ici de notion d'échec ou de succès et il n'y a pas de contrainte supérieure
(le comptage est illimité).
Nomenclature :
Soit X une variable de Poisson. Elle se caractérise par (la moyenne de la distribution). Notons que la variable aléatoire de Poisson a toujours une distribution asymétrique.
X v.a. Po ()
où X = comptage dans l'intervalle
54
Copyright © StatSoft, 2008
Valeurs caractéristiques :
= moyenne = = 2
ici, la moyenne = variance
E(x) = et var(x) =
Exemples de variables aléatoires de poisson
Nombre d'évènements par unités (volume, temps, surface)
Le nombre de poissons par mètre cube d'eau
Le nombre de drosophiles mâles rencontré pendant 10 minutes
Le nombre de désintégration d'une radio-isotope par minute
à ne pas confondre avec la binomiale. Exemple : le nombre de truites par 100 poissons pêchés dans une
rivière
Détermination de la probabilité P(X = xi)
La variable aléatoire de Poisson a comme fonction de densité de probabilité :
Condition: x ≥ 0
= le nombre moyen d'événements.
Exercice résolu
Un zoologiste étudie les passages d'une espèce de chauve-souris en lisière d'un espace boisé. Il effectue un comptage
d'individu et répertorie en moyenne 3 individus par 30 minutes.
1. Quelle est la probabilité qu'il en voit un septième en 1H?
X est une v.a. Poisson (6) car, en moyenne on a 3 individus détectés par demi heure, donc 6 individus sont détectés
par heure. Le 7éme individu aura donc une probabilité du ∆ entre P(X ≤ 7) et P(X ≤ 6).
P(X=7)= (table) = P(X ≤ 7) - P(X ≤ 6)= 0,137676978
2. Quelle est la probabilité qu'il détecte au plus 7 individus en 1H?
P(X ≤ 7) = P(X=0) + P(X=1) + P(X=2) + P(X=3) + P(X=4) + P(X=5) + P(X=6) + P(X=7) = 0,74397976
3. Quelle est la probabilité qu'il détecte entre 2 et 4 individus par 15 minutes?
X est une v.a. Po(1,5) car, en moyenne on a 3 individus détectés par demi heure, donc 1,5 individus sont détectés par
tranches de 15 minutes. P(2 ≤ X ≤ 4)=P(X ≤ 4) - P(X ≤ 1) = 0,981424064 - 0.5578 = 0.4236
Exercices
1. L'institut National de Statistiques s'est intéressé au nombre d’accidents sur la route et démontre qu'en moyenne,
on observe 2 accidents par quart d'heure en pleine heure de pointe.
- Quelle est la probabilité de n'observer aucun accident en un quart d'heure?
solution: P(X=0) = 0,135
55
Copyright © StatSoft, 2008
- Quelle est la probabilité d'observer plus de 3 accidents en un quart d'heure?
solution: P(X>3) = 0,1429
- Quelle est la probabilité de n'observer aucun accident en une heure?
solution: P(X = 0) = 0,000335463
- Quelle est la probabilité d'observer 4 accidents en une heure? solution: P(X = 4) = 0,0572
2. Selon les observations, en moyenne 3 personnes entrent dans la gare de Namur toutes les 5 minutes. Sachant cela,
- Quelle est la probabilité qu'aucun individu n'entre dans la gare durant les 5 minutes d'observation?
solution: P(X=0) = 0,0498
- Quelle est la probabilité que 4 personnes et plus entrent dans la gare de Namur durant ces 5 minutes?
solution: P(X ≥ 4) = 0,3528
3. Soit X le nombre de mollusques capturés par 10 dm2.
Supposons que la répartition des animaux est non agrégative et que la concentration moyenne est de 10 individus par
10 dm2. Quelle est la probabilité de capturer 15 individus par 10 dm2?
solution: P(X=15) = 0,0348
La variable aléatoire est la caractéristique numérique associée à une épreuve. Lorsque n, le nombre de réalisations de
l'épreuve tend vers l'infini, la variable aléatoire est caractérisée par une distribution de probabilité.
56
Copyright © StatSoft, 2008
Population:
Dans une population de chauves-souris, la totalité des individus peuvent être rangés dans des classes d'intervalles
constants comme décrit précédemment dans les statistiques descriptives à une dimension.
La population est composée d'un grand nombre d'individus que l'on peut classer dans une infinité de classes
d'intervalles Li tendant vers 0. L'histogramme est alors remplacé par une courbe de Gauss-Laplace:
Pour des échantillons de taille finie, l'ordonnée de l'histogramme se représente par des densités de fréquences
relatives alors que pour la population on parle de densités de probabilités.
La distribution normale se caractérise par une équation faisant intervenir la moyenne µ et la variance . Par
convention, nous adopterons la convention d'écriture: X N(µ;2) . Dans la littérature, on peut aussi trouver: µ±
57
Copyright © StatSoft, 2008
Symétrie autour de la moyenne
La courbe de Gauss-Laplace est symétrique:
Lorsqu'on sélectionne l'intervalle compris entre + ou - 1 écart type autour de la moyenne µ, on isole 68% des
individus d'une population normale.
Lorsqu'on sélectionne l'intervalle compris entre + ou - 2 écarts types autour de la moyenne µ, on isole 95% des
individus d'une population normale.
Lorsqu'on sélectionne l'intervalle compris entre + ou - 3écarts-types autour de la moyenne µ, on isole 99% des
individus d'une population normale.
Modification de la variance
Lorsque la variance d'une population diminue, cela se traduit par une dispersion moins importante de la courbe autour de la moyenne. Concomitamment, le sommet de la courbe tend à s'élever afin de préserver une surface
totale sous la courbe égale à 1 (ou 100%).
58
Copyright © StatSoft, 2008
Exemple:
Dans une population de chauves-souris de l'espèce X, l'envergure est une v.a. N(375; 225)
Dans une population de chauves-souris de l'espèce X femelles, l'envergure est une v.a. N(375; 121)
Dans une population de chauves-souris de l'espèce X femelles de 3 mois, l'envergure est une v.a. N(375; 49) etc.
Influence de la variance sur le sommet de la courbe de Gauss:
Si la variance diminue, le sommet de la courbe tend à augmenter.
En effet, dans l'équation de la courbe, l'écart type se trouve en dénominateur (voir terme entouré en rouge). Plus
l'écart type est petit, plus ce terme tend à devenir grand...
59
Copyright © StatSoft, 2008
Cette distribution est une distribution normale réduite. Elle est utilisée dans le cas où la variance de la population
est inconnue. Elle s'écrit:
t v.a. N (0; 1)
La variance de la population étant inconnue, elle doit être substituée par la seule variance à notre disposition: la
variance de l'échantillon 2 La réduction de Student est communément employée pour convertir une moyenne expérimentale (ou l'écart entre
deux moyennes expérimentales) en une valeur t observée selon l'application du Théorème central limite. La réduction d'une variable X observée en variable t observée s'effectue comme suit:
Cette valeur de t observée tient compte de la taille de l' (ou des) échantillon(s).
La valeur observée est en suite comparée à une valeur seuil.
Cette valeur est obtenue pour un nombre de degré de liberté (n-1) [avec n la taille de l'échantillon] et de telle
manière que la probabilité de lui être inférieure vaut (1-alpha) [intervalle de confiance]: t(n-1)dl; (1-alpha).
La distribution t-Student est une distribution symétrique qui converge vers la distribution normale quand le nombre
d'observations augmente (Quand la taille de l'échantillon est supérieure à 30 on utilise souvent la loi normale).
Cette distribution a une moyenne égale à zéro, est biaisée à droite (skewness/asymétrie) et est plus aplati
(kurtosis/aplatissement) que la distribution normale. Le nombre de degrés de liberté est égal au nombre de variables
indépendantes.
L'image ci-dessous montre la distribution de la statistique t avec 10 degrés de liberté. La région à droite de la courbe représente la probabilité P(t > 1.812) = 0.05, et la région à gauche de la courbe représente la probabilité P(t < -1.812)
= 0.05
60
Copyright © StatSoft, 2008
Remarque:
Lorsque la taille de l'échantillon tend vers l'infini (la globalité de la population est donc sélectionnée), la distribution
de t de Student est identique à la distribution normale réduite Z...
L'intervalle de confiance est donné par la formule ci-dessous :
Exemple de calcul d'intervalle de confiance:
Le fichier QI31 ci-dessous contient 31 valeur de QI. Si on veut un intervalle de confiance à 95%, on prend = 5%.
T/2 est donné à l'intersection de la colonne 1-t/2=0.975 et la ligne n-1=30, d'où t/2= 2.042272
61
Copyright © StatSoft, 2008
62
Copyright © StatSoft, 2008
Considérons maintenant le cas des envergures chez la chauve souris Grand Rhinolophe. Il s'agit d'une variable
aléatoire X suivant une distribution Normale :
X suit N (375; 15)
Nous avons capturé une chauve-souris Grand Rhinolophe de 399 mm.
63
Copyright © StatSoft, 2008
Dans STATISTICA, le calculateur de probabilité donnera la probabilité recherchée pour une chauve souris de 399
mm dont la moyenne est 375 mm avec un écart type de 15 (0.945).
64
Copyright © StatSoft, 2008
Remarque:
la probabilité P(X=399) concerne la probabilité qu'une chauve-souris ait par hasard une envergure exactement égale
à 399mm. Cette probabilité est quasiment nulle car je dois définir une zone sous la courbe de Gauss-Laplace dont la
base est 399,00. Or, lorsque l'intervalle tend vers 0, la surface décrite sous la courbe est extrêmement petite.
Je peux donc écrire, sans commettre d'erreur, P(X≤399) = P(X<399)
65
Copyright © StatSoft, 2008
Dans STATISTICA, le calculateur de probabilité donnera la probabilité recherchée pour 5% des chauves souris et
correspondra à 399.67 mm
Conclusion: Si je capture une chauve-souris de taille supérieure à 399.6 mm, je la considérerai comme
exceptionnellement grande.
66
Copyright © StatSoft, 2008
Distribution d’échantillonnage de la chauve souris
67
Copyright © StatSoft, 2008
Les distributions discrètes binomiales et de Poisson sont utilisées pour modéliser, sans réaliser aucune observation
dans un échantillon (modéliser a priori), la distribution de probabilité de la variable X. Ces deux distributions se
représentent par des histogrammes et s’emploient dans les conditions particulières suivantes :
la distribution binomiale s’emploie dans le cas où on identifierait deux probabilités (succès A et échec A*).
La distribution de Poisson est utilisée lorsque l’on analyse des événements par unités de temps, de surface,
de poids, etc..
68
Copyright © StatSoft, 2008
Ces deux distributions convergent vers une seule et même distribution lorsque :
X v.a. Bi (n;) avec n supérieur à 50 et proche de 0,5
X v.a. Po (µ) avec µ supérieur à 10
En effet, lorsque l’on se trouve dans les conditions extrêmes décrites ci-dessus, les distributions tendent à se
symétriser et le nombre de classes tend à augmenter.
Cette distribution devient continue et se modélise par une courbe de Gauss-Laplace : c’est la variable aléatoire
normale X v.a. N (µ ; 2). La plupart des variables biologiques obéissent à un tel modèle. Il existe une moyenne et une variance propre à chaque variable, compliquant de ce fait le calcul des probabilités sous la courbe.
Afin de faciliter ce calcul de probabilités, il est possible de créer une variable aléatoire normale dépourvue d’unités,
centrée sur 0 et dont la variabilité vaut 1 : c’est la variable aléatoire réduite Z [ Z v.a. N (0 ;1)]. Elle a été totalement
caractérisée et les probabilités calculées.
69
Copyright © StatSoft, 2008
Une simple transformation d’une variable aléatoire normale X permet de convertir X en Z et donc d’évaluer
rapidement les probabilités correspondantes. La conversion se fait par l’intermédiaire de la formule suivante :
La distribution est aussi une distribution normale. Elle sera détaillée lorsque l'on aura parlé de la distribution
d'échantillonnage et du théorème central limite.
Dans certains contextes expérimentaux, l’expérimentateur est amené à comparer des fréquences observées (fobs)
dans l’échantillon par rapport aux fréquences attendues (fth).
Cette comparaison se fait par le calcul d’écarts quadratiques standardisés (chi-deux observé) : Pour chaque catégorie
(classe), il est possible de calculer des valeurs observées de chi-deux (fobs-fth)2/fth. Leur somme donne une valeur
expérimentale que l’on doit positionner sur la courbe théorique de chi-deux afin de déterminer la probabilité
d’obtenir une telle valeur sous la courbe.
En comparant cette formule de chi-deux avec celle de la conversion de X en Z réduit, on constate que la distribution de chi-deux est une distribution de Z2.
La réduction de X en Z s'obtient en effet au moyen d'un formulation similaire à (fobs-fth) /fth0,5).
L’aspect de cette distribution n’est pas une courbe de Gauss-Laplace symétrique et centrée en µ avec une variance
2. La distribution de chi-deux est une distribution asymétrique.
Une vache produit quotidiennement 36 ± 5 litres de lait.
Définissez la variable étudiée et ses paramètres.
Quelle est la probabilité qu'une vache prise au hasard ait une production laitière inférieure à 30 L/jour ?
Quelle est la probabilité que la production laitière soit comprise entre :
70
Copyright © StatSoft, 2008
1. la moyenne plus ou moins 1 écart -type ?
2. la moyenne plus ou moins 2 écarts -types ?
La population comprend 5 % de vaches qui produisent moins que la normale et 5 % de vaches qui produisent
plus que la normale. A partir de quelle production journalière peut-on considérer qu'une vache est mauvaise
productrice ou excellente productrice ?
Quelle est la probabilité qu'une productrice normale produise moins de 36 L/jour ? Quelle est la probabilité qu'une productrice normale ait une production inférieure à 30 L/jour ?
Quelle est la probabilité qu'une vache ayant une production inférieure à 30 L/jour soit normale?
Quelle est la probabilité qu'une vache prise au hasard ait une production laitière normale et supérieure à 36
L/jour ?
Solutions de l’exercice
Quelle est la probabilité qu'une vache prise au hasard ait une production laitière inférieure à 30 L/jour ?
P(Z(30-36)/5) P(Z-1.2) = 0.11>
a) la moyenne plus ou moins 1 écart-type ? P(Z1) -P(Z-1)=0,841345-0,158655=0,6826>
b) la moyenne plus ou moins 2 écarts-types ? P(Z2) -P(Z-2)=0,977250 -0,022750 =0,954>
P(Zz)=0.95 => z= 1.6452 (tables); 1,64*5+36=44,2
P(Zz)=0.05 => z=-1.6452; -1,64*5+36=27,8
Quelle est la probabilité qu'une productrice normale produise moins de 36 L/jour ?
P(A/B)= P(AB)/P(B)à P{(X36)/ (27,8X44.2)} = P(27,8X36)/P(278X44.2) =0.45/0.90=0.5
71
Copyright © StatSoft, 2008
Quelle est la probabilité qu'une productrice normale ait une production inférieure à 30 L/jour ?
P(A/B)= P(AB)/P(B) à
P{(X30)/ (27,8X44.2)}= P(27,8X30)/P(27,8X44.2)= (0,115070-0,05)/0.90= 0,06507/0,90 =
0,0723
Quelle est la probabilité qu'une vache ayant une production inférieure à 30 L/jour soit normale? P(A/B)= P(AB)/P(B)
P{(27,8X44.2)/(X30)} = P(27,8X30)/P(X30) =(0,115070-0,05)/0,115070 = 0,06507/0,115=0,565
Quelle est la probabilité qu'une vache prise au hasard ait une production laitière normale et supérieure à 36
L/jour ? P(AB)=P(B).P(A/B)
P(27,8X44,2).P{(X36)/(27,8X44,2)}=0,9*0,5=0,45
72
Copyright © StatSoft, 2008
Conditions d'application :
La loi est une loi dérivée de la loi normale. Très importante pour ses applications en statistiques, elle est utilisée pour tester des statistiques basées sur le calcul de la somme des carrés des écarts.
Les distributions suivent toujours une distribution en cloche caractérisée par une dissymétrie à gauche. La forme de la courbe est déterminée par le nombre de degrés de liberté et du nombre de catégories dans lesquelles les
fréquences sont dénombrées. En effet, plus le nombre de degrés de liberté augmente, plus tend vers une variable
aléatoire Normale et donc adopte une courbe en cloche.
La distribution 2 est une distribution asymétrique qui prend seulement des valeurs positives. Elle est le résultat
d'une somme des carrés de variables normales standardisées indépendantes. Elle a une moyenne égale au
nombre de degrés de liberté, , et converge vers une loi normale quand augmente le nombre d'observations.
L'image ci-dessous montre la distribution de la statistique avec = 10%. La région à droite de la courbe représente
la probabilité P(2> 15.99) = 0.10
73
Copyright © StatSoft, 2008
Nomenclature :
Soit la distribution de S = X12 + X2
2 + ... + Xn2 qui est la somme des carrés des Xi.
Soit cette distribution est appelée 2 à n degrés de liberté, que l'on note (n)
Valeurs caractéristiques :
La seule valeur caractéristique de la distribution est n, le nombre de degrés de liberté où n représente le nombre
de variables aléatoires indépendantes chacune distribuée selon la loi normale centrée réduite.
Donc, pour tout i , Xi ~ vaN(0 ; 1)
Types de tests
Dans le cadre de ce cours de statistiques élémentaires, nous ne nous préoccuperons que de deux types de tests
différents:
But du test:
Ce test s'applique lorsqu'on souhaite démontrer l'indépendance ou la dépendance de deux critères dans une
expérience.
Soit plusieurs échantillons pouvant être classés selon un certain nombre de colonnes (critère 1) et de lignes (critère 2).
Exemple et pose des hypothèses:
Ce test s'applique lorsqu'on souhaite démontrer l'indépendance ou la dépendance de deux critères dans une
expérience. Soit plusieurs échantillons pouvant être classés selon un certain nombre de colonnes (critère 1) et de
lignes (critère 2). Supposons la situation suivante: Au cours d'une enquête, on interroge 1 369 mères d'enfants nés
avec une malformation et 2 968 mères d'enfants nés sans malformation.
On constate que 35,06% des mères d'enfants nés avec malformations et 33,02% des mères d'enfants nés sans
malformations fumaient. Effectuez l'analyse statistique complète de ses résultats. Hypothèse initiale (hypothèse nulle H0):
Le fait d'être mal formé à la naissance ne dépend pas du fait que la mère soit fumeuse ou non. Les deux critères sont
indépendants.
Hypothèse alternative (H1):
Les 2 critères "enfants mal formés ou non" et "avoir une mère fumeuse ou non" sont dépendants (liés). Grâce aux
données fournies par l'énoncé, il est possible de réaliser le tableau suivant: Dans ce tableau, on retrouve les
fréquences expérimentales.
74
Copyright © StatSoft, 2008
Dans un second temps, il est possible de calculer des valeurs "théoriques" en se servant des valeurs expérimentales.
La manière d'y parvenir est décrite dans le tableau suivant:
Pour déterminer le chi-deux observé pour chaque échantillon de l'expérience, on applique la formule suivante:
Chi deux= (fréquence observée - fréquence théorique)² / fréquence théorique.
On obtient alors le tableau suivant:
Pour tirer une conclusion sur la dépendance (H1) ou l'indépendance (H0), on somme tous les observés:
Chi deux total = 0.795 + 0.366 + 0.403 + 0.186 = 1.751
Et on compare ensuite cette valeur globale à une valeur des tables.
Cette table est une table à double entrée:
* L'entrée en ligne nécessite de connaître les degrés de libertés de l'expérience. Il se calcule de la manière suivante:
(k-1).(r-1) avec k le nombre de colonnes et r le nombre de lignes. * L'entrée en colonne est déterminée par l'expérimentateur. C'est en effet lui qui détermine l'intervalle de confiance
du test.
Conclusion de l'exemple:
Dans l'exemple, il n'y a que 2 lignes pour deux colonnes, soit (2-1)*(2-1) degrés de liberté. Supposons que l'on prenne un intervalle de confiance à 95% (alpha 5%), la valeur de chi-deux des tables est:
Chi-deux 1dl;0,95= 3,84
Le test est unilatéral à droite puisque le calcul du chi-deux observé génère uniquement des valeurs positives.
Si le chi-deux observé est plus grand que le chi-deux théorique, alors on rejète l'hypothèse nulle (RH0).
Dans ce cas, on a un chi-deux observé de1,72. Cette valeur est inférieure à 3,84 (la valeur des tables). On accepte
H0. Cela implique que les mères fumeuses n'ont pas plus ou moins de chance de donner naissance à un enfant
anormal qu'une mère non fumeuse. Les deux critères sont indépendants, je peux l'affirmer avec seulement 5
chances sur 100 de me tromper.
Les conditions d’utilisation de cette table : tester si les données sont distribuées de manière aléatoire.
75
Copyright © StatSoft, 2008
But du test:
Ce test s'applique lorsqu'on possède une hypothèse qui prédit les fréquences, les pourcentages ou les proportions. Le
but est de vérifier si les fréquences observées s'accordent avec les prévisions du modèle.
En règle générale, les données se représentent sous la forme d'un tableau de distribution de fréquences composé de k
colonnes (ex: k échantillons à comparer) comparées à r lignes (r catégories ou classes répertoriées par échantillon).
Exemple 1 et pose des hypothèses:
Le gène codant pour la couleur des yeux comprend plusieurs variants (allèles). Chaque allèle donne une couleur
d'yeux bien déterminée. Les proportions des deux allèles est de 75% de dominant (allèle yeux bruns) pour 25% de
récessifs (allèle yeux bleus).
Hypothèse initiale (hypothèse nulle H0): L'allèle "yeux bruns" est dominant par rapport à l'allèle "yeux bleus"
selon un modèle 25% "yeux bleus" contre 75% "yeux bruns"
Hypothèse alternative (H1): Le modèle de proportions 25% "yeux bleus" contre 75% "yeux bruns" n'est pas
valable
Méthode:
Un expérimentateur choisit 100 individus au hasard dans une population et trouve 32 individus aux yeux bleus
contre 68 aux yeux bruns. Il dresse le tableau suivant et calcule les fréquences théorique sur base de la taille de
l'échantillon mis à sa disposition et des proportions décrite par le modèle en H0:
Le calcul de chi-deux observé s'effectue en employant la formule:
comme suit:
Il faut comparer cette valeur observée à une valeur de chi-deux théorique de référence (un seuil de signification)
dans des tables de référence. Cette table est une table à double entrée:
76
Copyright © StatSoft, 2008
L'entrée en ligne nécessite de connaître les degrés de libertés de l'expérience. Il se calcule de la manière
suivante: (k-1) avec k le nombre de colonnes (dans le test de conformité il n'y a qu'une ligne). Dans un cas
simple comme celui présenté ici où il existe plusieurs classes (colonnes) mais une seule ligne, les degrés de
liberté à employer sont (k-1).
L'entrée en colonne est déterminée par l'expérimentateur. C'est en effet lui qui détermine l'intervalle de
confiance du test.
Dans l'exemple, il n'y a qu'une ligne pour deux colonnes, soit 1 degré de liberté. Supposons que l'on prenne un
intervalle de confiance à 95% (alpha 5%), la valeur de chi-deux des tables est:
Le test est unilatéral à droite puisque le calcul du chi-deux observé génère uniquement des valeurs positives. Si le chi-deux observé est plus grand que le chi-deux théorique, alors on rejète l'hypothèse nulle (RH0). Dans ce cas,
on considère que le modèle 25% "yeux bleus" contre 75% "yeux bruns" (H0) n'est pas valide.
Conclusion de l'exemple:
Le modèle décrit dans l'hypothèse nulle (H0) est valable. On accepte H0. L'échantillon, et a fortiori la population
d'où il provient obéit bien à une répartition 25% (allèle "yeux bleus") contre 75% (allèle "yeux bruns").
Comme le 2 mesure l'écart entre la distribution observée et la distribution théorique, nous devrions rejeter H0 si
la valeur de 2 est trop grande. Une valeur de 2 sera considérée comme étant trop grande si elle dépasse un seuil
appelé point critique. Ce point critique dépend de deux facteurs: le nombre de classes et les chances (ou la
probabilité) de rejeter une hypothèse H0 lorsqu'en réalité elle est vraie. Éclaircissons ces deux points.
Premièrement, le 2 contient comme information la somme des écarts entre les effectifs observés et théoriques;
plus le nombre de classes est élevé, plus la valeur de 2 sera grande (même si H0 est vraie). Formellement, le 2
dépend d'un paramètre appelé le degré de liberté , (est la lettre grecque nu) défini par l’expression:
= (n. de classes) - 1.
Deuxièmement, même lorsque H0 est vraie, le hasard peut faire que l'on obtienne une valeur de 2 assez grande,
mais cela se produira rarement. On convient donc de fixer a priori un niveau de probabilité assez faible (en pratique
77
Copyright © StatSoft, 2008
on utilise 10%, 5% ou 1%) et cette probabilité est notée signification); le point critique est alors obtenu en trouvant la valeur pour laquelle le 2 n'a qu'une probabilité de dépasser le point critique si H0 est vraie. Dans notre exemple, le degré de liberté est = 4-1 = 3. Fixons
arbitrairement = 5%; la table indique que le point critique est 7,8147. Concrètement cela signifie: si l’hypothèse
H0 est vraie, il y a une probabilité de 5% que la mesure 2 soit supérieure à 7,8147. La figure qui suit illustre la distribution du chi-deux avec 3 degrés de liberté. La surface totale sous la courbe (cette courbe est en fait la densité de probabilité) est égale à 1 ou 100%.
La surface sous la courbe à droite du point critique est égale à 0,05 ou 5%. Comme cette probabilité (5%) est
relativement faible, nous convenons de la règle suivante pour tirer une conclusion:
Règle de décision : H0 sera rejetée si le 2 est supérieur à 7,8147. Or, on a obtenu 2 = 0,47 ; on ne peut donc rejeter l’hypothèse H0. On a de bonnes raisons de croire que la théorie
de Mendel soit vraie.
Exemple 2 et pose des hypothèses:
Une étude a été effectuée en vue de déterminer la distribution des diamètres de câbles fabriqués dans une usine. Le
tableau de fréquences de la distribution observée est le suivant :
Hypothèse initiale (hypothèse nulle H0): Nous posons donc comme hypothèse nulle que la distribution des
fréquences observées peut être approchée par une loi normale.
Hypothèse alternative (H1): La distribution des fréquences observées ne suit pas une loi normale.
78
Copyright © StatSoft, 2008
Méthode:
La répartition des observations en classes est déjà donnée dans le tableau précédent. Si la variable aléatoire suit une
loi normale standard. La moyenne et l’écart type de la population étant inconnus, nous les estimons par la moyenne
et l’écart type s de l’échantillon.
= (19.75*5 + 19.85*12 + 19.95*35 + 20.05*42 + 20.15*28 + 20.25*14 + 20.35*4)/140 = 2806.4/140 = 20.05
s = 0.134
En choisissant un seuil de 5%, nous pouvons trouver la valeur du 2 dans la table offerte par STATISTICA à 6 degrés
de liberté (12.6). Comme la valeur calculée est inférieure à la valeur de la table, nous ne rejetons pas l’hypothèse nulle et concluons qu’à un seuil de 5%, la différence entre la distribution observée et la loi normale n’est pas significative. Ici, il y a plus de 98% de chances d’avoir une distribution normale…
79
Copyright © StatSoft, 2008
Principe:
Ce test de comparaison de deux variances a pour objectif de vérifier si les deux variances de deux populations sont
égales ou non.
Supposons que 12 soit plus petite que 2
2
La statistique à utiliser pour éprouver H0 est:
Il s'agit d'une variable aléatoire F de Fisher-Snedecor à k et r degrés de liberté où:
k = (n1-1) degrés de liberté
r = (n2-1) degrés de liberté
La conclusion du test est: si Fobs est plus grand que le F des tables, alors il y a RH0. En d'autres termes, les deux
variances comparées sont différentes.
Applications:
Cette technique sera utilisée pour comparer les variances de deux échantillons de taille différente. Dans ce cas, si
l'on rejète H0, il sera "impossible" de comparer les moyennes de ces deux échantillons car on aura démontré
l'hétérogénéité des variances des échantillons de l'expérience.
Lors de la comparaison des moyennes par la technique de l’ANOVA, la comparaison d'une variance expliquée —
c'est-à-dire un carré moyen CM—(factoriel, linéaire, non linéaire, lié au facteur A d'une ANOVA2, etc.) par rapport
à une variance non expliquée (CMrésiduel ou CMR) aboutit à un rapport du type:
Qui est aussi une valeur F de Fisher-Snedecor pour k et r degrés de liberté tels que:
k = nombre de degrés de liberté du niveau expliqué analysé (na-1 avec na le nombre d'échantillons
comparés)
r = N-na (avec N le nombre total d'individus de l'expérience et na le nombre d'échantillons comparés) Comme précédemment, dès que le Fobs est supérieur au F des tables, il y a RH0. En d'autre terme, le niveau de
variabilité expliqué étudié a une influence (significative, très significative ou très hautement significative) dans
l'expérience.
80
Copyright © StatSoft, 2008
Tout expérimentateur est amené à se poser la question suivante:
"La mesure du paramètre étudié pour un individu donné ou la moyenne d'un échantillon d'individus donnés est-elle
normale pour une population?"
Seuil de significativité :
L'expérimentateur est amené à établir de manière arbitraire, une limite afin de séparer ce qu'il considère comme des
valeurs normales (la zone de confiance) et des valeurs anormales (la zone d'erreur de type I). Cette limite s'appelle le SEUIL DE SIGNIFICATIVITÉ et est désigné par la lettre représentant le paramètre étudié X (ou sa
réduction Z ou t) avec, en indice, le "nom" de la zone située à gauche de ce seuil (dans l'exemple ci-dessous: Z (1-
alpha))
Pour répondre à cette question, l'expérimentateur va devoir définir ARBITRAIREMENT une limite (une frontière)
entre "la normalité" (en gris clair) et "l'anormalité" (en gris foncé).
81
Copyright © StatSoft, 2008
L'expérimentateur peut ainsi définir 3 types de limites arbitraires:
On appelle intervalle de confiance tout intervalle construit autour d’un estimateur ayant une certaine probabilité de
contenir la valeur du paramètre correspondant de la population.
On a étudié les divers estimateurs ponctuels et nous avons conclu que la moyenne est un bon estimateur de pour les populations approximativement normales. Bien qu’en moyenne, la moyenne calculée coïncide avec l’objectif
visé, l’observation de la moyenne calculée d’un échantillon donné est presque toujours un peu plus grande ou un peu
plus petite que .. Par conséquent si l’on exige que notre inférence présente un degré de confiance convenable, on ne
peut affirmer que est exactement égale à la moyenne observée. On doit plutôt construire un intervalle de confiance de la forme :
Moyenne calculée + marge (ou erreur) d’échantillonnage
L’importance de cette marge d’erreur d’échantillonnage est généralement de l’ordre de 95% ; en d’autres termes, on
utilisera une technique qui nous donnera lorsqu’on tire un grand nombre d’échantillons, un intervalle correct 19 fois
sur 20.
Pour obtenir un seuil de confiance de 95%, on choisit dans le cas d’une distribution normale (n>120), l’étendue la plus faible contenant exactement une probabilité de 95%. Manifestement, c’est la partie centrale qui exclut une
probabilité de 2 fois ½ % à chaque queue de la distribution.
82
Copyright © StatSoft, 2008
D’après la table Z, la valeur Z0.025 correspondante est de 1.96 fois l’écart type de l’échantillon :
Probabilité ( - Z0.025 *EcT < Moyenne calculée < + Z0.025 *EcT) = 95%
Ce qui représente exactement la manière algébrique de dire : « il y a 95% de chances que la moyenne calculée
aléatoire tombe entre - 1.96*EcT et + 1.96*EcT.
Il faut être prudent dans l’interprétation de l’intervalle de confiance. Si, à un niveau de confiance de 95%, nous
trouvons un intervalle de confiance pour une moyenne dont les bornes inférieures et supérieures sont respectivement k1 et k2, nous pourrons conclure :
« Sur la base de l’échantillon étudié, nous pouvons affirmer qu’il est probable que la moyenne de la population se
trouve dans l’intervalle que nous avons établi ».
En revanche, il ne serait pas exact de conclure qu’il y a 95% de chances pour la moyenne de la population se trouve
dans l'intervalle. En effet, étant une constante ainsi que les bornes de l’intervalle, l’intervalle k1 et k2 contient ou
ne contient pas Cependant, si le statisticien a la possibilité de répéter plusieurs fois l’expérience qui consiste à
tirer un échantillon de la population, 95% des intervalles obtenus contiendront la vraie valeur de .
Si l’échantillon est petit, on doit élargir l’intervalle de confiance de 95%. On remplace à cet effet, la valeur Z0.025 de
la distribution normale (n>120) par une valeur plus élevée t0.025 prise dans une distribution similaire appelée
distribution du t de Student.
Probabilité ( - t0.025 *ErrT < Moyenne calculée < + t0.025 *ErrT) = 95%
La zone correspondant à l'erreur de type I (en gris foncé) :
Elle constitue une zone de faible probabilité. En générale, elle équivaut à 5%, 1% voire 0,1% par rapport à la surface
totale sous la courbe de Gauss.
Pour qu'une mesure ou une moyenne se retrouve dans cette zone, il faut que sa valeur soit très éloignée du centre de
la distribution (c'est-à-dire µ ou 0 si on travaille avec des paramètres réduits) au point de dépasser la valeur seuil.
Si tel est le cas, il y a beaucoup de chances que cette mesure (ou cette moyenne) n'ait pas été obtenue par hasard. Il est fort probable que la mesure (ou la moyenne) provienne d'une population où une telle valeur est plus probable
(population 1). Il a cependant alpha % de chances de se tromper. Cet alpha est très faible et donc le risque encouru
est mineur.
83
Copyright © StatSoft, 2008
La zone de confiance ou intervalle de confiance (en gris foncé):
Une valeur comprise dans cet intervalle de confiance est considérée par l'expérimentateur comme une valeur tout à
fait normale pour la population d'origine centrée sur la moyenne µ.
Cette zone représente 95%, 99% voir 99,9% de la surface de la courbe de Gauss. La distance qui sépare µ de la
valeur observée n'est pas suffisante que pour être considérée comme anormale (car inférieure à la distance séparant
µ du seuil de signification). Dans cet intervalle, l'expérimentateur doit admettre que la mesure (ou la moyenne) est conforme à la population
centrée sur µ. Il n'a pas réussi à démontrer le contraire. Ce n'est pas pour autant qu'il n'y a pas d'effet mais la valeur
obtenue n'est malheureusement pas située en dehors des limites de l'intervalle de confiance pour affirmer la présence
d'une population centrée sur µ1.
1. Savoir d'où on part et ce qu'on souhaite démontrer:
Un expérimentateur veut mesurer un poisson de rivière de 3 ans et le comparer à la population des poissons de
rivière de 3 ans centrée sur µ. Son point de départ est de dire que l'individu est normal pour cette population : c'est
l'hypothèse nulle H0. Ce qu'il veut démontrer est SOIT:
que le poisson mesuré est plus petit que la normale et appartient à une population centrée sur µ1 plus petite
que µ (1).
que le poisson mesuré est plus grand que la normale et appartient à une population centrée sur µ1 plus grande
que µ (2)
que le poisson mesuré est ou plus grand ou plus petit et donc DIFFÉRENT de la normale et appartient à une
population centrée sur µ1 plus différent de µ (3).
H0: µ =µ1 H1:
µ1 inférieure à µ (1)
µ1 supérieure à µ (2)
µ1 différent de µ (3)
84
Copyright © StatSoft, 2008
2. Convertir la valeur observée en une valeur réduite:
L'expérimentateur a obtenu une taille pour le poisson capturé (ou une taille moyenne s'il en a capturé plusieurs).
Pour faciliter sa prise de décision (Accepter le fait que ce poisson est normale [AH0] ou non [RH0]) il va réduire la valeur observée en une valeur réduite (z réduit, t réduit, ...)
85
Copyright © StatSoft, 2008
Pourquoi réduire?
Chaque v.a.N possèdent ses propres moyennes (µ) et variances (2). Déterminer des probabilités sous ce type de courbes de Gauss (à chaque cas particulier est associé une courbe de moyenne et de variance particulière) est très
compliqué à mettre en œuvre.
Heureusement, toutes les vaN peuvent se réduire à une seule et même distribution normale Z. La distribution réduite
de Z est centrée sur une moyenne de 0 et possède une variance de 1. La table de probabilité de Z a été calculée une
bonne fois pour toute et dispense des probabilités du type:
Comment réduire?
Toutes les distributions normales peuvent être ramenées à une seule distribution obéissant aussi à la loi normale. Cette distribution est obtenue par la réduction de la variable étudiée X en une variable réduite appelée Z.
Cette distribution est centrée sur la moyenne 0 et possède une variance 1 et est symbolisée de la façon suivante:
86
Copyright © StatSoft, 2008
Convertir une valeur expérimentale (Xobservé) en une valeur réduite (Zobservé)
Xobservé = 134 et X v.a.N (120;196)
alors Zobservé = (134-120)/(racine carrée de 196) = 14/14 = 1
Convertir une valeur réduite (Zobservé) en une valeur expérimentale (Xobservé)
Zobservé = 2,5 et X v.a.N (120;196)
alors Xobservé = 2,5.( 196) + 120=155
3. Rechercher dans les tables réduites correspondantes la ou les valeurs seuil:
En fonction du alpha déterminé par l'expérimentateur, il va définir un seuil de signification particulier.
Exemple: Soit une différence à mettre en évidence pour un alpha de 5%(test bidirectionnel: d'où il y a 2 seuils à
trouver Z0,025 et Z0,975) .
Dans la table, on localise la valeur la plus proche de 0,975 afin de trouver z0,975. Le z trouvé dans les tables de 1,96.
Par symétrie, on peut déduire le z0,025: -1,96
87
Copyright © StatSoft, 2008
Conclusion du test:
En comparant la valeur réduite des observations (z observé) avec la valeur seuil trouvée dans les tables,
l'expérimentateur peut tirer une conclusion à son test.
Exemple: Soit une valeur de z observée de -1,84 pour un test bidirectionnel avec un alpha de 5%. Dans ce cas, -1,84
est compris entre -1,96 et 1,96.
La conclusion au test est la suivante: La mesure observée est normale et obéit aux conditions de l'hypothèse nulle
(AH0).
Si la valeur observée n'était pas comprise entre -1,96 et -1,96, l'expérimentateur aurait pu conclure que le mesure
observée était différente de la normale et ne répondait plus aux conditions de l'hypothèse alternative (RH0).
Remarque:
Dans le cas d'un test bidirectionnel, RH0 signifie bien sûr la mise en évidence d'une différence de la valeur observée
par rapport à la normale MAIS on peut aller plus loin. En effet, pour un même alpha MAIS pour un test
unidirectionnel, on aura aussi un RH0. L'expérimentateur pour donc dire qu'il y a une différence de la mesure mais
aussi que celle-ci est plus grande ou plus petite que la normale.
88
Copyright © StatSoft, 2008
ATTENTION: La conclusion inverse n'est pas vrai. Ce n'est pas parce que on observe un RH0 dans un test
unidirectionnel avec un alpha déterminé qu'il y a RH0 pour un test bidirectionnel avec le même alpha.
Exemple:
Un écologiste étudie une population de chauves-souris. D'après la littérature, il sait que l'envergure de ces
chiroptères obéit à une distribution normale dont la moyenne est de 375 mm pour une variance de 225 mm2.
Cet écologiste capture un individu dont la taille est de 350 mm. Cet individu est-il considéré comme normal ou bien
est-il significativement différent de la normale?
Les hypothèses:
H0: µ1 = µ (l'individu a une taille normale)
H1: µ1 différent de µ (l'individu a une taille significativement différente de la normale)
Attention: "'significativement" permet de connaître l'importance de l'intervalle de confiance. Il est de 95%, par
conséquent le alpha est de 5%
Convertir la valeur observée en une valeur réduite:
X observé = 350 mm
z observé = (350-375)/15 (ou 15 est l'écart type de la population)
z observé = -1,66666667
Trouver le seuil de signification:
On sait que le alpha est de 5%. Le test est bidirectionnel (voir H1). Le seuil de signification est donc z alpha/2 et z
(1-alpha/2)
Dans la table de Z, on ne peut trouver que des probabilités de ce type: P(Z<z) ou z est positif. La borne supérieure de
l'intervalle de confiance vaut 1,96. En utilisant la propriété de symétrie (pour trouver la borne inférieure de
l'intervalle de confiance), le seuil de signification du test vaut -1,96.
89
Copyright © StatSoft, 2008
Conclusion:
Lors d'un test d'hypothèses, l'expérimentateur tente de montrer que la moyenne observée de l'échantillon étudié n'est
pas normale pour la population qui lui sert de référence. Pour réaliser son test, il doit donc décomposer
arbitrairement la courbe de Gauss représentant la population de référence en 2 parties distinctes:
alpha (ou erreur de type I): la probabilité de considérer la moyenne observée comme anormale
1-alpha (ou confiance): la probabilité de considérer la moyenne observée comme normale
Si la moyenne observée est comprise dans la zone alpha, l'expérimentateur peut tirer une conclusion:
Voir un effet qui n'existe pas:
90
Copyright © StatSoft, 2008
TOUS LES INDIVIDUS SOUS CETTE COURBE SONT NORMAUX
Si la moyenne observée est comprise dans la zone alpha, cela peut signifier que l'échantillon d'où provient la valeur
observée est constitué fortuitement d'individus normaux dont la taille est exceptionnelle. La moyenne ainsi obtenue
est peu probable mais toujours possible sous la courbe. Dans ce cas, l'expérimentateur va conclure erronément que
l'échantillon n'appartient pas à la population centrée sur µ.
Voir un effet qui existe:
Si la moyenne observée est comprise dans la zone alpha, cela peut signifier aussi que l'échantillon d'où provient la
valeur observée est constitué d'individus appartenant à une population de moyenne (µ1) distincte de µ (en gris foncé: cas où il existe une population centrée sur une moyenne µ1 plus grande que µ).
91
Copyright © StatSoft, 2008
Cette courbe "avec effet" (dans ce cas, il s'agit de la courbe la plus à droite) inconnue du statisticien mais supposée
par son hypothèse alternative.
Dans le cas présent: H1: µ1 supérieur à µ, ce qui peut se traduire par la possible existence d'un accroissement du
paramètre étudié, déplaçant ainsi la courbe à droite. La moyenne de la courbe "avec effet" est centrée sur µ1.
Le seuil de signification définit sous la courbe "avec effet" deux zones distinctes:
92
Copyright © StatSoft, 2008
L'objectif de l'expérimentateur sera de mettre toutes les chances de son côté afin de voir le plus souvent possible un effet si cet effet existe réellement. Il va devoir jouer sur certains paramètres pour diminuer le recouvrement des deux
courbes.
En d'autre terme, l'expérimentateur devra augmenter la puissance (1-ß) le plus possible (approximativement 99%) et
donc diminuer la probabilité de passer à côté d'un effet qui existe réellement (l'erreur de type II ß) à environ 1%
SANS MODIFIER LA CONFIANCE du test.
93
Copyright © StatSoft, 2008
Supposons qu'un laboratoire pharmaceutique demande à un de ses employés de montrer qu'une molécule X
provoque une augmentation de la pression sanguine chez le rat.
L'employé doit mettre toutes les chances de son côté pour cet accroissement de la pression sanguine le plus souvent possible. Pour cela, il peut contrôler les paramètres suivants:
94
Copyright © StatSoft, 2008
Modifier µ1:
En augmentant la dose du médicament X jusqu'à une concentration n'entraînant pas trop de décès chez les rats,
l'expérimentateur peut contraindre la courbe "avec effet" à se déplacer vers la droite.
La moyenne µ1 s'éloigne de plus en plus de la moyenne µ de référence jusqu'à une valeur optimale (si la dose de
médicament est plus importante, elle provoque la mort des rats).
Il en résulte une diminution de la superposition des deux courbes et donc une augmentation de la puissance.
exemple: µ = 120 mm de mercure; µ1 avant optimisation de la dose = 122 mm de Hg; µ1 après optimisation de la
dose = 124 mm de Hg
Modifier la variabilité de la population étudiée:
Dans notre exemple, un expérimentateur novice risque de prendre n'importe quel rat provenant de l'animalerie de
son laboratoire. Il risque de prendre des rats dont les caractéristiques sont très différentes.
La population des rats de laboratoires comportent des rats mâles et femelles, des jeunes et des vieux, des stressés et
des non stressés. Tous ces facteurs entraînent une augmentation significative de la variabilité.
En ciblant la population (par exemple: la population des rats mâles de 3 mois non stressés) on va diminuer sa
variabilité. L'implication graphique de cette diminution de la variabilité se traduit par un resserrement de la courbe
de Gauss autour de la moyenne.
95
Copyright © StatSoft, 2008
Il en résulte une diminution de la superposition des deux courbes et donc une augmentation de la puissance.
exemple: variance pour tous les rats = 225 [mm de Hg]2; variance pour des rats mâles de 3 mois non stressés = 25
[mm de Hg]2
Modifier la taille de l'échantillon:
La modification de la taille de l'échantillon a une effet similaire à celui observé lorsque l'expérimentateur réduit la
variabilité de la population.
Le théorème de la limite centrale nous apprend que la distribution d'échantillonnage des moyennes obéit à une
distribution normale centrée sur µ et dont la variance est VARx/n.
Pour ne pas devoir augmenter de manière exagérée la taille de l'échantillon à traiter, il est recommandé d'optimiser
préalablement la distance entre µ et µ1 (augmenter la dose) et de réduire au maximum la variabilité de la population
étudié AVANT d'augmenter la taille de l'échantillon. Supposons le test d'hypothèses suivant:
H0: µ = µ1 = 120
H1: µ1 supérieur à µ = 120
Confiance 95%
96
Copyright © StatSoft, 2008
NB: Si l'expérimentateur veut connaître la taille optimale de son échantillon pour avoir une puissance optimale de
99% il peut utiliser la formule suivante:
Augmenter alpha:
Un expérimentateur doit essayer de diminuer au maximum le recouvrement entre la courbe de référence et
l'hypothétique courbe "avec un effet" (si elle existe).
On serait tenté d'augmenter la surface alpha afin d'accroître la puissance (1-ß). Cette pratique n'est cependant pas
recommandée car l'existence de la courbe "avec un effet" n'est jamais certaine. C'est l'expérimentateur qui émet
l'hypothèse de son existence (H1) et qui va tenter de la démontrer.
L'expérimentateur délimite artificiellement un intervalle de confiance (1-alpha) et une erreur de type I (alpha).
Soit il n'y a pas d'effet à voir:
97
Copyright © StatSoft, 2008
Lorsqu'il n'y a aucun effet à voir, cela implique que la courbe "avec effet" n'existe pas! En augmentant alpha,
l'expérimentateur risque de rejeter plus souvent l'hypothèse nulle et donc voir un effet qui n'existe pas.
Soit il y a bien un effet à voir
En conclusion:
Si la valeur observée se retrouve dans la zone de rejet de l'hypothèse nulle, cela veut dire:
qu'elle appartient à la population de référence mais, par hasard, il a obtenu une valeur observée très éloignée
de la moyenne de la population de référence. La probabilité de l'obtenir dans cette population de référence est
très faible mais pas impossible.
Qu'elle est trop éloignée de la moyenne de la population de référence. Elle n'a pas été obtenue par hasard et,
par conséquent, la courbe "avec effet" à toutes les chances d'exister.
98
Copyright © StatSoft, 2008
Remarques:
99
Copyright © StatSoft, 2008
Les tests d'hypothèses vont permettre aux statisticiens de comparer des échantillons entre eux ou encore de comparer
un échantillon avec une population de référence...
Tests paramétriques et non paramétriques
On distingue deux grandes catégories de tests : les tests paramétriques et les tests non paramétriques. Les premiers exigent que l’on spécifie la forme de la distribution de la population mère étudiée. Il peut s’agir, par
exemple, d’une distribution suivant la loi normale, ce qui est le cas général lorsque l’on a affaire à de grands
échantillons. En général, ces tests ne peuvent s’appliquer qu’aux variables numériques.
Les tests non paramétriques s’appliquent quant à eux, à la fois aux variables numériques et qualitatives. Ces tests ne
font pas référence à une répartition particulière de la population mère. Ils peuvent donc s’appliquer à des petits
échantillons.
S’ils sont théoriquement moins puissants que les tests paramétriques, on peut quand même considérer que les tests
non paramétriques sont plus adaptés aux problématiques d’enquêtes. Des études ont d’ailleurs prouvé que leur
exactitude sur des grands échantillons n’est que légèrement inférieure à celle des tests paramétriques, alors qu’ils
sont infiniment plus exacts sur des petits échantillons.
Tests non paramétriques de comparaisons d’échantillons
Ces tests ont les mêmes objectifs que leurs homologues paramétriques, en étant applicables dans le cas général.
Le test U de Mann-Whitney s’apparente au test de comparaison des moyennes sur deux échantillons indépendants.
Comme ce dernier, il s’applique essentiellement sur une variable numérique(ou qualitative ordinale).
Le test des rangs signés de Wilcoxon s’apparente également au test de comparaison des moyennes mais, cette fois,
sur des échantillons appariés. Là aussi, les deux variables à tester doivent être numériques (ou assimilées).
Ces tests effectuent des classements des réponses et font intervenir dans leurs calculs, le rang associé.
Ainsi le test de Mann-Whitney commence par mettre ensemble les réponses des 2 groupes X et Y et à les classer. Le
calcul porte ensuite sur le nombre de fois où un individu du groupe X précède un individu du groupe Y. La somme
de ces éléments permet d’obtenir la valeur du test à comparer à la valeur critique dans la table de Mann-Whitney.
Il existe un autre test non paramétrique permettant de comparer plus de 2 échantillons et qui est en fait la généralisation du test de Mann-Whitney. Il s’agit du test de Kruskal-Wallis.
Dans le cadre de ces travaux pratiques, nous envisagerons trois types de tests d'hypothèses.
test de comparaison d'une moyenne d'un échantillon par rapport à une population
test de comparaison de 2 échantillons tirés de 2 populations indépendantes
test de comparaison de 2 échantillons tirés de 2 populations pairées ou appariées.
Quelque soit le type de tests (voir ci-dessus), il faut toujours considérer a priori que la (les) moyenne(s) comparées
proviennent d’une seule population de moyenne Mx. Il s'agit de l'hypothèse de départ appelée "hypothèse nulle"
(H0) qui pourra s'écrire comme suit:
L'expérimentateur doit démontrer que la (les) moyenne(s) ne provien(nen)t pas de la même population, mais qu'une
des population possède une moyenne plus grande, plus petite ou tout simplement différente par rapport à l'autre
population. Il s'agit de l'"hypothèse alternative" (H1) qui pourra s'écrire comme suit:
100
Copyright © StatSoft, 2008
Réduction des moyennes observées:
La (les) moyenne(s) mx obtenue(s) pour (les) l'échantillon(s) peu(ven)t être réduite(s) en une valeur observée (z
observée ou t observée). Celle-ci peut ensuite être comparée à une valeur seuil (z table ou t table).
Recherche d'une limite arbitraire, une valeur seuil:
La valeur seuil va déterminer sous la courbe de Gauss réduite des zones distinctes: une zone répondant aux
exigences de l'hypothèse nulle H0 et une zone répondant aux exigences de l'hypothèse alternative H1. En fonction
H1et de l'erreur de type I que vous souhaitez accorder au test (alpha = 5% ou 1% ou 0,1%), vous devrez choisir dans
les tables de Z ou de T de student une valeur seuil.
Comparer la valeur réduite observée à la valeur seuil trouvée dans les tables:
Si l'hypothèse alternative H1 est "M1 plus grand que M2"
Lorsque la valeur observée (Z observée ou t observée) est plus grande que la valeur théorique (Z(1-alpha) ou t(1-
alpha)), alors H1 est respectée (AH1)et H0 rejetée (RH0).
Dans le cas d'un rejet de H0 (RH0), l'expérimentateur aura réussi a démontrer que les moyennes comparées sont
telles que M1 est plus grande que M2. Comme la valeur de alpha choisie par l'expérimentateur est très faible
(maximum 5%), un RH0 signifie que la distance qui sépare les moyennes comparées est trop élevée pour être simplement due au hasard. Le risque de se tromper lorsque RH0 est donc très faible. Un RH0 permet à
l'expérimentateur d'être quasiment certain que M1 est bien plus grand que M2 avec un risque de se tromper
équivalent à alpha.
Dans le cas d'une acceptation de H0 (AH0), l'expérimentateur est obligé de considérer que les moyennes
comparées sont identiques. Cette AH0 doit être considérée par l'expérimentateur comme une "mise en échec". A la
différence de la "quasi certitude" au sujet de la conclusion tirée quand RH0, dans le cas d'une AH0, rien ne permet à
l'expérimentateur d'être certain que les moyennes comparées sont effectivement identiques.
101
Copyright © StatSoft, 2008
Si l'hypothèse alternative H1 est "M1 plus petit que M2"
Lorsque la valeur observée (Z observée ou t observée) est plus petite que la valeur théorique (Z(alpha) ou t(alpha)), alors H1 est respectée (AH1)et H0 rejetée (RH0).
Dans le cas d'un rejet de H0 (RH0), l'expérimentateur a la "quasi certitude" que M1 est plus petit que M2 avec une
probabilité de se tromper de alpha (maximum 5%).
Dans le cas d'une acceptation de H0 (AH0), l'expérimentateur n'a pas réussi à démontrer que M1est plus petite que
M2. Le doute est toujours possible.
102
Copyright © StatSoft, 2008
Si l'hypothèse alternative H1 est "M1 différent de M2"
Lorsque la valeur observée (Z observée ou t observée) est SOIT plus petite que la valeur théorique (Z(alpha/2) ou
t(alpha/2)), SOIT plus grande que la valeur théorique (Z(1-alpha/2) ou t(1-alpha/2)), alors H1 est respectée (AH1)et
H0 rejetée (RH0). Dans le cas d'un rejet de H0 (RH0), l'expérimentateur a la "quasi certitude" que M1 différent de M2 avec une
probabilité de se tromper de alpha (maximum 5%).
Dans le cas d'une acceptation de H0 (AH0), l'expérimentateur n'a pas réussi à démontrer que M1est différent de M2.
Le doute est toujours possible.
103
Copyright © StatSoft, 2008
Un échantillon d'individus est prélevé et sa moyenne est calculée (mx). Cet échantillon provient-il d'une population
1 déterminée de moyenne M1 (ou µ1) ou bien appartient-il à une seconde population appelée population 2 de
moyenne M2? Autrement dit, cet échantillon est-il conforme à la population d'origine?
Hypothèse nulle H0:
104
Copyright © StatSoft, 2008
Hypothèse alternative H1:
Cas 1: la variance de la population de référence est connue:
La réduction de ma moyenne de l'échantillon peut se faire par le calcul d'une valeur de Z observé dont la formule est
la suivante:
Où mx est la moyenne de l'échantillon; Mx est la moyenne de la population de référence; VARx est la variance de la
population de référence; n est la taille de l'échantillon.
Trouvez dans les tables de Z, la ou les valeurs seuil en tenant compte de alpha et de H1.
105
Copyright © StatSoft, 2008
Cas 2: la variance de la population de référence est inconnue:
Dans ce cas, il n'est plus possible de calculer directement une valeur de z observée car il nous manque la valeur de la
variance de la population de référence VARx.
Cependant, il est toujours possible d'adapter cette formule en remplaçant VARx par une approximation de celle-ci.
Cette approximation est donnée par l'estimateur de la variance de la population varx. La variable réduite ainsi
obtenue n'est plus une variable z observée mais une variable t observée.
Où mx est la moyenne de l'échantillon; Mx est la moyenne de la population de référence; varx est l'estimateur de la
variance de la population (autrement dit la SCE/(n-1) qui est une valeur propre a l'échantillon); n est la taille de
l'échantillon.
Ensuite, il reste à trouver dans les tables de t de Student (l'aspect de la courbe est aussi une courbe de Gauss), la ou
les valeurs seuil en tenant compte de alpha et de H1. La valeur de t de Student nécessite aussi la détermination d'un
certain nombre de degrés de liberté. Pour trouver la ou les valeurs seuil, il faut donc rechercher:
tseuil;(n-1) degrés de liberté
Où "seuil" représente H1 (seuil peut être (1-alpha) ou alpha ou (1-alpha/2) ou (alpha/2); n est la taille de l'échantillon
106
Copyright © StatSoft, 2008
Un expérimentateur désire comparer les moyennes (m1 et m2) de deux échantillons composés d'individus distincts:
les individus de l'échantillon 1 ne sont pas les mêmes que ceux de l'échantillon 2! Les deux échantillons sont
indépendants.
Les deux échantillons proviennent-ils d'une seule population de moyenne Mx ou bien ou bien les deux échantillons proviennent-ils de deux populations distinctes de moyennes M1 et M2?
Hypothèse nulle H0:
107
Copyright © StatSoft, 2008
Hypothèse alternative H1:
Cas 1: la variance des populations 1 et 2 (VAR1 et VAR2) sont connues:
La réduction de ma moyenne de l'échantillon peut se faire par le calcul d'une valeur de Z observé dont la formule est
la suivante:
Où m1 et m2 sont les moyennes des 2 échantillons; VAR1 et VAR2 sont les variances des 2 populations 1 et 2; n1 et n2 sont les tailles respectives des échantillons 1 et 2.
Trouvez dans les tables de Z, la ou les valeurs seuil en tenant compte de alpha et de H1.
108
Copyright © StatSoft, 2008
Cas 2: la variance de la population de référence est inconnue:
Dans ce cas, il n'est plus possible de calculer directement une valeur de z observée car il nous manque les valeurs de variances des populations de référence VAR1 et VAR2.
Pour pouvoir comparer les moyennes des 2 échantillons, l'expérimentateur va devoir remplacer les variances des
deux populations indépendantes par les variances estimées des 2 échantillons, var1 et var2.
Test sur l'homogénéité des variances des échantillons comparés: Une question préalable doit être posée: La variabilité des 2 échantillons est-elle comparable, homogène? En d'autre
terme, il faut vérifier l'égalité des variances des 2 population étudiées, c'est-à-dire l'homoscédasticité.
En effet, comme l'expérimentateur ne connaît rien des variances théoriques des 2 populations, il va devoir adapter la
formule de Z observé et en faire une formule de t observé (voir point suivant).
Dans cette formule, il remplacera VAR1 et VAR2 par une seule variance appelée "variance résiduelle" sr2 obtenue à
partir des variances des deux échantillons var1 et var2.
Réalisation du test:
Pour réaliser ce test, l'expérimentateur va mettre en rapport la plus grande des 2 variances d'échantillon sur la plus
petite. Ce rapport est une valeur appelée F observée que l'on peut comparer avec une valeur F des tables de Fisher.
Fobservé = var1 / var2 si var 1plus grande que var2
L'expérimentateur va ensuite comparer cette valeur à une valeur théorique des tables de F de Fisher-Snedecor.
L'hypothèse alternative H1induit la réalisation d'un test bidirectionnel. En général, ce test s'effectue avec une erreur
de type I (alpha) de 5%.
Il existe plusieurs tables de F de Fisher. L'expérimentateur doit sélectionner la table où (1-alpha/2) est 0,975.
Les premiers degrés de liberté (n1-1)dl correspondent à ceux de l'échantillon dont la variance est la plus grande. Ils
permettre de rentrer en tête de colonne dans la table.
Les seconds (n2-1)dl correspondent à ceux de l'échantillon dont la variance est la plus petite. Ils permettent de
rentrer en tête de colonne dans la table.
109
Copyright © StatSoft, 2008
F tables;(n1-1) dl; (n2-1)dl; 0,975
Test de comparaison des moyennes des populations d'où proviennent les 2 échantillons:
Les hypothèses H0 et H1 sont celles décrites ci-dessus.
L'expérimentateur va ensuite calculer une valeur de t observé:
110
Copyright © StatSoft, 2008
Où m1 et m2 sont les moyennes des 2 échantillons; sr2 est la variance résiduelle ; n1 et n2 sont les tailles respectives
des échantillons 1 et 2, var1 et var2 sont la variances respectives des deux échantillons 1 et 2.
Ensuite, il reste à trouver dans les tables de t de Student (l'aspect de la courbe est aussi une courbe de Gauss), la ou
les valeurs seuil en tenant compte de alpha et de H1. La valeur de t de Student nécessite aussi la détermination d'un
certain nombre de degrés de liberté. Pour trouver la ou les valeurs seuil, il fat donc rechercher:
tseuil;(n1+n2-2) degrés de liberté
Où "seuil" représente H1 (seuil peut être (1-alpha) ou alpha ou (1-alpha/2) ou (alpha/2); n est la taille de
l'échantillon.
111
Copyright © StatSoft, 2008
112
Copyright © StatSoft, 2008
Un expérimentateur dispose d'une série d'observations associées par paires ou par couples. Par exemple, une
expérience à été menée sur des rats. Ils ont été pesés avant et après un traitement hautement énergétique. A chaque
individu de l'expérience est associé une pesée avant et après le traitement.
Pour traiter ce genre de test, l'expérimentateur doit considérer la différence de chaque couple de données. Toutes ces
différences forment un échantillon dont on peut calculer la moyenne mD et la variance varD.
L'expérimentateur doit ensuite comparer la moyenne mD des échantillons pairés avec la moyenne des différences
attendues MD. Son point de départ est de considérer que la moyenne de différences mD de son échantillon provient d'une
population de différences de moyenne MD égale à delta (exemple: le traitement hautement énergétique ne provoque
aucune modification de poids chez les rats, d’où delta vaut 0). L'expérimentateur a pour objectif de montrer que la
moyenne des différences mD provient d'une population de moyennes de différences MD est différente de delta
(exemple: le traitement hautement énergétique provoque une modification de poids chez les rats, d'où delta devrait
être plus grand que 0).
Hypothèse nulle H0:
NB: En général, delta vaut 0 (exemple: mesure du même paramètre sur un même échantillon mais avec deux techniques différentes). Delta peut être différent de 0, par exemple dans le cas où l'on teste, dans 10 nichées de
souris, le poids d'un mâle et d'une femelle de chaque nichée.
113
Copyright © StatSoft, 2008
Hypothèse alternative H1:
La réduction de la moyenne des différences peut se faire par le calcul d'une valeur de t observé dont la formule est la
suivante:
Où mD est la moyenne des différences des données pairées; varD est la variance des différences des données
pairées; n est le nombre de couples de données.
Trouvez dans les tables de t, la ou les valeurs seuil en tenant compte de alpha pour un test bidirectionnel. Le nombre de degré de liberté a employer est (n-1) dl où n est le nombre de couples de données.
t tables, (n-1) dl; (1-alpha/2)
114
Copyright © StatSoft, 2008
115
Copyright © StatSoft, 2008
L'analyse de la variance à un critère de classification à pour but la comparaison des moyennes de nA populations, à
partir d'échantillons aléatoires et indépendants prélevés dans chacune d'elles. Ces populations sont en général des
variantes (ou niveaux na) d'un facteur contrôlé (ou facteur A) de variation.
le paramètre étudié suit une distribution normale
les variances des populations sont toutes égales (HOMOSCEDASTICITE)
les échantillons sont prélevés aléatoirement et indépendamment dans les populations
Déterminer si les échantillons varient de la même manière
Si nous démontrons l'homogénéité des variances, alors, nous pouvons comparer les moyennes de ces
échantillons
CAS 1: comparer 2 échantillons de tailles inégales
Vous devez comparer le rapport suivant :
Par rapport à une valeur des tables de F de Fisher-Snedecor telle que
F table pour (n de l'échantillon dont la variance est la plus grande-1)dl; (n de l'échantillon dont la variance est la plus
petite-1)dl; 0,975
Conclusions
Si Fobservé est plus grand que le F des tables, alors cela signifie que les variances des 2 échantillons sont trop différentes. Il est impossible de comparer des échantillons qui ne varient pas de la même manière.
Si Fobservé est plus petit que le F des tables, nous n'avons pas pu mettre en évidence de différences significatives
des variances. Par conséquent, il est possible de comparer les moyennes de tels échantillons
CAS 2: comparer 2 échantillons ou plus de tailles identiques
Vous devez comparer le rapport suivant:
116
Copyright © StatSoft, 2008
Par rapport à une valeur des tables de H de Hartley telle que
H table pour k dl; r dl; 0,95
k est le nombre de groupes comparés
r=ni-1; c’est-à-dire le nombre de d.l .des variances étudiées
Conclusions
Si Hobservé est plus grand que le H des tables, alors cela signifie que les variances des 2 échantillons sont trop
différentes. Il est impossible de comparer des échantillons qui ne varient pas de la même manière. Si Hobservé est plus petit que le H des tables, nous n'avons pas pu mettre en évidence de différences significatives
des variances. Par conséquent, il est possible de comparer les moyennes de tels échantillons
Les hypothèses
Le calcul:
SCET =somme des carrés des écarts (individus de l'expérience)
SCEF =ni * somme des carrés des écarts (moyenne des échantillons)
SCER =(ni-1)*somme(toutes les variances)
Convention d'écriture:
N est le nombre totale d'observations tout échantillon confondu
na est le nombre d'échantillons comparés
ni est le nombre d'individus par échantillons
Remarques:
SCER =SCET-SCEF (premier niveau de vérification du tableau d'ANOVA)
le CMR est aussi égal à la moyenne des variances (second niveau de vérification du tableau d'ANOVA)
Seuil de signification:
Dans les tables, il faut aller rechercher:
F dl factoriel; dl résiduel; (1-alpha)
117
Copyright © StatSoft, 2008
Le test d'ANOVA est unilatéral (voir Dagnelie, Théorie et Méthodes statistiques, vol. 2).
Conclusion du test:
Lorsque le Fobservé est supérieur ou égal au F des tables, il y a rejet de l'hypothèse nulle H0. Cela implique que l'on
a réussi à mettre en évidence la présence d'au moins une moyenne différente des autres.
On ne peut cependant pas dire avec précision la ou lesquelles des moyennes est ou sont différente(s) des autres:
S (ou *) signifie RH0 pour un intervalle de confiance de 95%
SS (ou **) signifie RH0 pour un intervalle de confiance de 99%
SSS (ou ***) signifie RH0 pour un intervalle de confiance de 99,9%
Pour pouvoir tirer de telles conclusions, il est nécessaire d'effectuer des analyses complémentaires telles que les
contrastes de Scheffé ou les contrastes orthogonaux (si ces derniers sont justifiés).
118
Copyright © StatSoft, 2008
119
Copyright © StatSoft, 2008
120
Copyright © StatSoft, 2008
Contrastes de SCHEFFE:
Cette méthode de comparaison des moyennes est peu sensible à la non normalité et à l'inégalité des variances
comparées. Elle est applicable au cas où les effectifs des échantillons ne sont pas tous égaux (Scheffé 1953).
Il s'agit d'un test de comparaison de moyennes 2 à 2. Soit les deux moyennes testées sont identiques (H0) soit elles
sont différentes (H1).
Ce test permet de comparer la différence entre 2 moyennes par rapport à une valeur seuil appelée PPDS: Plus
Petite Différence Significative
Chaque différence entre deux moyennes est comparée à la PPDS.
Si la différence est plus grand que la PPDS, on considère que l'écart séparant les deux échantillons est significatif ou
hautement significatif suivant le alpha utilisé pour déterminer la valeur de la PPDS.
Calculer la PPDS (Plus Petite Différence Significative)
Déterminer la valeur de F avec un alpha de 5% ou 1%
Conclusion du test de SCHEFFE:
Lorsqu'une des différences est plus grande que la PPDS, cela signifie que les 2 moyennes comparées sont différentes
de façon (hautement) significative
121
Copyright © StatSoft, 2008
Exemple de conclusion du test de SCHEFFE:
Les contrastes de SCHEFFE mettent en évidence une différence significative entre les échantillons 1 et 2 ainsi
qu'une différence très hautement significative entre les échantillons 2 et 3. Les échantillons 1 et 3 possèdent des
moyennes comparables.
122
Copyright © StatSoft, 2008
Définition
Une expérience fait parfois intervenir une série statistique double c'est-à-dire 2 séries d'observations associées X et
Y. Lorsqu'au moins une des 2 variables est aléatoire, il est possible de considérer ces 2 variables simultanément au
moyen d'une régression.
Cas étudié dans le cadre de ce cours:
Dans le cadre de ce cours, seul le cas où X est une variable contrôlée (non aléatoire) sera considéré.
Conditions d'utilisation de la régression dans l'ANOVA
C1: un raison logique permet de considérer que Y est une fonction de X, mais pas le contraire
Y=f(X)
C2: les valeurs prises par la variable X sont fixées sans erreur par l'expérimentateur
C3: Pour chaque valeur Xi de X, il existe une population de valeurs Yi distribuée normalement, de moyenne µi et de
variance 2 homogène c'est-à-dire constante quelle que soit la valeur de X
Yi v.a.N(µi; 2)
C4: Les moyennes µi correspondant aux valeurs Xi sont situées sur une droite dont les paramètres sont ß0 et ß1 telle
que
µi=ß0+ß1Xi
avec ß0 l'ordonnée à l'origine et ß1 la pente
C5: Les variables aléatoires Yi sont indépendantes
123
Copyright © StatSoft, 2008
Exemple de résolution d'une régression dans une ANOVA
Supposons que l'on réalise une expérience portant sur l'étude de la pression sanguine (Y variable aléatoire) en
fonction de l'âge (X variable contrôlée). Lorsque l'âge des patients augmente, va-t-on observer un accroissement de
leur pression sanguine? Cet accroissement répond-il à un modèle linéaire?
Ce que nous savons déjà:
Une analyse descriptive simple nous a permis les conclusions suivantes:
Le coefficient de corrélation r vaut environ 0,94. L'interprétation donnée alors était la suivante: "Si la relation est
linéaire, elle est croissante. De plus, le r est très proche de 1, ce qui signifie que le nuage de point est très concentrer
autour de la droite de régression (si elle existe). Il est cependant impossible de tirer une conclusion ferme et
définitive sur la linéarité de la relation tant que le graphique n'a pas été réalisé."
Le coefficient de détermination r² vaut environ 0,88. L'interprétation donnée était la suivante: "Si la relation est
linéaire, le modèle linéaire est expliqué à 88%. Les 12% restants représentent les erreurs de mesures et toutes les
imprécisions engendrées lors de l'expérience. Comme au point précédant, sans la visualisation graphique de
l'expérience, il est impossible d'affirmer avec certitude que la relation est bien linéaire." Grâce à la représentation graphique (diagramme de dispersion), nous pouvons confirmer qu'il est bien possible de
faire passer au mieux une droite par le nuage des points.
Une analyse de ce type reste assez simpliste et il n'est pas possible de savoir à coup sûr si la relation est bien
linéaire!
Ce que nous apporte une analyse de la régression dans l'ANOVA
L'analyse de la régression dans l'ANOVA est une méthode de calcul qui permet de découper la variabilité expliquée
(factorielle) en deux parties:
La première partie contient la variabilité expliquée réellement par le modèle linéaire (SCEreg).
La seconde partie contient la variabilité expliquée par la non linéarité de la relation (SCEnl)
SCEF=SCEreg + SCEnl
Le principe de la régression dans l'ANOVA est de tester ces deux parties de la variabilité factorielle (variabilité due
à la régression et variabilité non linéaire) par rapport à la variabilité résiduelle.
124
Copyright © StatSoft, 2008
Si le F observé pour la régression est supérieur au F des tables pour 1 dl (correspondant aux degrés de libertés de la
variabilité due à la régression) et (N-na) dl (correspondant aux degrés de libertés de la variabilité résiduelle), cela
signifie que le modèle linéaire est celui qui s'adapte le mieux à l'étude de la relation entre les deux paramètres
étudiés (X et Y c'est-à-dire l'âge et la pression sanguine).
Si le F observé pour l'aspect non linéaire est supérieur au F des tables pour (na-2)dl (correspondant aux degrés de
libertés de la variabilité due à l'aspect non linéaire de la variabilité) et N-na) dl (correspondant aux degrés de libertés
de la variabilité résiduelle), cela signifie qu'il y a "trop d'imprécisions" sur les valeurs de Y. Dans ce cas, même si la
conclusion sur la régression conduit à un rejet de H0, on considérera que le modèle linéaire ne peut être appliqué.
125
Copyright © StatSoft, 2008
L'ANOVA 1 aléatoire s'applique aux échantillonnages à 2 niveaux.
Dans ce type d'expérience, nous ne pouvons pas approfondir l'analyse par l'étude des contrastes. Par contre, il est
possible de déterminer le nombre de réplications et d'individus optimaux.
Exemple:
Pour étudier le poids des hommes, on effectue 4 pesées sur 5 hommes pris au hasard dans la population.
premier niveau d'échantillonnage : le poids est une variable qui suit une distribution normale au sein de la
population masculine.
deuxième niveau d'échantillonnage : les 4 mesures (4 réplications) prises sur un même individu ne seront pas
exactement les mêmes. Nous observons donc un deuxième niveau de variabilité.
Variance totale = variances des réplications + variance des hommes
126
Copyright © StatSoft, 2008
Calculs:
Les calculs de l'ANOVA aléatoire sont les mêmes que lors de la réalisation de l’ANOVA fixe.
Estimation des variances:
variance du premier niveau d'échantillonnage:
2a = ( E (CMfacto) - E (CMrési) ) / n
variance du deuxième niveau d'échantillonnage: 2 = E (CMrési)
Intervalle de confiance:
+/- t1-/2 * racine ( (2 / nan) + (2
a/na) )
Nombre d'unités au premier niveau d'échantillonnage:
soit le nombre d'individus nécessaires
na = 16 * ( ( 2/n ) + 2
a ) / 2
127
Copyright © StatSoft, 2008
Si on étudie le taux de cholestérol dans le sang , le but est d'analyser les fluctuations de ce taux (notre mesure, notre
variable) en fonction:
du "régime alimentaire" (1critère de classification)
du "régime alimentaire" tout en gardant les mêmes "individus" d'un régime à l'autre (2 critères de
classification)
du "régime alimentaire", du "nombre de jours de traitement" avec un régime alimentaire, tout en gardant les
mêmes "individus" d'un régime à l'autre (3critères de classification).
L'expérimentateur constitue plusieurs échantillons contenant des individus pris au hasard dans une population
déterminée. L'objectif de l'expérience est de mettre en évidence des différences de taux de cholestérol en fonction du
"régime alimentaire". Le critère de classification étudié est unique: il s'agit de "régime alimentaire".
128
Copyright © StatSoft, 2008
L'expérimentateur constitue plusieurs échantillons à partir des 5 mêmes individus d'une population déterminée.
Chaque individu passe successivement par 3 régimes alimentaires. pour chaque régime, une mesure de taux de
cholestérol est réalisée.
L'objectif de l'expérience est de mettre en évidence des différences de taux de cholestérol en fonction du "régime
alimentaire". Dans ce cas, il y a deux critères de classification: le critère "régime alimentaire" et le critère
"individu" puisque les mesures sont effectuées sur les mêmes individus (1, 2, 3, 4 et 5) pour tous les échantillons.
129
Copyright © StatSoft, 2008
L'expérimentateur constitue plusieurs échantillons à partir des 5 mêmes individus d'une population déterminée.
Chaque individu suit un régime déterminé pendant trois jours avant de passer au régime suivant et ainsi de suite.
L'objectif de l'expérience est de mettre en évidence des différences de taux de cholestérol en fonction du "régime
alimentaire" et de la "durée du régime déterminé". Dans ce cas, il y a trois critères de classification: le critère "régime alimentaire", le critère "individu" et le critère "jour".
130
Copyright © StatSoft, 2008
L'expérience présentée ci-dessus consiste à étudier le taux de cholestérol en fonction d'un régime clairement
identifié (régime à base de viande; à base d'aliments à haute teneur en graisses animales; à base de légumes). Le
critère "régime" est fixé (connu): le critère est dit "FIXE".
131
Copyright © StatSoft, 2008
L'expérience présentée ci-dessus consiste à étudier le taux de cholestérol en fonction d'un régime (1, 2 ou 3) non précisé . Le critère "régime" n'est pas fixé (inconnu): il est "ALEATOIRE".
132
Copyright © StatSoft, 2008
L'expérience présentée ci-dessus consiste à étudier le taux de cholestérol de façon à réaliser 3 prélèvements par jour
sur les mêmes individus pendant trois jours. Les individus sont croisés aux jours.
133
Copyright © StatSoft, 2008
L'expérience présentée ci-dessus consiste à étudier le taux de cholestérol de façon à réaliser 3 prélèvements par jour
sur des individus différents de jour en jour. Les individus sont hiérarchisés aux jours.