Mise à niveau Statistique - statsoft.fr · Mise à Niveau Statistique avec Des logiciels...

Mise à Niveau Statistique

avec

Des logiciels Statistiques Performants

2, Rue Louis Pergaud 94700 Maisons-Alfort

Tél : 01-45-185-999 Fax : 01-45-185-285

e-mail : [email protected]

Web : www.statsoft.fr

mailto:[email protected]

http://www.statsoft.fr/

SOMMAIRE

4

Copyright © StatSoft, 2008

5


La variabilité d'un échantillon peut se décomposer en plusieurs types. Elle est expliquée en partie par un facteur bien

défini (exemple: dans l'exemple ci-dessous, le poids des poissons peut s’expliquer par le dimorphisme sexuel c'est-à-

dire que les mâles sont plus petits que les femelles): cette variabilité est dite "factorielle". La variabilité restante est

due à des erreurs de mesures (imprécision) ou à une diversité génétique (variabilité individuelle) et forme la

variabilité résiduelle). Nous observons ici une forme de la variabilité irréductible qui doit être rendue la plus petite possible, mais qu’il est vain de penser pouvoir supprimer. Cette variabilité fait partie de ce que l’on appellera la

variabilité résiduelle. Imaginons maintenant que deux individus tirent sur une cible avec la même carabine, puis

chacun recommence avec une autre carabine. Nous voyons apparaître une nouvelle forme de variabilité. La première

carabine (impacts circulaires) n’a pas la même déviation par rapport au centre de la cible que la seconde carabine

(impacts carrés). Cette différence est due à un facteur identifiable, qui est ici l’emploi de deux carabines différentes.

Dans le cas de nos poissons, il s’agirait de différence de mesures entre males et femelles (facteur sexe). On pourrait

imaginer qu’il s’agit de différences de poissons d’un an et de deux ans (facteur âge), entre morues et lottes (facteur

espèce)... C’est ce que l’on appellera la variabilité factorielle. Cette variabilité se distingue fondamentalement de la

variabilité résiduelle : elle représente de l’information qui permet de répondre à des questions correspondant aux

différents niveaux du facteur : les carabines sont-elles réglées de la même façon (niveaux 1 et 2 du facteur carabine)

? Les morues males atteignent elles la même taille à un an que les morues femelles (niveaux 1 et 2 du facteur sexe) ? Quelle est la différence de taille entre un et deux ans (niveaux 1 et 2 du facteur âge) ? Quelle est la différence de

taille entre males et femelles (niveaux 1 et 2 du facteur sexe) ?

Tandis que la variabilité résiduelle peut-être considérée comme du bruit parasite : si c’était possible, je préférerais

que le poids affiché sur la balance soit exactement la valeur réelle du poids de l’individu, et que deux morues placés

dans les mêmes conditions pendant 365 jours aient exactement la même taille : je pourrais ainsi répondre

directement à la question !

Notons que si je ne dispose pas, au minimum, de la mesure de deux individus dans chacune des conditions, la

variabilité factorielle sera indissociable de la variabilité résiduelle : car la seule mesure de distance disponible

est à la fois la distance entre deux individus de la mesure et des niveaux du facteur différents.

La variabilité individuelle ne peut être détectée que si j’effectue la mesure dans les mêmes conditions sur au moins

deux individus (ces mesures sont appelés réplications).

La variabilité factorielle ne peut être détectée que si j’effectue la mesure dans les mêmes conditions sur au moins deux individus pour au moins deux niveaux d’un facteur identifiable et pris en compte dans la définition de la

population.

2


1.1.1 Imprécision Un individu mesuré plusieurs fois ne génère pas nécessairement le résultat. Ceci peu s'expliquer par exemple par les

limites de l'appareil de mesure, la façon dont il a été étalonné, …): on parle d'imprécision. Si la mesure n’est

effectuée qu’une seule fois par individu, la variabilité individuelle sera indissociable de l’imprécision, car la

seule mesure de distance disponible est à la fois la distance entre deux répétitions de la mesure et entre deux

individus différents. Dans ce cas, ce que l’on appelle la variabilité résiduelle sera la somme de la variabilité

individuelle (distance entre les valeurs réelles de différents individus) et de l’imprécision de la mesure (distance

entre les valeurs mesurées pour un même individu).

L’imprécision ne peut être détectée que si j’effectue la mesure au moins deux fois dans les mêmes conditions, sur le

même individu (ces mesures sont appelées duplications).

1.1.2 Inexactitude La mesure expérimentale d'un individu n'est pas identique à la mesure réelle de ce même individu. On parle

d'inexactitude. Cette différence systématique entre la mesure effective (ici l’impact) et la valeur réelle (ici le centre

de la cible) représente l’inexactitude. Si l’inexactitude est supérieure à l’imprécision, on parlera d’erreur, cette fois dans le bon sens du terme :si je pèse les poissons, je peux imaginer que la balance est mal tarée, ou que le poisson

est mal égoutté ; si je le mesure je peux imaginer que je le mesure jusqu’au bout de la nageoire caudale, alors que la

convention serait de le mesurer jusqu’à la fourche de la queue. Remarquons que si l’imprécision est grande, elle

pourra masquer l’inexactitude.

3


Hors d'une population de morues atlantiques, il est possible de prélever un échantillon d'individus. C'est cet

échantillon qui sera décrit et qui servira de point de départ à une estimation (inférence) ultérieure sur la population

(Pour accéder à la partie "inférence").

La théorie de l’échantillonnage consiste à déterminer des propriétés sur des échantillons prélevés dans une population dont on connaît déjà des propriétés. On ne considère ici que des échantillons aléatoires, c’est-à-dire

constitués d’éléments pris au hasard dans une population. Le tirage des éléments d’un échantillon peut être fait sans

remise; On dit qu’il est exhaustif. Sinon si le tirage est fait avec remise, on dit qu’il est non exhaustif ; dans ce cas

les tirages sont indépendants. Dans la plupart des cas, la population ayant un grand effectif, dans laquelle on tire une

faible proportion d’éléments, on assimile un tirage sans remise à un tirage avec remise.

Le but d'une étude statistique est souvent, sinon la plupart du temps, de se faire une idée assez juste sur les variations

d'une variable dans une population. Cependant, il peut être très difficile, voire impossible, d'interroger ou d'observer

selon le cas tous les individus de la population. En pratique, donc, les données dont on dispose pour faire une

distribution sont, le plus souvent, les données d'un échantillon. Il surgit alors une question fondamentale qui ne se

pose pas lorsqu'on a les données de la population entière. C'est de savoir jusqu'à quel point il est permis d'extrapoler

à la population entière les phénomènes observés dans l'échantillon. Cette problématique est souvent traduite par la question: « Est-ce que l'échantillon est représentatif de la population? » En fait, on ne peut répondre par oui ou

non à cette question, car cela suppose l'existence d'un critère qui permettrait de déclarer une fois pour toutes que

l'échantillon est bon et d'affirmer que tout ce qui est vrai de l'échantillon est vrai de la population. Un tel critère

n'existe pas. C'est chaque conclusion qui doit être validée, et non l'échantillon comme tel. La question posée sera,

non pas si l'échantillon est bon ou mauvais, mais : « Est-ce que telle conclusion peut, avec peu de risque

d'erreur, s'appliquer à la population entière? »

La façon de répondre à cette question repose sur l’étude de la similitude entre la population et l’échantillon et

dépend de la caractéristique que l’on désire étudier. Par exemple, si l’on désire mieux connaître un paramètre de la

distribution d’une variable dans la population, disons sa moyenne m, notre attention se portera de façon naturelle sur

la moyenne x calculée dans un échantillon. Nous aurons besoin à ce moment de l’outillage théorique pertinent qui

nous permettra de comparer x et m et de tirer une conclusion. Pour le moment, nous voulons étudier la distribution

../vaN/pages/vanindex.html

4


même d’une caractéristique ou d’une variable. Il s’agira de comparer la distribution observée de la variable dans un

échantillon avec une distribution hypothétique (ou souhaitée parfois) au moyen d’un outil d’analyse adéquat. La

procédure d’analyse qui sera élaborée ici porte le nom de test d’ajustement analytique.

Que doit-on conclure au sujet de notre hypothèse, la rejeter ou non?

5


Parmi les raisons justifiant un échantillonnage plutôt que de travailler sur la globalité de la population:

1. les ressources sont illimitées... (pêcher toutes les morue atlantiques de la mer est impossible).

2. les données disponibles sont limitées... (la reproduction des pandas captifs ne peut être étudiée que sur l'effectif captif c'est-à-dire composé d'un nombre restreint d'individus).

3. l'expérimentation est destructive... (impossible de sacrifier la population de chauve souris [200 individus]

pour mesurer la longueur de l'intestin).

6


Supposons que l'on prélève dans les filets de ce chalutier 15 morues atlantiques. Celles-ci constitue l'échantillon.

Chaque individu est mesuré depuis la tête jusqu'à la fourche (la mesure xi du paramètre X) et les résultats sont

répertoriés ci-dessous. Il s'agit de la première étape du processus de description de l'échantillon.

1 paramètre étudié: poids moyen en Kg = 1 DIMENSION (X) 1 individu = 1 mesure de poids (xi)

La description de l'échantillon se poursuit par le classement des données, les mesures de la tendance centrale et de la

dispersion

page4.html

page6.html

page7.html

7


TRI DES POISSONS EN FONCTION DE LEUR POIDS DANS PLUSIEURS CLASSES

La classification des données xi (poids des morues pêchées) est obtenue en créant artificiellement des classes (ou

catégories) d'individus.

Le nombre de classes dépend du nombre d'individus pêchés:

il ne peut être trop petit sous peine de perdre de l'information: 1 classe contenant tous les

individus de l'échantillon revient à ne pas faire de classe

il ne peut être trop grand sous peine de perdre de l'information: pour un échantillon de 15

individus, réaliser 15 classes revient à avoir des classes ne contenant qu'un poisson voire

aucun les classes possèdent toutes le même intervalle séparant leur limite inférieure et supérieure (dans l'exemple:

l'intervalle de classe Li vaut 2 Kg):

classe 1: de 0 Kg inclus à 2 Kg exclus




8


fréquences: est le nombre d'individus appartenant à une classe. Il est généralement noté ni . La

somme des fréquences de toutes les classes est la taille de l'échantillon n.

fréquences cumulées: est la somme des fréquences de la classe étudiée et des fréquences des

classes qui lui sont inférieures. La fréquence cumulée de la dernière classe vaut N (c'est-à-dire la

somme des ni).

la fréquences relative : est le rapport entre la taille de la classe étudiée et la taille de l'échantillon.

Nous étudions dans ce cas l'importance de la classe par rapport à la globalité de l'échantillon (exemple:

20% des individus de l'échantillon présenté dans la figure ci-dessous ont une envergure comprise entre

380 et 400 mm). La somme de toutes les fréquences relatives est égale à 1. Elle est notée ni/n.

la fréquence relative cumulée : est la somme des fréquences relatives de la classe étudiée et des fréquences relatives des classes qui lui sont inférieures. La fréquence relatives cumulée de la dernière

classe vaut 1.

la densité de fréquences relatives : est souvent employée car la surface de chaque rectangle de

l'histogramme correspond à la fréquence relative de la classe:

Un cas extrême est celui où la taille de l'échantillon tend vers l'infini. A ce moment, le nombre de classes possible

tend aussi vers l'infini. Chaque classe possède un intervalle (une base) infinitésimale. La surface d'un rectangle tend

vers 0. On ne parlera plus de distribution de densités de fréquences relatives mais de distribution de densités de

probabilités. L'intervalle de classe (Li) est la distance séparant la limite supérieure de la limite inférieure de chaque classe.

9


Les statistiques descriptives à une dimension se limitent à décrire une seule variable à la fois, discrète (le nombre d'enfants par famille) ou continue (concentration naturelle des eaux en Cd, on effectue la mesure sur 150

échantillons d'eau en ng/l)...

Prenons l'exemple de la variable X: nombre d'enfants par famille. J'étudie cette variable dans la population française,

10


parmi laquelle je sélectionne 50 familles. J'obtiens une série statistique de 50 valeurs, x1, x2, x3 .... xi, ... x50. Si je

me contente d'énumérer les 50 valeurs, c’est-à-dire de produire la série statistique, l'information ne sera guère

pratique.

Comment dès lors répondre facilement aux questions: quelle est la proportion de familles de moins de

deux enfants, quelle est la proportion de familles bénéficiant d'une réduction au chemin de fer, la proportion de

familles de trois enfants est-elle différente en France et en Belgique ???

Une façon commode de représenter les résultats consiste à créer une distribution statistique des valeurs numériques.

La distribution de fréquence reprend l'ensemble des k valeurs différentes observées, classées par ordre croissant, x1,

x2, ... xi,... , xk, et les fréquences correspondantes, n1, n2, ...,ni, ..., nk, la fréquence ni étant le nombre de fois que

j'observe une valeur particulière xi dans l'échantillon.

n étant l'effectif (ici 50), on a évidemment la relation:

Cette équation implique que chaque observation peut être classée dans une et une seule des k catégories définies.

Toute statistique se réfère à des conventions : il faudra décider comment classer une femme enceinte, un enfant

décédé, les enfants de familles recomposées...

En général, on définira toutes les catégories correspondant aux valeurs discrètes comprises entre les valeurs

minimum et maximum observées ; si certaines valeurs ne sont pas observées, on associera à ces catégories une

fréquence nulle.

Cela fait, on y voit déjà plus clair dans les résultats. Cependant, si je veux comparer l'échantillon belge à

l'échantillon français, et que celui-ci comprend un effectif de 80 observations, le niveau absolu des mesures

est un obstacle à la comparaison. 19 n'est pas comparable comme tel à 15, puisqu'il s'agit de 19 parmi 67 et 15 parmi

50. J'aurai donc intérêt à établir la distribution de fréquences relatives dans laquelle chaque fréquence est exprimée

en proportion (comprise entre 0 et 1) ou en pourcentage (compris entre 0 et 100) de l'effectif.

11


Enfin, les distributions de fréquences cumulées permettent de répondre facilement à des questions du type: quelle

est la proportion de familles profitant d'une réduction au chemin de fer ? La fréquence cumulée est établie en

additionnant les fréquences de proche en proche à partir de la première valeur n1. La fréquence relative cumulée est

définie de la même façon. Si N'i est la fréquence relative cumulée correspondant à la catégorie i, on peut écrire:

L'abscisse correspond aux différentes valeurs discrètes prises par la variable X, et l'ordonnée représente une des distributions de fréquence. Un tel diagramme est appelé tracé en bâtons/colonnes, en raison de la discontinuité de

l'abscisse.

12


Les métaux lourds exercent une importante série d’effets sur les poissons. Ceci va des effets métaboliques aux effets

physiologiques en passant par des modifications comportementales. Parmi ces métaux lourds, le cadmium

est un des effluents les plus communs. Il est souvent déversé avec les effluents industriels et domestiques. Chez le poisson, le Cd a des effets sur la croissance et est responsable de stress osmorégulateur. Il a même été montré

que le Cd pouvait altérer la structure et la fonction de divers organes tels que le foie. La réponse à un stress est

encore mal comprise et en particulier les effets spécifiques du Cd sur les voies métaboliques de production

d’énergie. Ce rapport met en évidence les effets du Cd sur plusieurs voies du métabolisme des hydrates de carbone

dans le foie des saumons atlantiques.

Osmorégulateur :qui régule l’osmose, mécanisme impliqué dans le maintien d’une concentration ionique

intracellulaire différente de celle du milieu.

Afin de déterminer la concentration naturelle des eaux en Cd, on effectue la mesure sur 150 échantillons d'eau (ng/l).

Les valeurs, continues, ont été tronquées à deux chiffres significatifs. (feuille de données ci-dessous)

Les résultats sont relativement encombrants. Il faudrait un long examen rien que pour établir que la concentration

observée est comprise entre 33 et 66 ng/l ou alors de réaliser des stats en colonne dans STATISTICA.

13


25

Une première synthèse est obtenue en regroupant d'abord les données en classes. Ceci implique de définir un

intervalle de classe, globalement constant, qui divise l’intervalle (maximum-minimum) en une série d’intervalles

plus petits (limite supérieure - limite inférieure). Les données appartenant à cet intervalle sont assignées à la classe

correspondante. A chaque classe est associée une fréquence, qui correspond au nombre d'observations individuelles

assignées à cette classe. Les classes doivent toujours être exclusives, de façon à réaliser la relation :

Pour cela, il faut classer arbitrairement les valeurs qui correspondent aux limites de classes, soit systématiquement dans la catégorie supérieure ou inférieure, soit alternativement dans l'une et dans l'autre. Ce problème est lié au fait

que la variable continue a artificiellement un caractère discret de par la limitation du nombre de chiffres significatifs.

14


Les fréquences, fréquences relatives et fréquences relatives cumulées peuvent dès lors être définies de la même

façon que pour les variables discrètes, chaque classe étant identifiée soit par ses limites, soit par son centre (valeur

équidistance des limites).

Le nombre de classes est arbitraire. On se rend aisément compte qu'il doit réaliser un compromis entre deux

extrêmes : une seule classe, ce qui supprime presque toute l'information, et autant de classes qu'il y a de valeurs différentes, ce qui ne réalise aucune synthèse des résultats. Globalement, le nombre de classes est proportionnel au

nombre d'observations, l'intervalle de classe est constant, et les classes de fréquence nulle sont évitées.

Ensuite un graphique peut être réalisé en plaçant en abscisse la variable continue (le centre, ou les limites, ou une

sélection des ces valeurs, est indiqué en fonction de l’espace disponible) en ordonnée la fréquence, la fréquence

relative ou la fréquence relative cumulée. On représente la fréquence par une série de rectangles contigus, ce qui

indique le caractère continu de la variable.

Avant de construire notre distribution de fréquences nous devons déterminer combien de classes nous utiliserons.

C’est purement arbitraire, mais trop peu ou trop de classes ne donnera pas une image aussi nette qui peut être

obtenue avec des nombres plus proches de l’optimum. Une relation empirique, connue comme la règle de Sturge,

peut être utilisée comme un guide utile pour déterminer le nombre optimal de classes (k) est donné par

k = le plus petit entier supérieur ou égal à 1 + 3.332 Log(n)

où k est le nombre de classes, Log est en base 10, n est le nombre total de valeurs numériques du fichier de données.

Par conséquent, la largeur de classe est :

(Valeur maxi – valeur mini) / (1 + 3.332 Log(n))

où n est le nombre total d’items du fichier de données.

Pour avoir un "optimum" vous avez besoin de mesurer la qualité – vraisemblablement dans ce cas, le "meilleur" affichage quelque soit l’information disponible dans les données. La taille d’échantillon contribue à cela ; ainsi la

méthode habituelle est d’utiliser entre 5 et 15 classes, avec le plus de classes possible si vous disposez d’un gros

échantillon. Vous devrez prendre en compte une préférence pour des largeurs de classes soignées, de préférence un

multiple de 5 ou 10, parce que c’est plus facile à comprendre.

Les approches suivantes sont également reportées :

Posons n comme étant la taille d’échantillon, puis le nombre de classes d’intervalles serait :

MIN {n, 10 Log(n) }

Il s’agit bien du logarithme de base 10. Ainsi pour 200 observations vous aurez 14 intervalles mais pour 2000 vous

en aurez 33.

15


La moyenne arithmétique est la mesure de la tendance centrale la plus facile à calculer. Elle est obtenue par la

division de la somme de toutes les valeurs de l'échantillon par la taille de l'échantillon (n). Cette mesure est très

sensible aux valeurs extrêmes.

La moyenne d’une variable aléatoire est une mesure de tendance centrale de cette variable. Elle est également

appelée espérance mathématique. Dans la pratique, le terme moyenne est très souvent utilisé dans le sens de

moyenne arithmétique.

C’est une tendance centrale permettant de caractériser le centre de la distribution de fréquences d’une variable

quantitative en considérant toutes les observations et en leur attribuant le même poids.

Elle peut être considérée comme le centre de gravité des données, affectée de coefficients égaux pour chaque

individu.

Inconvénients : Un des inconvénients de la moyenne empirique, vu comme valeur centrale d’un échantillon, est

d’être sensible aux valeurs extrêmes. Une valeur manifestement très différente des autres est souvent qualifiée de

valeur aberrante. Qu’elle soit ou non le résultat d’une erreur dans le recueil ou la transcription, on ne peut pas la

considérer comme représentative. Supposons que sur un échantillon de 10 valeurs, toutes soient de l’ordre de 10,

sauf une, qui est de l’ordre de 1000. La moyenne empirique sera de l’ordre de 100, c’est très éloigné de la plupart

des valeurs de l’échantillon. Pour palier cet inconvénient, on peut décider ne pas tenir compte des valeurs extrêmes

dans le calcul de la moyenne. On obtient alors une moyenne élaguée. Si certaines observations sont considérées

16


moins fiables que d’autres, il pourrait être avantageux d’attribuer à celles-ci moins d’importance, soit en calculant

une moyenne arithmétique pondérée, soit en utilisant la médiane qui n’est pas trop influencée par les observations

aberrantes.

La moyenne géométrique est définie comme la n-ième racine du produit de n nombres non négatifs.

Comme la moyenne arithmétique, elle prend en compte chaque observation individuellement. Toutefois, elle diminue l'effet des très grands nombres. C’est une raison pour laquelle elle est parfois préférée à la moyenne

arithmétique.

Elles est plus utilisée dans le calcul de ratios ou plus particulièrement d’indices.

La moyenne harmonique de n nombres est définie comme n divisé par la somme des inverses de chaque nombre.

Elle est très peu utilisée en statistique mais peut se révéler appropriée dans certains cas : pour des taux

d’investissement différents par exemple.

Une propriété de la moyenne harmonique est d’être peu influencée par des valeurs aberrantes lorsque celles ci sont

beaucoup plus grandes que l’ensemble des données. Par exemple, pour l’ensemble de données 1,2,3,4,5,100, la

moyenne harmonique est égale à 2.62 tandis que la moyenne arithmétique vaut 19.17. Par contre, elle est beaucoup

plus sensible aux valeurs aberrantes lorsque celles-ci sont beaucoup plus petites que l’ensemble des données. C’est

ainsi qu’avec les observations 1,6,6,6,6,6, on trouve H=3.27 alors que la moyenne arithmétique vaut 5.17.

Le mode détermine la valeur la plus fréquente dans un échantillon. Si l'échantillon est divisé en classes, la classe

modale constitue la classe la plus fréquente. Dans l'exemple ci-dessus, les classes modales sont les classes 2 et 3 et

contiennent 5 individus chacune. Le mode est la valeur pour laquelle on enregistre le plus grand effectif.

Inconvénients : En examinant la distribution on se rend compte que de part et d’autre de cette valeur les effectifs

diminuent. En réalité, il faut être prudent dans l’utilisation du mode lorsqu’on a affaire à une variable qui possède un

nombre infini de modalités. Le mode n’a plus de signification. On retiendra cette statistique uniquement dans le cas

de variables discrètes possédant un nombre limité de modalités.

La médiane est la valeur telle que 50% des observations de l'échantillon lui sont inférieures. La médiane est la valeur qui sépare la population en deux classes d’effectifs égaux.

Si le nombre d'observations est pair: la médiane est la moyenne entre les observations n/2 et (n+2)/2.

Si le nombre d'observations est impair: la médiane est la valeur (n+1)/2. Dans l'exemple ci-dessus,

l'échantillon est composé de 15 individus. Cela implique que la médiane se trouve au niveau de l'individu

n°8. En effet, il existe 7 individus de taille inférieure à la médiane et 7 individus de taille supérieure à cette

même médiane.

Les mesures d’“aplatissement” d’une distribution font partie des mesures de forme et caractérisent un aspect de la

forme d’une distribution donnée. Plus précisément, elles caractérisent le degré d’aplatissement de la distribution

normale. En effet, certaines distributions se rapprochent de la loi normale sans toutefois y être totalement identiques.

Il est alors utile de pouvoir tester si la forme de la distribution présente une déviation par rapport à l’aplatissement de la distribution normale. On parle de distribution platicurtique si la courbe est plus aplatie que la courbe normale

(valeur négative d’aplatissement) et de distribution leptocurtique si la courbe est plus pointue que la courbe normale

(valeur positive). Si l’aplatissement est nettement différent de 0, alors la distribution est soit étalée soit pointue par

rapport à une courbe normale ; le coefficient d’aplatissement ou kurtosis d’une distribution normale est 0.

L’asymétrie ou sknewness prendra une valeur de 0 (entre –0.1 et +0.1) quand la distribution présente une courbe

symétrique. Une valeur positive indique que les observations sont plus rangées à droite de la moyenne avec la

plupart des valeurs extrêmes à droite de la moyenne. Une asymétrie négative indique un regroupement à gauche.

Dans ce cas nous avons : Moyenne <Médiane <Mode. L’ordre inverse s’applique pour les observations avec une

asymétrie positive.

Dans une distribution symétrique, la médiane, la moyenne, et le mode se confondent en un même point central. Cet

équilibre n’existe plus lorsqu’il y a asymétrie. Dans ce cas , le mode est séparé de la moyenne, et la médiane se

17


trouve entre les deux. Par conséquent, il est nécessaire de développer des mesures d’asymétrie pour appréhender le

degré de déviation de la forme de la distribution par rapport à une distribution symétrique. Si l’asymétrie est

nettement différente de 0, alors cette distribution est asymétrique, alors que les distributions normales sont

parfaitement symétriques.

Représentation graphique de la moyenne et de l'écart-type. Une technique graphique similaire à celle du Tracé en bâtons peut être utilisé pour représenter la moyenne de différents échantillons. On l'accompagne souvent

d'une représentation de la variabilité des observations (par exemple 1). Il s’agit du graphique Moyenne avec Barres d’erreur.

18


19


20


21


Les notions de variance et d’écart-type servent à quantifier la dispersion d’un échantillon autour de sa moyenne.

L’écart-type est une mesure de dispersion très largement utilisée. Il correspond à la racine carrée positive de la

variance, où la variance est la moyenne des déviations au carré de chaque observation par rapport à la moyenne de

l’ensemble des observations. L’avantage de l’écart-type sur la variance est qu’il s’exprime, comme la moyenne,

dans la même unité que les données. La variance est une mesure de dispersion d’une distribution correspondant à

l’écart-type élevé au carré. Empiriquement, la variance d’une variable quantitative est définie comme la somme des

déviations au carré de chaque observation par rapport à la moyenne arithmétique, divisée par le nombre

d’observations. Il est toutefois difficile d’utiliser la variance comme mesure de dispersion car le recours au carré

conduit à un changement d’unités (ordre de grandeur des écarts). C’est pour cette raison qu’on lui préfère l’écart-type qui est la racine carré de la variance.

22


Le coefficient de variation est souvent utilisé pour exprimer la précision d'un appareil. Si l'on dit qu'une balance est précise à 1%, cela signifie que l'écart-type entre différentes mesures représente 1% de la valeur pesée. Si l'on pèse

plusieurs fois une masse d'un gramme, 95% des pesées seront comprises entre 0.98 g et 1.02 g. Si l'on utilise la

23


même balance pour peser 100 g, 95% des pesées seront comprises entre 98 et 102 g. Pour une même erreur relative

l'erreur absolue est passée de 0.02 g à 2 g!

Test de Kolmogorov

Avantages du Test : L’avantage du Test de K-S réside dans le fait qu’il n’exige aucune hypothèse sur les données

(c’est-à-dire que c’est un test non paramétrique à distribution libre) ; il s’applique à des variables quantitatives

continues (par exemple le poids ou la quantité de feuilles) ; il ne nécessite pas de regroupement de classes quand l’effectif est faible et peut s’appliquer quand l’effectif de l’échantillon est très petit.

Principe du Test : Ce test détermine si deux ensembles de données différent significativement. Il consiste à calculer

les différences existant entre les distributions de fréquences relatives cumulées de deux échantillons et à vérifier si

la plus grande des déviations D peut être le fruit de fluctuations fortuites d’échantillonnage. Si tel n’est pas le cas,

l’écart peut provenir d’une différence de position entre les deux distributions ou encore d’une différence de

dispersion, d’asymétrie ou autre. Dans le cadre de la vérification de la normalité, on compare donc la distribution

des fréquences relatives cumulées des données d’un échantillon à la distribution des fréquences relatives cumulées

théoriques (c’est-à-dire normales) puis on observe où se situe la déviation D la plus grande entre les deux

distributions. Le test de Kolmogorov-Smirnov doit être utilisé quand la variable considérée a une distribution

continue. Mais dans le cas contraire, appliqué à une variable discontinue, si H0 est rejetée, nous pouvons avoir

confiance en cette décision. Comme ce test ne nécessite aucun groupement des données et qu'il permet de traiter des

échantillons de faible taille, chaque fois que ces conditions sont remplies, il est le plus puissant des tests d'ajustement présentés.

Si la plus grande déviation D n’est pas significative (pour =0.05), alors la distribution des données est considérée comme normale.

Si elle est significative, cela montre que les données ne sont pas distribués normalement, et qu’il faut faire appel à

des tests non-paramétriques.

Ce test est plus naturel que celui du chi2 lorsque la loi attendue a une fonction de répartition continue. Il s’agit d’un

test d’ajustement à une loi avec densité, qui prend en compte l’ensemble des quantiles. Soit X une variable aléatoire réelle dont la loi a une fonction de répartition continue F et X1,X2…,Xn, n réalisations

indépendantes d’un processus dont on suppose qu’il suit la même loi que X (on cherche à tester cette hypothèse). Le

test consiste à mesurer l’écart entre la fonction de répartition exacte et la fonction de répartition empirique et à le

comparer à une valeur « admissible ».

Ce test étudie l'écart entre :

la fonction des probabilités cumulées de l'échantillon

la fonction des probabilités cumulées de la loi théorique

On regarde pour tous les points cet écart. Et on garde la valeur la plus élevée en valeur absolue.

Pour valider un ajustement à une valeur théorique on compare à une valeur théorique dans une table. On choisit les valeurs suivant un critère bilatéral car on ne cherche pas à rejeter uniquement si la courbe est en dessous ou au

dessus mais dès qu'elle ne suit plus la loi normale.

Le fichier de données suivant est ouvert :

24


Calcul de F(X(i)) pour la valeur X(i) = 3.8 dans STATISTICA est donnée par le calculateur de probabilité issu d’une

distribution N (2,1), ici 0.96 :

25


La distribution d'échantillonnage de D est connue. La table en donne certaines valeurs critiques. La signification

d'une valeur donnée de D dépend de la les valeurs critiques de D par les divisions indiquées dans la table. Par

exemple, lorsque l'on travaille avec un échantillon de 43 observations et que l'on a fixé a = 0,05, la table montre que

tout D égal ou supérieur à 1,36 / N sera significatif. Ainsi, tout D, calculé par la formule, égal ou supérieur à 1,36

/43 = 0,207 sera significatif au seuil 0,05 pour un test bilatéral. La table ne donne que les valeurs critiques de D pour N compris de 1 à 35.

Les résultats donnés par STATISTICA sont les suivants :

http://socio-eco5.univ-lyon1.fr/Enseignement/Stat/Tables/TabKolSm

26


Recommandations :

Utilisé comme test sur une distribution de variables discrètes lorsque n 25.

Aussi utilisé lorsque n 25 sur les variables discrètes (Poisson et Binomiale), mais les résultats ne sont

qu’approximatifs.

Utilisé pour des distributions de fréquences de variables continues (échelles d’intervalle, de rapport et ordinale),

même lorsque n 25.

Le test se fait généralement sur les valeurs non-groupées (quand n est très grand, on place les effectifs dans des

classes).

Les données non-groupées sont rangées en ordre ascendant.

Le test se fait à partir de distributions de fréquences cumulées relatives des effectifs observés et théoriques.

Ce test traite les observations individuelles séparément et ne nécessite en aucun cas la combinaison de classes

comme dans le chi-deux. De plus ce test est utilisable avec de petits échantillons, contrairement au chi-deux.

Aussi le test de Kolmogorov-Smirnov est dans tous les cas plus puissant que le test du chi-deux.

Test de Lilliefors

Le test de Lilliefors corrige le test de Kolmogorov-Smirnov si on ne connaît pas la moyenne et la variance de la

population.

La sortie du Test de Lilliefors, qui devrait être comparée avec les valeurs critiques suivantes après avoir établi un

Valeurs critiques du Test de Lilliefors

Niveau de Significativité

Valeur Critique

= 0.15 0.775 / ( n ½ - 0.01 + 0.85 n

-½ )

= 0.10 0.819 / ( n ½ - 0.01 + 0.85 n

-½ )

= 0.05 0.895 / ( n ½ - 0.01 + 0.85 n

-½ )

27


= 0.025 0.995 / ( n ½ - 0.01 + 0.85 n

-½ )

Pour n = 100, la valeur critique pour = 0.05, est égale à 0.088.

Test de Shapiro

Exemple d'utilisation du test de Shapiro et Wilk :

On a titré une série de 10 lots de Streptomycine par dosage au maltol. On a obtenu les résultats suivants diminués de 700 unités : 60-80-55-45-60-65-65-60-70-40.

Les n observations expérimentales ont été au préalable rangées par ordre de valeur croissante.

On désire tester la normalité de cette série de résultats en calculant la somme.

où d1 = yn - y1 , d2 = yn-1 - yn-2, …, di = yn-i+1 - yi.

Remarquons que si n = 2p (n pair), on aura p différences et si n = 2p + 1 (n impair) on aura aussi p différences,

l'observation médiane n'intervenant pas.

Où Pour les valeurs de aj voir la table des aj (jusqu’à n = 15) ci-dessous.

http://www.educnet.education.fr/rnchimie/math/benichou/tables/tshapiro/coef.htm

28


29


On lit dans la table de Shapiro et Wilk pour n =10 et un risque de 5% la valeur de Wcrit. On trouve :

Wcrit = 0,842

On choisit un risque (5 % ou 1 %) et on compare la valeur de W à une valeur Wcrit, dite valeur critique, lue dans la

table de Shapiro et Wilk. La règle du test est alors la suivante :

Si W > Wcrit on accepte, au risque choisi, l'hypothèse de normalité de la série de mesure. Si W < Wcrit on rejette l'hypothèse de normalité de la série de mesure.

On a donc W > Wcrit, on accepte donc au risque de 5% l'hypothèse de normalité de la distribution statistique

donnée.

http://www.educnet.education.fr/rnchimie/math/benichou/tables/tshapiro/tshapiro.htm

http://www.educnet.education.fr/rnchimie/math/benichou/tables/tshapiro/tshapiro.htm

30


STATISTICA trouve une valeur du W de Shapiro égale à 0.96481 > W crit, donc on accepte l’hypothèse de normalité

à près de 84%.

Test du Chi-deux

L'outil statistique le plus classique pour tester l'adéquation entre une distribution expérimentale et une distribution

théorique est le test du chi-deux, aussi connu sous le nom de test de Pearson.

Pearson a démontré que, si l'échantillon est assez important, la variable Z suit approximativement une loi du 2 à degrés de liberté.

En pratique, le test ne peut être valablement effectué que si l'on dispose d'un nombre suffisant d'observations (N >

50) et si les effectifs théoriques N pi des différentes classes sont au moins égaux à 5. Si cette condition n'est pas

satisfaite, on regroupe les classes trop petites (en général, aux extrémités de la distribution). Le nombre k utilisé plus

haut est le nombre de classes après le regroupement.

Le test du chi-deux concerne uniquement les lois discrètes, mais on peut l'utiliser aussi pour des échantillons

continus regroupés en classes.

On cherche à tester l'hypothèse nulle Ho selon laquelle la distribution empirique est proche de la distribution

théorique.

La statistique du chi-deux est donc une moyenne pondérée d'écarts quadratiques entre la distribution empirique et la

distribution théorique.

Lorsque l'hypothèse nulle d'ajustement à la loi théorique est vraie, la quantité Chi-deux observée suit

approximativement une distribution du chi-deux à (R-1) degrés de liberté.

La valeur du chi-deux observé est nulle lorsque les fréquences observées sont égales aux fréquences attendues, c'est-

à-dire lorsqu'il y a concordance complète entre la distribution observée et la distribution théorique. On rejette donc

l'hypothèse nulle lorsque la valeur observée est trop élevée c'est-à-dire lorsque : Chi-deux observé > chi-deux (1-), étant l'erreur de première espèce relative au test.

31


Le Chi-deux est une distribution, comme la distribution Normale et les autres. La distribution normale (ou

Gaussienne ou en forme de cloche) est très présente par nature dans la vie réelle.

Les distributions du chi-deux suivent toujours une distribution en cloche caractérisée par une dissymétrie à gauche.

La forme de la courbe est déterminée par le nombre de degrés de liberté et du nombre de catégories dans lesquelles

les fréquences sont dénombrées. En effet plus le nombre de degrés de liberté augmente, plus on tend vers une

distribution normale et donc on adopte une courbe en cloche. La seule valeur caractéristique de la distribution est n, le nombre de degrés de liberté ou n représente le nombre de variables aléatoires indépendante, chacune distribuée

selon la loi normale centrée réduite. Quand nous connaissons la moyenne et la variance d’une distribution Normale alors cela nous permet de trouver les

probabilités. Ainsi si par exemple, vous connaissiez des infos à propos de la hauteur moyenne des femmes du pays

(y compris le fait que les hauteurs soient distribuées normalement, vous pourriez mesurer toutes les femmes de votre

famille, trouver la hauteur moyenne et déterminer une probabilité associée avec votre résultat ; si la probabilité d’obtenir votre résultat, étant donné votre connaissance du pays tout entier, est élevée. Alors on ne pourra pas dire

que la hauteur des femmes de votre famille soit différent de la moyenne. Si cette probabilité est faible, alors votre

résultat est rare (étant donné la connaissance des femmes du pays tout entier), et vous pouvez dire que votre famille

est différente. Vous venez de réaliser un test d’hypothèse confirmant que la hauteur moyenne des femmes de votre

famille est différente de la moyenne générale.

Il y a d’autres tests (similaires) pour trouver cette probabilité qui n’induisent PAS d’utiliser la distribution Normale. Un de ceux là est le test du Chi-deux. Par exemple, si vous testez la variance des hauteurs des femmes de votre

famille (qui est analogue à votre test précédent sur la moyenne), vous ne pouvez pas supposer que l’usage de la

distribution normale soit approprié. Cela paraît sensé, puisque la distribution Normale a une forme en cloche, et les

variances ont une limite inférieure à zéro. Donc, alors qu’une variance pourrait être un nombre très important, elle

est limitée dans la partie inférieure par zéro. Si vous deviez tester si la variance des hauteurs des femmes de votre

famille est différente de celles du pays, un test du Chi-deux semble être approprié, étant donné nos conditions

originales ci-dessus. Tables croisées : Il n’y a pas que la variance pour laquelle nous utilisons le test du Chi-deux. Très souvent il est

utilisé pour tester la relation entre deux catégories de type de données, ou l’indépendance de deux variables, tel que

fumer une cigarette et l’usage de drogues. Si vous deviez enquêter sur 1000 personnes pour savoir s’ils fument ou

non et s’ils consomment des drogues, vous obtiendrez une des quatre réponses : (non, non) (non, oui) (oui, non) (oui, oui). En regroupant le nombre des personnes dans chaque catégorie, vous pouvez tester à la fin si fumer des cigarettes est

indépendant de l’usage de drogue en utilisant la distribution du Chi-deux (c’est approximatif, mais fonctionne bien).

Le calcul des degrés de liberté est égal à (nombre de lignes-1)(nombre de colonnes -1). C’est à dire, ces nombreuses

résultats ont besoin de remplir le corps entier de la table croisée, le reste sera déterminé en utilisant la somme des

lignes et des colonnes. Ne pas oublier les conditions de validité du test du Chi-deux et des valeurs attendues supérieures à 5 dans 80% ou

plus des cellules. Sinon, on utilisera le test "exact", en utilisant soit une permutation ou un ré échantillonnage. Pour une table 2-fois-2, vous utiliserez la correction de Yates sur le chi-deux. La distribution du chi-deux est utilisée

comme une approximation de la distribution binomiale. En appliquant une correction continue nous obtenons une

meilleure approximation de la distribution binomiale dans le but de calculer les probabilités en queue.

La valeur p, qui dépend directement d’un échantillon donné, tente de donner une mesure de la puissance des

résultats à un test de l’hypothèse nulle, en contraste à un simple rejet ou de ne pas rejeter dans l’approche classique du test d’hypothèse. Si l’hypothèse nulle est vraie et la chance d’une variation aléatoire est la seule raison des

différences entre échantillons, alors la valeur p est une mesure quantitative permettant de faciliter la décision. La

table suivante donne une interprétation raisonnable des valeurs de p :

32


Niveau P Interprétation

P 0.01 Très forte évidence par rapport à

H0

0.01 P 0.05 Evidence modérée par rapport à H0

0.05 P 0.10 Evidence suggestive par rapport à

H0

0.10 P Petite ou pas d’évidence par

rapport à H0

Principes généraux

Objectifs Il existe de très nombreux tests qui permettent d’évaluer des aspects différents de significativité. Les objectifs

principaux auxquels peuvent répondre les tests statistiques sont :

l’évaluation de la représentativité des répartitions observées par rapport aux valeurs connues pour l’ensemble de la

population,

la mesure de la significativité de la différence constatée sur les observations de deux groupes d’individus ou d’un

même groupe pour deux variables observées,

l’existence et l’intensité d’une liaison entre deux variables.

Fonctionnement Les tests statistiques fonctionnent tous sur le même principe qui consiste à énoncer une hypothèse sur la population

mère puis à vérifier, sur les observations constatées, si celles-ci sont vraisemblables dans le cadre de cette

hypothèse.

Autrement dit, on cherche à estimer la probabilité de tirage au sort dans la population mère, d’un échantillon ayant

les caractéristiques observées. Si cette probabilité est minime, on rejette l'hypothèse énoncée ; dans le cas contraire,

celle-ci peut être adoptée, au moins provisoirement, dans l’attente de validations complémentaires.

L’hypothèse à tester est appelée H0 ou hypothèse nulle. Elle s’accompagne impérativement de son hypothèse

alternative appelée H1.

Le test s’attachera à valider ou à rejeter H0 (et par conséquent a tirer la conclusion inverse pour H1).

Si le résultat du test amène à accepter l’hypothèse nulle H0, le chargé d’études en déduit qu’il ne peut rien conclure

à partir des observations concernées, la probabilité que la répartition soit due au hasard étant élevée.

En revanche, le rejet de H0 signifie que la répartition des réponses recèle des informations particulières qui ne semblent pas être dues au hasard et qu’il convient d’approfondir.

Mode d’utilisation

La mise en œuvre d’un test statistique se déroule généralement en 5 étapes :

Formulation de l’hypothèse nulle H0 et de son hypothèse alternative H1 : ces hypothèses sont toujours formulées par rapport à la population globale, alors que le test portera sur les observations effectuées dans le cadre de l’échantillon.

Exemple : Par rapport à l’année dernière où nos clients avaient donné une note de 8,7 sur 10 à notre magasin, la note

33


donnée cette année par 100 clients que nous avons interrogés et qui se situe à 8,5 sur 10 n’est pas significativement

inférieure.

Détermination du seuil de signification du test.

Exemple : nous acceptons un risque d’erreur de 5%.

Dans le cadre des tests paramétriques, détermination de la loi de probabilité qui correspond à la population mère.

Exemple : si on interrogeait tous nos clients potentiels, les notes données se répartiraient selon une distribution normale ayant un écart type de 1.

Calcul du seuil de rejet de H0 pour déterminer la région de rejet et la région d’acceptation de H0 (et inversement de

H1).

Exemple : Pour un risque de 5%, la loi normale donne une valeur critique de -0,1645. Si la valeur de notre test est supérieure à ce seuil, notre hypothèse H0 est vérifiée : la note de cette année

n’est pas significativement inférieure.

Décision de rejet ou d’acceptation de l’hypothèse H0.

Exemple : La comparaison de la différence entre 8,5 et 8,7, qui est de -0,2 étant inférieure à la valeur critique, nous

devons rejeter l’hypothèse H0. Nous devons donc estimer que la note donnée cette année est significativement

inférieure à celle de l’année dernière.

Test unilatéral, ou bilatéral

Lorsque l’hypothèse nulle consiste à tester l’égalité de la valeur du test avec une valeur donnée, le test est bilatéral. En effet, le rejet de l’hypothèse est décidé si la valeur du test est significativement différente, qu’elle soit inférieure

(zone de rejet de gauche) ou supérieure (zone de rejet de droite).

Le test est dit unilatéral lorsque l’hypothèse nulle évalue si une valeur est supérieure ou égale à la valeur de test

(unilatéral gauche) ou inférieure ou égale à cette valeur (unilatéral droit).

Le test donné en exemple ci-dessus est donc un test unilatéral gauche.

34


Nous allons à présent aborder les techniques relatives à la description de deux variables mesurées simultanément.

Ces techniques sont utilisées lorsque l'expérimentateur s'intéresse à la relation qui pourrait exister entre deux

variables qui interviennent dans un phénomène naturel. Ces études sont très fréquentes; imaginons par exemple

l'étude de l'évolution de la capacité respiratoire en fonction de l'exercice, de l'évolution du rythme cardiaque en

fonction de l'administration d'une drogue, du poids des individus en fonction de leur taille, du taux de cholestérol sanguin en fonction du poids du corps, de la production laitière en fonction de la teneur des aliments en protéines

etc…etc…

L’expérimentateur mesure deux valeurs expérimentales pour chaque observation individuelle, ce qui produira une

série statistique à deux dimensions :

Nous pouvons généraliser les techniques utilisées pour la description des observations à une dimension. Les

variables continues seront regroupées en classes comme précédemment dans un histogramme bivarié.

35


Les données sont représentées sur un autre type de graphique

On peut recentrer ce diagramme

36


A partir des moyennes de X et de Y, il est possible de tracer deux droites respectivement parallèles à l'axe des Y et

des X. A l'intersection de ces deux droites se trouve le centre de gravité dont les coordonnées sont (moyenne de X;

moyenne des Y).

Le centre de gravité du nuage de points constitue le point par lequel passe obligatoirement une droite de régression

(pour autant qu'un modèle linéaire soit la solution la mieux adaptée à cette situation).

Notons aussi que le centre de gravité peut être repositionné afin d'avoir comme coordonnées (0; 0). Le processus de réduction s'opère par retranchement aux coordonnées en X et en Y de leur moyenne respective. Pour éliminer la

variabilité propre au contexte expérimental, les différences entre coordonnées (X ou Y) expérimentales et moyenne

(de X ou de Y) sont divisées par l'écart type (de X ou de Y). En ce qui concerne les différents points expérimentaux,

la valeur réduite n'est pas nulle. Dans le cas du centre de gravité, la différence entre la coordonnée X (ou Y) de ce

point et la moyenne correspondante, générant une différence nulle.

Il est possible de quantifier cette relation entre X et Y en utilisant des coefficients :

37


Le coefficient de corrélation d’une série statistique double est le nombre r défini par :

38


R s’appelle le coefficient de corrélation linéaire. Il est toujours compris entre -1 et +1. Ces deux extrêmes

correspondent à une relation parfaite, entre X et Y. Un coefficient de corrélation nul correspond à une absence de relation linéaire entre X et Y.

Interprétation de la valeur du coefficient de corrélation. Le coefficient de corrélation a une interprétation

similaire à celle du coefficient de détermination (ils sont évidemment très liés, l’un étant le carré de l’autre). Lorsque

l’on s’intéresse à l’intensité de la relation, on préférera R² qui s’exprime directement en proportion (souvent exprimé

en %) de variabilité expliquée par le modèle ; si on s’intéresse au signe de la relation, on choisira R, car R² n’en a

pas.

Relations non linéaires. Ni R ni R² ne permettent de déterminer si une relation est non linéaire. Certaines relations

très étroites entre deux variables, mais non linéaires, correspondent à un coefficient de corrélation nul ou presque

nul.

Mesure de l’association entre deux variables qualitatives. Le croisement de deux questions qualitatives produit

un tableau que l’on désigne généralement par “tableau de contingence”.

Pour savoir si la distribution des réponses de ces deux variables est due au hasard ou si elle révèle une liaison entre

elles, on utilise généralement le test du Chi-deux, qui est sans doute le test statistique le plus connu et le plus utilisé

dans le domaine des études marketing. Un prochain paragraphe détaillera son fonctionnement.

En général, le chi-deux est calculé pour un tableau croisé. Cependant certains outils comme STATISTICA sont

capables de l’appliquer en série à un grand nombre de combinaisons de variables prises 2 à 2, pour détecter

automatiquement les couples de variables qui présentent les liaisons les plus significatives.

39


Mesure de l’association entre deux variables numériques. Lorsque l’on cherche à déterminer si deux variables

numériques sont liées, on parle de corrélation. Les trois tests de corrélation les plus utilisés sont ceux de Spearman,

Kendall et Pearson. Les deux premiers sont des tests non-paramétriques que l’on peut également appliquer sur des

variables qualitatives ordinales. Ces deux tests commencent par classer les valeurs observées pour chaque individu

à chacune des deux variables. Ainsi, si on cherche à évaluer la corrélation entre l’âge et le revenu, la première étape du calcul évalue pour l’individu 1 puis 2, puis n, son classement en fonction de l’âge et celui en fonction du revenu.

Le test de Spearman se base sur la différence des rangs pour chaque individu, pour donner, à partir d’une formule

particulière, la valeur du test (r de Spearman). Plus cette valeur est proche de 0 plus les 2 variables sont

indépendantes. A l’inverse, plus il est proche de 1 plus elles sont corrélées.

Il est possible de tester la signification statistique de cette valeur obtenue, à l’aide de la formule suivante de

comparaison, basée sur le t de Student :

t = RxRacine(n-2) Racine(1-r²)

Cette valeur doit être comparée dans la table de Student, à la valeur t avec n-2 degrés de liberté. Ainsi, si on obtient

une valeur r de 0,8 sur un échantillon de 30 personnes, le calcul ci-dessus nous donne la valeur 8,53. La valeur donnée dans la table de Student pour 28 degrés de liberté avec un seuil de 5% d’erreur est de 2,05. Cette valeur étant

inférieure à notre t calculé, le taux de corrélation calculé est significatif.

Le test de Kendall part de la même manière que celui de Spearman. Mais une fois que les rangs sont calculés, le test

classe l’une des deux variables sur ces rangs et s’intéresse au nombre de fois où la deuxième respecte le même ordre

de classement.

En final, le test fournit un coefficient de corrélation que l’on appelle le Tau de Kendall dont on peut également

évaluer la significativité à l’aide d’un test complémentaire. Contrairement aux deux tests ci-dessus, le test de

corrélation de Pearson est un test paramétrique exigeant. Il ne s’applique que sur deux variables numériques qui,

prises ensemble doivent suivre la loi normale.

Ce test de corrélation fait appel à des calculs statistiques basés sur la covariance des deux variables et sur leurs

variances. Là aussi, ces calculs aboutissent à la production d’un coefficient de corrélation entre 0 et 1, qui peut être également testé quant à sa significativité.

40


Celui-ci rend compte de la dispersion du nuage de points autour de la droite de régression.

r2=1-var. résiduelle/var. totale

r2=(var. totale-var. résiduelle)/var. totale

r2=var. expliquée/var. totale

Les droites ci-dessus ne tiennent pas compte de la pente réelle. Il s’agit uniquement de montrer la concentration des

points du nuage de points par rapport à la droite théorique.

D’un coefficient de détermination nul (r²=0) où aucune relation linéaire n’existe entre X et Y jusqu’à un coefficient

de détermination maximum (r²=1) où tous les points du nuage se trouvent sur la droite sans écart à la linéarité.

Le rapport entre la variabilité factorielle et la variabilité totale représente la qualité explicative du modèle :

41


Dans le cas présent, le modèle linéaire est de bonne qualité car le rapport 460/500 =0.92 soit 92% de la variabilité du

poids est expliquée par l’âge. Les 8% restant représentent la variabilité inexpliquée par ce modèle (peut-être explicable par un autre modèle). Il s’agit de la variabilité résiduelle du modèle.

Ce rapport porte le nom de coefficient de détermination. Il est noté R². Nous montrerons que dans le cas du

modèle linéaire (uniquement) ce coefficient est le carré du coefficient de corrélation, noté R, ce qui justifie

sa notation R².

Plus le modèle est complexe, plus la variabilité résiduelle est censée diminuer. Des modèles plus complexes sont soit

non linéaires, soit font intervenir plusieurs variables explicatives (le sexe, la T° de l’eau..).

Propriétés du coefficient de détermination : De ce qui précède, nous pouvons conclure que la variabilité du poids

(SCET) peut être répartie en deux types de variabilité :

1 la variabilité expliquée par la relation linéaire entre X et Y (SCEF). Dans une certaine mesure, Y varie lorsque X

varie: le poids est plus élevé lorsque la taille est plus élevée.

2 la variabilité inexpliquée par la relation linéaire entre X et Y (SCER). La variabilité de Y n'est pas strictement

liée à la variabilité de X : deux enfants de même taille ont des poids différents, parce que le poids dépend d'autres

variables qui ne sont pas prises en considération (ce qui pourrait être expliqué par un modèle plus complexe), et par

effet du hasard et de l'erreur expérimentale (considéré comme inexpliquée).

Le coefficient de détermination R² représente la proportion de la variabilité de y qui est expliquée par la relation

linéaire entre X et Y. Cette affirmation ne sera démontrée qu'après le développement de la régression. Nous pouvons

en déduire que cette proportion va être comprise entre deux extrêmes :

1 il n'y a aucune relation linéaire entre X et Y, et donc aucune variabilité de Y n’est expliquée par X : R² = 0 2 la valeur de Y est déterminée entièrement par la valeur de X, et donc il n'y a aucune variabilité inexpliquée de Y

: R² = 1.

42


S'écrit aussi

ou encore c'est parce que x varie que Y varie

ou encore la variation de X est expliquée par la variation de Y

43


S'il existe une relation entre deux variables, l'intérêt de l'expérimentateur sera de pouvoir prédire la valeur que

devrait prendre une variable à partir de la valeur observée pour l'autre. Nous allons donc rechercher des valeurs qui

nous permettront de caractériser la relation, de façon à disposer d'un outil de prédiction. Dans le cadre des relations

linéaires entre variables, on peut exprimer dans la population la relation entre X et Y par l’équation d’une droite qui

exprime la relation entre X et Y :

Dans cette expression,

la pente de la droite, qui correspond à l'augmentation de Y attendue pour une augmentation d’une unité de X.

Si X est exprimé en cm et Y en kg, est exprimé en kg et en kg/cm.

Dans un échantillon, la relation est estimée par la relation suivante :

Dans cette expression, B0

B1 ntation de Y estimé pour une augmentation d’une unité de X.

Les valeurs Yoi observées dans l'échantillon ne seront pas égales aux valeurs Ymi formant la droite :

Nous pourrions donc tracer plusieurs droites, caractérisées par différentes valeurs de B0 et de B1 .

44


Intuitivement, nous pouvons établir que des deux situations présentées ci-dessus, la seconde apparaîtra meilleure que la première. Le but de notre démarche est de rechercher la ou les droite(s) qui exprime(nt) au mieux la relation

linéaire ente X et Y dans l’échantillon. La seconde solution apparaîtra meilleure parce que les écarts entre les points

et la droite sont plus petits. On comprend intuitivement que la droite qui exprimera au mieux la relation entre X et Y

correspondra à l'écart moyen le plus petit possible, pour l'ensemble des observations. Cependant, en considérant les

observations de chacune des situations, nous constatons que les écarts ont une somme (et dès lors une moyenne)

nulle, que l’ajustement soit favorable ou non.

Le critère d’ajustement sera donc de rendre minimale SCER, ce qui revient à rendre maximale SCEF et donc le

rapport SCEF/SCET = R². C’est aussi dans cette seule situation que nous respecterons la relation :

45


SCET=SCEF+SCER : 345.66 = 250.1 + 95.56

Déterminer la meilleure droite revient donc à minimiser SCER calculée entre les valeurs observées et les valeurs

estimées. SCEr est une fonction de B0 et de B1 : SCER se modifie lorsque l’on modifie les paramètres. Nous

pouvons visualiser schématiquement la façon dont la SCER, toujours positive, varie en fonction de B0 et de B1

Lorsque les valeurs de B0 et de B1 ne peuvent pas être modifiées sans provoquer une augmentation de SCE, elles correspondront aux valeurs caractéristiques de la droite de régression de Y en fonction de X, c’est-à-dire le meilleur

outil de prédiction de Y pour une valeur de X, dans le cadre d'une relation linéaire entre ces variables.

On peut imaginer calculer un très grand nombre de droites et choisir celle qui présente la SCER minimale. Certains

algorithmes programmés sur ordinateur procèdent de cette façon. Il existe cependant une solution analytique à ce

problème qui repose sur le principe que l’on se trouve au minimum d'une fonction de plusieurs paramètres lorsque la

dérivée première par rapport à chacun de ces paramètres est nulle, et la dérivée seconde positive.

46


47


48


Pour analyser une relation non linéaire, deux possibilités se présentent : la régression non linéaire et, dans certains

cas, la transformation linéaire des variables Y et/ou X. La régression non linéaire est une technique simple sur le

plan statistique, mais relativement complexe sur le plan algorithmique

49


50


Les distributions discrètes et continues Il existe deux grands types de distributions : les distributions discontinues (ou discrètes) et les distributions

continues.

Les distributions discrètes se représentent par des histogrammes formés d’un nombre fini de classes d’intervalles

constants (Li). En abscisse, on place les classes et en ordonnée, les densités de fréquences relatives.

La conséquence est que la probabilité P(X=xi) est la fréquence relative de la classe correspondante. Cette probabilité

est non nulle car l’intervalle de classe Li est différent de 0.

Exemple: Parmi ces distributions figurent les distributions binomiales et de poisson.

Les distributions continues sont composées d’un nombre de classes infini. Dans ce cas, les ordonnées correspondent

à des densités de probabilités.

La conséquence est que la probabilité P(X=xi) est nulle car l’intervalle de classe Li tend vers 0.

Les distributions continues peuvent être modélisées par des fonctions [f(x)].

Exemple: Parmi ces distributions figurent les distributions normales, normales réduites et chi-deux.



51


Conditions d'application:

La distribution de probabilité d'une variable discrète (discontinue) de type binomiale fait intervenir n répétitions

indépendantes. Elle implique la présence de seulement deux types de résultats: A (succès) et A* (échec) avec une

probabilité de A égale à une constante .

Nomenclature

Soit X une variable binomiale. Elle se caractérise par n (le nombre de répétitions indépendantes) et (la probabilité de

A) et s'écrit:

X v.a. Bi (n; )

ou bien

X = Bi (n; )

Valeurs caractéristiques:

L'espérance de X est: E(X) = n.

La variance est VAR(X) = 2= n..(1-)

Exemples de variables aléatoires binomiales

Le nombre de fois que l'on fait 6 en lançant n fois un dé à 6 faces non pipé

Le nombre de drosophiles mâles dans des expériences portant sur n individus

Le nombre de chauves-souris Grand Rhinolophe de plus de 380 mm d'envergure parmi n individus capturés

52


Probabilité élémentaire

Pour X v.a.Bi (n; ), la probabilité élémentaire (1) s'écrit:

Combinaisons de résultats

Lorsque l'on décide de calculer la probabilité d'un évènement dans un échantillon (par exemple: déterminer la

probabilité d'avoir 4 filles dans une famille de 12 enfants), toutes les combinaisons de succession des naissances sont

possibles. Pour calculer le nombres de combinaisons, on emploi la formule combinatoire suivante:

Dans notre exemple, il existe 12!/(4!.(12-4)!) soit 495 possibilités de combinaisons de 4 filles dans une famille de 12

enfants.

Détermination de la probabilité P(X = xi)

La probabilité d'avoir 4 filles dans une famille de 12 enfants tient compte du nombre de combinaisons possibles

d'avoir 4 filles multiplié par la probabilité élémentaire. La formule est donc:

Dans une famille de 12 enfants, la probabilité d'avoir 4 filles [P(X = 4)] vaut:

P(X = 4) = 495.0,54.0,5

(12-4)= 0,12...

Exercice résolu

Soit une étude portant sur des familles de 10 enfants. On sait que la probabilité d'avoir une fille ou un garçon est

identique. Quelle est la probabilité pour que:

2 d'entre eux soient des filles (combien de combinaisons sont possibles?)

une famille comporte au minimum 2 filles

une famille ne comporte pas plus de 2 garçons

1. P(X = 2) = (10! / (2!*8!)) * 0,52 * (1-0,5)(10-2) = 0,0439 pour 45 combinaisons possibles

2. P(X ≥ 2) = 1- P(X<2) = 1 - P(X=0) - P(X=1) = 0,989, près de 99 chances sur 100 d’avoir au minimum 2 filles sur 10 enfants

3. P(X ≤ 2) = P(X=0) + P(X=1) + P(X=2) = 0,0546, près de 5 chances sur 100 de n’avoir pas plus de 2 garçons sur

10 enfants

53


Liste d'exercices:

1. Dans une population donnée, la probabilité de trouver le gène Z actif (responsable de la dégradation rapide des

graisses) est de 50%. Soit X le nombre de patients possédant ce gène Z actif. Une expérience a été menée sur un

échantillon de 25 personnes présentant des signes évidents d'obésité.

- Quelle est la probabilité de déceler la présence d'un gène inactif chez 10 personnes au moins dans cette expérience? solution: P(X ≥ 10) = 1-P(X≤9)=1 - 0.1148= 0.8852

- Quelle est la probabilité de trouver 5 personnes possédant ce gène Z actif? Combien de combinaisons sont

possibles?

solution: P(X=5) = 0,0015833 ; 53 130 combinaisons possibles

2. Un examen de statistique rencontre un taux d'échec de 35%. Quelle est la probabilité que, sur 10 étudiants

sélectionnés aléatoirement dans l'auditoire, il y ait:

- Plus de 2 étudiants en échec?

solution: P(X>2) = 0,7384

- Plus de 5 étudiants en échec?


3. Une rivière comporte une population d'écrevisses. Un écologiste réalise une expérience en disposant tous les 10

mètres une nasse à écrevisses. Il en place ainsi 25 et les numérote de 1 à 25. Sachant que pour cette rivière, il n'y a

que 15% de chances de relever une nasse vide:

- Déterminer la probabilité de relever 3 nasses vides?

solution: P(X=3) = 0,2174

- Si l'écologiste relève 2 nasses vides sur les 25, combien de combinaisons sont possibles?

solution : 300 combinaisons possibles

Conditions d'application :

La distribution de Poisson s'applique aux variables quantitatives discrètes définies par le nombre d'événements

observés dans le cas où ces événements sont rares et se produisent de manière indépendante et aléatoire dans le

temps ou dans l'espace. Cette distribution est caractérisée par le seul paramètre qui est précisément la moyenne de la distribution. La distribution de Poisson peut s'appliquer dans des problèmes de gestion (file d'attente, centrales

téléphoniques : événement aléatoire dans le temps), en microbiologie pour calculer par exemple la probabilité

d'observer un certain nombre de bactéries dans une boite de Pétri (événement aléatoire dans l'espace); elle est aussi

utilisée en modélisation des taux. Il s'agit donc de l'occurrence d'un événement élémentaire par unité de volume, de

surface ou de temps.

Contrairement à la Binomiale, il n'y a pas ici de notion d'échec ou de succès et il n'y a pas de contrainte supérieure

(le comptage est illimité).

Nomenclature :

Soit X une variable de Poisson. Elle se caractérise par (la moyenne de la distribution). Notons que la variable aléatoire de Poisson a toujours une distribution asymétrique.

X v.a. Po ()

où X = comptage dans l'intervalle

54


Valeurs caractéristiques :

= moyenne = = 2

ici, la moyenne = variance

E(x) = et var(x) =

Exemples de variables aléatoires de poisson

Nombre d'évènements par unités (volume, temps, surface)

Le nombre de poissons par mètre cube d'eau

Le nombre de drosophiles mâles rencontré pendant 10 minutes

Le nombre de désintégration d'une radio-isotope par minute

à ne pas confondre avec la binomiale. Exemple : le nombre de truites par 100 poissons pêchés dans une

rivière

Détermination de la probabilité P(X = xi)

La variable aléatoire de Poisson a comme fonction de densité de probabilité :

Condition: x ≥ 0

= le nombre moyen d'événements.

Exercice résolu

Un zoologiste étudie les passages d'une espèce de chauve-souris en lisière d'un espace boisé. Il effectue un comptage

d'individu et répertorie en moyenne 3 individus par 30 minutes.

1. Quelle est la probabilité qu'il en voit un septième en 1H?

X est une v.a. Poisson (6) car, en moyenne on a 3 individus détectés par demi heure, donc 6 individus sont détectés

par heure. Le 7éme individu aura donc une probabilité du ∆ entre P(X ≤ 7) et P(X ≤ 6).

P(X=7)= (table) = P(X ≤ 7) - P(X ≤ 6)= 0,137676978

2. Quelle est la probabilité qu'il détecte au plus 7 individus en 1H?

P(X ≤ 7) = P(X=0) + P(X=1) + P(X=2) + P(X=3) + P(X=4) + P(X=5) + P(X=6) + P(X=7) = 0,74397976

3. Quelle est la probabilité qu'il détecte entre 2 et 4 individus par 15 minutes?

X est une v.a. Po(1,5) car, en moyenne on a 3 individus détectés par demi heure, donc 1,5 individus sont détectés par

tranches de 15 minutes. P(2 ≤ X ≤ 4)=P(X ≤ 4) - P(X ≤ 1) = 0,981424064 - 0.5578 = 0.4236

Exercices

1. L'institut National de Statistiques s'est intéressé au nombre d’accidents sur la route et démontre qu'en moyenne,

on observe 2 accidents par quart d'heure en pleine heure de pointe.

- Quelle est la probabilité de n'observer aucun accident en un quart d'heure?


55


- Quelle est la probabilité d'observer plus de 3 accidents en un quart d'heure?


- Quelle est la probabilité de n'observer aucun accident en une heure?

solution: P(X = 0) = 0,000335463

- Quelle est la probabilité d'observer 4 accidents en une heure? solution: P(X = 4) = 0,0572

2. Selon les observations, en moyenne 3 personnes entrent dans la gare de Namur toutes les 5 minutes. Sachant cela,

- Quelle est la probabilité qu'aucun individu n'entre dans la gare durant les 5 minutes d'observation?


- Quelle est la probabilité que 4 personnes et plus entrent dans la gare de Namur durant ces 5 minutes?

solution: P(X ≥ 4) = 0,3528

3. Soit X le nombre de mollusques capturés par 10 dm2.

Supposons que la répartition des animaux est non agrégative et que la concentration moyenne est de 10 individus par

10 dm2. Quelle est la probabilité de capturer 15 individus par 10 dm2?

solution: P(X=15) = 0,0348

La variable aléatoire est la caractéristique numérique associée à une épreuve. Lorsque n, le nombre de réalisations de

l'épreuve tend vers l'infini, la variable aléatoire est caractérisée par une distribution de probabilité.

56


Population:

Dans une population de chauves-souris, la totalité des individus peuvent être rangés dans des classes d'intervalles

constants comme décrit précédemment dans les statistiques descriptives à une dimension.

La population est composée d'un grand nombre d'individus que l'on peut classer dans une infinité de classes

d'intervalles Li tendant vers 0. L'histogramme est alors remplacé par une courbe de Gauss-Laplace:

Pour des échantillons de taille finie, l'ordonnée de l'histogramme se représente par des densités de fréquences

relatives alors que pour la population on parle de densités de probabilités.

La distribution normale se caractérise par une équation faisant intervenir la moyenne µ et la variance . Par

convention, nous adopterons la convention d'écriture: X N(µ;2) . Dans la littérature, on peut aussi trouver: µ±

../uatp1/page0.html

../uatp1/page4.html

../uatp1/page4.html

57


Symétrie autour de la moyenne

La courbe de Gauss-Laplace est symétrique:

Lorsqu'on sélectionne l'intervalle compris entre + ou - 1 écart type autour de la moyenne µ, on isole 68% des

individus d'une population normale.

Lorsqu'on sélectionne l'intervalle compris entre + ou - 2 écarts types autour de la moyenne µ, on isole 95% des


Lorsqu'on sélectionne l'intervalle compris entre + ou - 3écarts-types autour de la moyenne µ, on isole 99% des


Modification de la variance

Lorsque la variance d'une population diminue, cela se traduit par une dispersion moins importante de la courbe autour de la moyenne. Concomitamment, le sommet de la courbe tend à s'élever afin de préserver une surface

totale sous la courbe égale à 1 (ou 100%).

58


Exemple:

Dans une population de chauves-souris de l'espèce X, l'envergure est une v.a. N(375; 225)

Dans une population de chauves-souris de l'espèce X femelles, l'envergure est une v.a. N(375; 121)

Dans une population de chauves-souris de l'espèce X femelles de 3 mois, l'envergure est une v.a. N(375; 49) etc.

Influence de la variance sur le sommet de la courbe de Gauss:

Si la variance diminue, le sommet de la courbe tend à augmenter.

En effet, dans l'équation de la courbe, l'écart type se trouve en dénominateur (voir terme entouré en rouge). Plus

l'écart type est petit, plus ce terme tend à devenir grand...

59


Cette distribution est une distribution normale réduite. Elle est utilisée dans le cas où la variance de la population

est inconnue. Elle s'écrit:

t v.a. N (0; 1)

La variance de la population étant inconnue, elle doit être substituée par la seule variance à notre disposition: la

variance de l'échantillon 2 La réduction de Student est communément employée pour convertir une moyenne expérimentale (ou l'écart entre

deux moyennes expérimentales) en une valeur t observée selon l'application du Théorème central limite. La réduction d'une variable X observée en variable t observée s'effectue comme suit:

Cette valeur de t observée tient compte de la taille de l' (ou des) échantillon(s).

La valeur observée est en suite comparée à une valeur seuil.

Cette valeur est obtenue pour un nombre de degré de liberté (n-1) [avec n la taille de l'échantillon] et de telle

manière que la probabilité de lui être inférieure vaut (1-alpha) [intervalle de confiance]: t(n-1)dl; (1-alpha).

La distribution t-Student est une distribution symétrique qui converge vers la distribution normale quand le nombre

d'observations augmente (Quand la taille de l'échantillon est supérieure à 30 on utilise souvent la loi normale).

Cette distribution a une moyenne égale à zéro, est biaisée à droite (skewness/asymétrie) et est plus aplati

(kurtosis/aplatissement) que la distribution normale. Le nombre de degrés de liberté est égal au nombre de variables

indépendantes.

L'image ci-dessous montre la distribution de la statistique t avec 10 degrés de liberté. La région à droite de la courbe représente la probabilité P(t > 1.812) = 0.05, et la région à gauche de la courbe représente la probabilité P(t < -1.812)

= 0.05

60


Remarque:

Lorsque la taille de l'échantillon tend vers l'infini (la globalité de la population est donc sélectionnée), la distribution

de t de Student est identique à la distribution normale réduite Z...

L'intervalle de confiance est donné par la formule ci-dessous :

Exemple de calcul d'intervalle de confiance:

Le fichier QI31 ci-dessous contient 31 valeur de QI. Si on veut un intervalle de confiance à 95%, on prend = 5%.

T/2 est donné à l'intersection de la colonne 1-t/2=0.975 et la ligne n-1=30, d'où t/2= 2.042272

61


62


Considérons maintenant le cas des envergures chez la chauve souris Grand Rhinolophe. Il s'agit d'une variable

aléatoire X suivant une distribution Normale :

X suit N (375; 15)

Nous avons capturé une chauve-souris Grand Rhinolophe de 399 mm.

63


Dans STATISTICA, le calculateur de probabilité donnera la probabilité recherchée pour une chauve souris de 399

mm dont la moyenne est 375 mm avec un écart type de 15 (0.945).

64


Remarque:

la probabilité P(X=399) concerne la probabilité qu'une chauve-souris ait par hasard une envergure exactement égale

à 399mm. Cette probabilité est quasiment nulle car je dois définir une zone sous la courbe de Gauss-Laplace dont la

base est 399,00. Or, lorsque l'intervalle tend vers 0, la surface décrite sous la courbe est extrêmement petite.

Je peux donc écrire, sans commettre d'erreur, P(X≤399) = P(X<399)

65


Dans STATISTICA, le calculateur de probabilité donnera la probabilité recherchée pour 5% des chauves souris et

correspondra à 399.67 mm

Conclusion: Si je capture une chauve-souris de taille supérieure à 399.6 mm, je la considérerai comme

exceptionnellement grande.

66


Distribution d’échantillonnage de la chauve souris

67


Les distributions discrètes binomiales et de Poisson sont utilisées pour modéliser, sans réaliser aucune observation

dans un échantillon (modéliser a priori), la distribution de probabilité de la variable X. Ces deux distributions se

représentent par des histogrammes et s’emploient dans les conditions particulières suivantes :

la distribution binomiale s’emploie dans le cas où on identifierait deux probabilités (succès A et échec A*).

La distribution de Poisson est utilisée lorsque l’on analyse des événements par unités de temps, de surface,

de poids, etc..

68


Ces deux distributions convergent vers une seule et même distribution lorsque :

X v.a. Bi (n;) avec n supérieur à 50 et proche de 0,5

X v.a. Po (µ) avec µ supérieur à 10

En effet, lorsque l’on se trouve dans les conditions extrêmes décrites ci-dessus, les distributions tendent à se

symétriser et le nombre de classes tend à augmenter.

Cette distribution devient continue et se modélise par une courbe de Gauss-Laplace : c’est la variable aléatoire

normale X v.a. N (µ ; 2). La plupart des variables biologiques obéissent à un tel modèle. Il existe une moyenne et une variance propre à chaque variable, compliquant de ce fait le calcul des probabilités sous la courbe.

Afin de faciliter ce calcul de probabilités, il est possible de créer une variable aléatoire normale dépourvue d’unités,

centrée sur 0 et dont la variabilité vaut 1 : c’est la variable aléatoire réduite Z [ Z v.a. N (0 ;1)]. Elle a été totalement

caractérisée et les probabilités calculées.

69


Une simple transformation d’une variable aléatoire normale X permet de convertir X en Z et donc d’évaluer

rapidement les probabilités correspondantes. La conversion se fait par l’intermédiaire de la formule suivante :

La distribution est aussi une distribution normale. Elle sera détaillée lorsque l'on aura parlé de la distribution

d'échantillonnage et du théorème central limite.

Dans certains contextes expérimentaux, l’expérimentateur est amené à comparer des fréquences observées (fobs)

dans l’échantillon par rapport aux fréquences attendues (fth).

Cette comparaison se fait par le calcul d’écarts quadratiques standardisés (chi-deux observé) : Pour chaque catégorie

(classe), il est possible de calculer des valeurs observées de chi-deux (fobs-fth)2/fth. Leur somme donne une valeur

expérimentale que l’on doit positionner sur la courbe théorique de chi-deux afin de déterminer la probabilité

d’obtenir une telle valeur sous la courbe.

En comparant cette formule de chi-deux avec celle de la conversion de X en Z réduit, on constate que la distribution de chi-deux est une distribution de Z2.

La réduction de X en Z s'obtient en effet au moyen d'un formulation similaire à (fobs-fth) /fth0,5).

L’aspect de cette distribution n’est pas une courbe de Gauss-Laplace symétrique et centrée en µ avec une variance

2. La distribution de chi-deux est une distribution asymétrique.

Une vache produit quotidiennement 36 ± 5 litres de lait.

Définissez la variable étudiée et ses paramètres.

Quelle est la probabilité qu'une vache prise au hasard ait une production laitière inférieure à 30 L/jour ?

Quelle est la probabilité que la production laitière soit comprise entre :

70


1. la moyenne plus ou moins 1 écart -type ?

2. la moyenne plus ou moins 2 écarts -types ?

La population comprend 5 % de vaches qui produisent moins que la normale et 5 % de vaches qui produisent

plus que la normale. A partir de quelle production journalière peut-on considérer qu'une vache est mauvaise

productrice ou excellente productrice ?

Quelle est la probabilité qu'une productrice normale produise moins de 36 L/jour ? Quelle est la probabilité qu'une productrice normale ait une production inférieure à 30 L/jour ?

Quelle est la probabilité qu'une vache ayant une production inférieure à 30 L/jour soit normale?

Quelle est la probabilité qu'une vache prise au hasard ait une production laitière normale et supérieure à 36

L/jour ?

Solutions de l’exercice

Quelle est la probabilité qu'une vache prise au hasard ait une production laitière inférieure à 30 L/jour ?

P(Z(30-36)/5) P(Z-1.2) = 0.11>

a) la moyenne plus ou moins 1 écart-type ? P(Z1) -P(Z-1)=0,841345-0,158655=0,6826>

b) la moyenne plus ou moins 2 écarts-types ? P(Z2) -P(Z-2)=0,977250 -0,022750 =0,954>

P(Zz)=0.95 => z= 1.6452 (tables); 1,64*5+36=44,2

P(Zz)=0.05 => z=-1.6452; -1,64*5+36=27,8

Quelle est la probabilité qu'une productrice normale produise moins de 36 L/jour ?

P(A/B)= P(AB)/P(B)à P{(X36)/ (27,8X44.2)} = P(27,8X36)/P(278X44.2) =0.45/0.90=0.5

71


Quelle est la probabilité qu'une productrice normale ait une production inférieure à 30 L/jour ?

P(A/B)= P(AB)/P(B) à

P{(X30)/ (27,8X44.2)}= P(27,8X30)/P(27,8X44.2)= (0,115070-0,05)/0.90= 0,06507/0,90 =

0,0723

Quelle est la probabilité qu'une vache ayant une production inférieure à 30 L/jour soit normale? P(A/B)= P(AB)/P(B)

P{(27,8X44.2)/(X30)} = P(27,8X30)/P(X30) =(0,115070-0,05)/0,115070 = 0,06507/0,115=0,565

Quelle est la probabilité qu'une vache prise au hasard ait une production laitière normale et supérieure à 36

L/jour ? P(AB)=P(B).P(A/B)

P(27,8X44,2).P{(X36)/(27,8X44,2)}=0,9*0,5=0,45

72


Conditions d'application :

La loi est une loi dérivée de la loi normale. Très importante pour ses applications en statistiques, elle est utilisée pour tester des statistiques basées sur le calcul de la somme des carrés des écarts.

Les distributions suivent toujours une distribution en cloche caractérisée par une dissymétrie à gauche. La forme de la courbe est déterminée par le nombre de degrés de liberté et du nombre de catégories dans lesquelles les

fréquences sont dénombrées. En effet, plus le nombre de degrés de liberté augmente, plus tend vers une variable

aléatoire Normale et donc adopte une courbe en cloche.

La distribution 2 est une distribution asymétrique qui prend seulement des valeurs positives. Elle est le résultat

d'une somme des carrés de variables normales standardisées indépendantes. Elle a une moyenne égale au

nombre de degrés de liberté, , et converge vers une loi normale quand augmente le nombre d'observations.

L'image ci-dessous montre la distribution de la statistique avec = 10%. La région à droite de la courbe représente

la probabilité P(2> 15.99) = 0.10

73


Nomenclature :

Soit la distribution de S = X12 + X2

2 + ... + Xn2 qui est la somme des carrés des Xi.

Soit cette distribution est appelée 2 à n degrés de liberté, que l'on note (n)

Valeurs caractéristiques :

La seule valeur caractéristique de la distribution est n, le nombre de degrés de liberté où n représente le nombre

de variables aléatoires indépendantes chacune distribuée selon la loi normale centrée réduite.

Donc, pour tout i , Xi ~ vaN(0 ; 1)

Types de tests

Dans le cadre de ce cours de statistiques élémentaires, nous ne nous préoccuperons que de deux types de tests

différents:

But du test:

Ce test s'applique lorsqu'on souhaite démontrer l'indépendance ou la dépendance de deux critères dans une

expérience.

Soit plusieurs échantillons pouvant être classés selon un certain nombre de colonnes (critère 1) et de lignes (critère 2).

Exemple et pose des hypothèses:

Ce test s'applique lorsqu'on souhaite démontrer l'indépendance ou la dépendance de deux critères dans une

expérience. Soit plusieurs échantillons pouvant être classés selon un certain nombre de colonnes (critère 1) et de

lignes (critère 2). Supposons la situation suivante: Au cours d'une enquête, on interroge 1 369 mères d'enfants nés

avec une malformation et 2 968 mères d'enfants nés sans malformation.

On constate que 35,06% des mères d'enfants nés avec malformations et 33,02% des mères d'enfants nés sans

malformations fumaient. Effectuez l'analyse statistique complète de ses résultats. Hypothèse initiale (hypothèse nulle H0):

Le fait d'être mal formé à la naissance ne dépend pas du fait que la mère soit fumeuse ou non. Les deux critères sont

indépendants.

Hypothèse alternative (H1):

Les 2 critères "enfants mal formés ou non" et "avoir une mère fumeuse ou non" sont dépendants (liés). Grâce aux

données fournies par l'énoncé, il est possible de réaliser le tableau suivant: Dans ce tableau, on retrouve les

fréquences expérimentales.

page2.html

74


Dans un second temps, il est possible de calculer des valeurs "théoriques" en se servant des valeurs expérimentales.

La manière d'y parvenir est décrite dans le tableau suivant:

Pour déterminer le chi-deux observé pour chaque échantillon de l'expérience, on applique la formule suivante:

Chi deux= (fréquence observée - fréquence théorique)² / fréquence théorique.

On obtient alors le tableau suivant:

Pour tirer une conclusion sur la dépendance (H1) ou l'indépendance (H0), on somme tous les observés:

Chi deux total = 0.795 + 0.366 + 0.403 + 0.186 = 1.751

Et on compare ensuite cette valeur globale à une valeur des tables.

Cette table est une table à double entrée:

* L'entrée en ligne nécessite de connaître les degrés de libertés de l'expérience. Il se calcule de la manière suivante:

(k-1).(r-1) avec k le nombre de colonnes et r le nombre de lignes. * L'entrée en colonne est déterminée par l'expérimentateur. C'est en effet lui qui détermine l'intervalle de confiance

du test.

Conclusion de l'exemple:

Dans l'exemple, il n'y a que 2 lignes pour deux colonnes, soit (2-1)*(2-1) degrés de liberté. Supposons que l'on prenne un intervalle de confiance à 95% (alpha 5%), la valeur de chi-deux des tables est:

Chi-deux 1dl;0,95= 3,84

Le test est unilatéral à droite puisque le calcul du chi-deux observé génère uniquement des valeurs positives.

Si le chi-deux observé est plus grand que le chi-deux théorique, alors on rejète l'hypothèse nulle (RH0).

Dans ce cas, on a un chi-deux observé de1,72. Cette valeur est inférieure à 3,84 (la valeur des tables). On accepte

H0. Cela implique que les mères fumeuses n'ont pas plus ou moins de chance de donner naissance à un enfant

anormal qu'une mère non fumeuse. Les deux critères sont indépendants, je peux l'affirmer avec seulement 5

chances sur 100 de me tromper.

Les conditions d’utilisation de cette table : tester si les données sont distribuées de manière aléatoire.

75


But du test:

Ce test s'applique lorsqu'on possède une hypothèse qui prédit les fréquences, les pourcentages ou les proportions. Le

but est de vérifier si les fréquences observées s'accordent avec les prévisions du modèle.

En règle générale, les données se représentent sous la forme d'un tableau de distribution de fréquences composé de k

colonnes (ex: k échantillons à comparer) comparées à r lignes (r catégories ou classes répertoriées par échantillon).

Exemple 1 et pose des hypothèses:

Le gène codant pour la couleur des yeux comprend plusieurs variants (allèles). Chaque allèle donne une couleur

d'yeux bien déterminée. Les proportions des deux allèles est de 75% de dominant (allèle yeux bruns) pour 25% de

récessifs (allèle yeux bleus).

Hypothèse initiale (hypothèse nulle H0): L'allèle "yeux bruns" est dominant par rapport à l'allèle "yeux bleus"

selon un modèle 25% "yeux bleus" contre 75% "yeux bruns"

Hypothèse alternative (H1): Le modèle de proportions 25% "yeux bleus" contre 75% "yeux bruns" n'est pas

valable

Méthode:

Un expérimentateur choisit 100 individus au hasard dans une population et trouve 32 individus aux yeux bleus

contre 68 aux yeux bruns. Il dresse le tableau suivant et calcule les fréquences théorique sur base de la taille de

l'échantillon mis à sa disposition et des proportions décrite par le modèle en H0:

Le calcul de chi-deux observé s'effectue en employant la formule:

comme suit:

Il faut comparer cette valeur observée à une valeur de chi-deux théorique de référence (un seuil de signification)

dans des tables de référence. Cette table est une table à double entrée:

page3.html

page3.html

76


L'entrée en ligne nécessite de connaître les degrés de libertés de l'expérience. Il se calcule de la manière

suivante: (k-1) avec k le nombre de colonnes (dans le test de conformité il n'y a qu'une ligne). Dans un cas

simple comme celui présenté ici où il existe plusieurs classes (colonnes) mais une seule ligne, les degrés de

liberté à employer sont (k-1).

L'entrée en colonne est déterminée par l'expérimentateur. C'est en effet lui qui détermine l'intervalle de

confiance du test.

Dans l'exemple, il n'y a qu'une ligne pour deux colonnes, soit 1 degré de liberté. Supposons que l'on prenne un

intervalle de confiance à 95% (alpha 5%), la valeur de chi-deux des tables est:

Le test est unilatéral à droite puisque le calcul du chi-deux observé génère uniquement des valeurs positives. Si le chi-deux observé est plus grand que le chi-deux théorique, alors on rejète l'hypothèse nulle (RH0). Dans ce cas,

on considère que le modèle 25% "yeux bleus" contre 75% "yeux bruns" (H0) n'est pas valide.

Conclusion de l'exemple:

Le modèle décrit dans l'hypothèse nulle (H0) est valable. On accepte H0. L'échantillon, et a fortiori la population

d'où il provient obéit bien à une répartition 25% (allèle "yeux bleus") contre 75% (allèle "yeux bruns").

Comme le 2 mesure l'écart entre la distribution observée et la distribution théorique, nous devrions rejeter H0 si

la valeur de 2 est trop grande. Une valeur de 2 sera considérée comme étant trop grande si elle dépasse un seuil

appelé point critique. Ce point critique dépend de deux facteurs: le nombre de classes et les chances (ou la

probabilité) de rejeter une hypothèse H0 lorsqu'en réalité elle est vraie. Éclaircissons ces deux points.

Premièrement, le 2 contient comme information la somme des écarts entre les effectifs observés et théoriques;

plus le nombre de classes est élevé, plus la valeur de 2 sera grande (même si H0 est vraie). Formellement, le 2

dépend d'un paramètre appelé le degré de liberté , (est la lettre grecque nu) défini par l’expression:

= (n. de classes) - 1.

Deuxièmement, même lorsque H0 est vraie, le hasard peut faire que l'on obtienne une valeur de 2 assez grande,

mais cela se produira rarement. On convient donc de fixer a priori un niveau de probabilité assez faible (en pratique

77


on utilise 10%, 5% ou 1%) et cette probabilité est notée signification); le point critique est alors obtenu en trouvant la valeur pour laquelle le 2 n'a qu'une probabilité de dépasser le point critique si H0 est vraie. Dans notre exemple, le degré de liberté est = 4-1 = 3. Fixons

arbitrairement = 5%; la table indique que le point critique est 7,8147. Concrètement cela signifie: si l’hypothèse

H0 est vraie, il y a une probabilité de 5% que la mesure 2 soit supérieure à 7,8147. La figure qui suit illustre la distribution du chi-deux avec 3 degrés de liberté. La surface totale sous la courbe (cette courbe est en fait la densité de probabilité) est égale à 1 ou 100%.

La surface sous la courbe à droite du point critique est égale à 0,05 ou 5%. Comme cette probabilité (5%) est

relativement faible, nous convenons de la règle suivante pour tirer une conclusion:

Règle de décision : H0 sera rejetée si le 2 est supérieur à 7,8147. Or, on a obtenu 2 = 0,47 ; on ne peut donc rejeter l’hypothèse H0. On a de bonnes raisons de croire que la théorie

de Mendel soit vraie.

Exemple 2 et pose des hypothèses:

Une étude a été effectuée en vue de déterminer la distribution des diamètres de câbles fabriqués dans une usine. Le

tableau de fréquences de la distribution observée est le suivant :

Hypothèse initiale (hypothèse nulle H0): Nous posons donc comme hypothèse nulle que la distribution des

fréquences observées peut être approchée par une loi normale.

Hypothèse alternative (H1): La distribution des fréquences observées ne suit pas une loi normale.

78


Méthode:

La répartition des observations en classes est déjà donnée dans le tableau précédent. Si la variable aléatoire suit une

loi normale standard. La moyenne et l’écart type de la population étant inconnus, nous les estimons par la moyenne

et l’écart type s de l’échantillon.

= (19.75*5 + 19.85*12 + 19.95*35 + 20.05*42 + 20.15*28 + 20.25*14 + 20.35*4)/140 = 2806.4/140 = 20.05

s = 0.134

En choisissant un seuil de 5%, nous pouvons trouver la valeur du 2 dans la table offerte par STATISTICA à 6 degrés

de liberté (12.6). Comme la valeur calculée est inférieure à la valeur de la table, nous ne rejetons pas l’hypothèse nulle et concluons qu’à un seuil de 5%, la différence entre la distribution observée et la loi normale n’est pas significative. Ici, il y a plus de 98% de chances d’avoir une distribution normale…

79


Principe:

Ce test de comparaison de deux variances a pour objectif de vérifier si les deux variances de deux populations sont

égales ou non.

Supposons que 12 soit plus petite que 2

2

La statistique à utiliser pour éprouver H0 est:

Il s'agit d'une variable aléatoire F de Fisher-Snedecor à k et r degrés de liberté où:

k = (n1-1) degrés de liberté

r = (n2-1) degrés de liberté

La conclusion du test est: si Fobs est plus grand que le F des tables, alors il y a RH0. En d'autres termes, les deux

variances comparées sont différentes.

Applications:

Cette technique sera utilisée pour comparer les variances de deux échantillons de taille différente. Dans ce cas, si

l'on rejète H0, il sera "impossible" de comparer les moyennes de ces deux échantillons car on aura démontré

l'hétérogénéité des variances des échantillons de l'expérience.

Lors de la comparaison des moyennes par la technique de l’ANOVA, la comparaison d'une variance expliquée —

c'est-à-dire un carré moyen CM—(factoriel, linéaire, non linéaire, lié au facteur A d'une ANOVA2, etc.) par rapport

à une variance non expliquée (CMrésiduel ou CMR) aboutit à un rapport du type:

Qui est aussi une valeur F de Fisher-Snedecor pour k et r degrés de liberté tels que:

k = nombre de degrés de liberté du niveau expliqué analysé (na-1 avec na le nombre d'échantillons

comparés)

r = N-na (avec N le nombre total d'individus de l'expérience et na le nombre d'échantillons comparés) Comme précédemment, dès que le Fobs est supérieur au F des tables, il y a RH0. En d'autre terme, le niveau de

variabilité expliqué étudié a une influence (significative, très significative ou très hautement significative) dans

l'expérience.

80


Tout expérimentateur est amené à se poser la question suivante:

"La mesure du paramètre étudié pour un individu donné ou la moyenne d'un échantillon d'individus donnés est-elle

normale pour une population?"

Seuil de significativité :

L'expérimentateur est amené à établir de manière arbitraire, une limite afin de séparer ce qu'il considère comme des

valeurs normales (la zone de confiance) et des valeurs anormales (la zone d'erreur de type I). Cette limite s'appelle le SEUIL DE SIGNIFICATIVITÉ et est désigné par la lettre représentant le paramètre étudié X (ou sa

réduction Z ou t) avec, en indice, le "nom" de la zone située à gauche de ce seuil (dans l'exemple ci-dessous: Z (1-

alpha))

Pour répondre à cette question, l'expérimentateur va devoir définir ARBITRAIREMENT une limite (une frontière)

entre "la normalité" (en gris clair) et "l'anormalité" (en gris foncé).

81


L'expérimentateur peut ainsi définir 3 types de limites arbitraires:

On appelle intervalle de confiance tout intervalle construit autour d’un estimateur ayant une certaine probabilité de

contenir la valeur du paramètre correspondant de la population.

On a étudié les divers estimateurs ponctuels et nous avons conclu que la moyenne est un bon estimateur de pour les populations approximativement normales. Bien qu’en moyenne, la moyenne calculée coïncide avec l’objectif

visé, l’observation de la moyenne calculée d’un échantillon donné est presque toujours un peu plus grande ou un peu

plus petite que .. Par conséquent si l’on exige que notre inférence présente un degré de confiance convenable, on ne

peut affirmer que est exactement égale à la moyenne observée. On doit plutôt construire un intervalle de confiance de la forme :

Moyenne calculée + marge (ou erreur) d’échantillonnage

L’importance de cette marge d’erreur d’échantillonnage est généralement de l’ordre de 95% ; en d’autres termes, on

utilisera une technique qui nous donnera lorsqu’on tire un grand nombre d’échantillons, un intervalle correct 19 fois

sur 20.

Pour obtenir un seuil de confiance de 95%, on choisit dans le cas d’une distribution normale (n>120), l’étendue la plus faible contenant exactement une probabilité de 95%. Manifestement, c’est la partie centrale qui exclut une

probabilité de 2 fois ½ % à chaque queue de la distribution.

82


D’après la table Z, la valeur Z0.025 correspondante est de 1.96 fois l’écart type de l’échantillon :

Probabilité ( - Z0.025 *EcT < Moyenne calculée < + Z0.025 *EcT) = 95%

Ce qui représente exactement la manière algébrique de dire : « il y a 95% de chances que la moyenne calculée

aléatoire tombe entre - 1.96*EcT et + 1.96*EcT.

Il faut être prudent dans l’interprétation de l’intervalle de confiance. Si, à un niveau de confiance de 95%, nous

trouvons un intervalle de confiance pour une moyenne dont les bornes inférieures et supérieures sont respectivement k1 et k2, nous pourrons conclure :

« Sur la base de l’échantillon étudié, nous pouvons affirmer qu’il est probable que la moyenne de la population se

trouve dans l’intervalle que nous avons établi ».

En revanche, il ne serait pas exact de conclure qu’il y a 95% de chances pour la moyenne de la population se trouve

dans l'intervalle. En effet, étant une constante ainsi que les bornes de l’intervalle, l’intervalle k1 et k2 contient ou

ne contient pas Cependant, si le statisticien a la possibilité de répéter plusieurs fois l’expérience qui consiste à

tirer un échantillon de la population, 95% des intervalles obtenus contiendront la vraie valeur de .

Si l’échantillon est petit, on doit élargir l’intervalle de confiance de 95%. On remplace à cet effet, la valeur Z0.025 de

la distribution normale (n>120) par une valeur plus élevée t0.025 prise dans une distribution similaire appelée

distribution du t de Student.

Probabilité ( - t0.025 *ErrT < Moyenne calculée < + t0.025 *ErrT) = 95%

La zone correspondant à l'erreur de type I (en gris foncé) :

Elle constitue une zone de faible probabilité. En générale, elle équivaut à 5%, 1% voire 0,1% par rapport à la surface

totale sous la courbe de Gauss.

Pour qu'une mesure ou une moyenne se retrouve dans cette zone, il faut que sa valeur soit très éloignée du centre de

la distribution (c'est-à-dire µ ou 0 si on travaille avec des paramètres réduits) au point de dépasser la valeur seuil.

Si tel est le cas, il y a beaucoup de chances que cette mesure (ou cette moyenne) n'ait pas été obtenue par hasard. Il est fort probable que la mesure (ou la moyenne) provienne d'une population où une telle valeur est plus probable

(population 1). Il a cependant alpha % de chances de se tromper. Cet alpha est très faible et donc le risque encouru

est mineur.

83


La zone de confiance ou intervalle de confiance (en gris foncé):

Une valeur comprise dans cet intervalle de confiance est considérée par l'expérimentateur comme une valeur tout à

fait normale pour la population d'origine centrée sur la moyenne µ.

Cette zone représente 95%, 99% voir 99,9% de la surface de la courbe de Gauss. La distance qui sépare µ de la

valeur observée n'est pas suffisante que pour être considérée comme anormale (car inférieure à la distance séparant

µ du seuil de signification). Dans cet intervalle, l'expérimentateur doit admettre que la mesure (ou la moyenne) est conforme à la population

centrée sur µ. Il n'a pas réussi à démontrer le contraire. Ce n'est pas pour autant qu'il n'y a pas d'effet mais la valeur

obtenue n'est malheureusement pas située en dehors des limites de l'intervalle de confiance pour affirmer la présence

d'une population centrée sur µ1.

1. Savoir d'où on part et ce qu'on souhaite démontrer:

Un expérimentateur veut mesurer un poisson de rivière de 3 ans et le comparer à la population des poissons de

rivière de 3 ans centrée sur µ. Son point de départ est de dire que l'individu est normal pour cette population : c'est

l'hypothèse nulle H0. Ce qu'il veut démontrer est SOIT:

que le poisson mesuré est plus petit que la normale et appartient à une population centrée sur µ1 plus petite

que µ (1).

que le poisson mesuré est plus grand que la normale et appartient à une population centrée sur µ1 plus grande

que µ (2)

que le poisson mesuré est ou plus grand ou plus petit et donc DIFFÉRENT de la normale et appartient à une

population centrée sur µ1 plus différent de µ (3).

H0: µ =µ1 H1:

µ1 inférieure à µ (1)

µ1 supérieure à µ (2)

µ1 différent de µ (3)

84


2. Convertir la valeur observée en une valeur réduite:

L'expérimentateur a obtenu une taille pour le poisson capturé (ou une taille moyenne s'il en a capturé plusieurs).

Pour faciliter sa prise de décision (Accepter le fait que ce poisson est normale [AH0] ou non [RH0]) il va réduire la valeur observée en une valeur réduite (z réduit, t réduit, ...)

85


Pourquoi réduire?

Chaque v.a.N possèdent ses propres moyennes (µ) et variances (2). Déterminer des probabilités sous ce type de courbes de Gauss (à chaque cas particulier est associé une courbe de moyenne et de variance particulière) est très

compliqué à mettre en œuvre.

Heureusement, toutes les vaN peuvent se réduire à une seule et même distribution normale Z. La distribution réduite

de Z est centrée sur une moyenne de 0 et possède une variance de 1. La table de probabilité de Z a été calculée une

bonne fois pour toute et dispense des probabilités du type:

Comment réduire?

Toutes les distributions normales peuvent être ramenées à une seule distribution obéissant aussi à la loi normale. Cette distribution est obtenue par la réduction de la variable étudiée X en une variable réduite appelée Z.

Cette distribution est centrée sur la moyenne 0 et possède une variance 1 et est symbolisée de la façon suivante:

86


Convertir une valeur expérimentale (Xobservé) en une valeur réduite (Zobservé)

Xobservé = 134 et X v.a.N (120;196)

alors Zobservé = (134-120)/(racine carrée de 196) = 14/14 = 1

Convertir une valeur réduite (Zobservé) en une valeur expérimentale (Xobservé)

Zobservé = 2,5 et X v.a.N (120;196)

alors Xobservé = 2,5.( 196) + 120=155

3. Rechercher dans les tables réduites correspondantes la ou les valeurs seuil:

En fonction du alpha déterminé par l'expérimentateur, il va définir un seuil de signification particulier.

Exemple: Soit une différence à mettre en évidence pour un alpha de 5%(test bidirectionnel: d'où il y a 2 seuils à

trouver Z0,025 et Z0,975) .

Dans la table, on localise la valeur la plus proche de 0,975 afin de trouver z0,975. Le z trouvé dans les tables de 1,96.

Par symétrie, on peut déduire le z0,025: -1,96

87


Conclusion du test:

En comparant la valeur réduite des observations (z observé) avec la valeur seuil trouvée dans les tables,

l'expérimentateur peut tirer une conclusion à son test.

Exemple: Soit une valeur de z observée de -1,84 pour un test bidirectionnel avec un alpha de 5%. Dans ce cas, -1,84

est compris entre -1,96 et 1,96.

La conclusion au test est la suivante: La mesure observée est normale et obéit aux conditions de l'hypothèse nulle

(AH0).

Si la valeur observée n'était pas comprise entre -1,96 et -1,96, l'expérimentateur aurait pu conclure que le mesure

observée était différente de la normale et ne répondait plus aux conditions de l'hypothèse alternative (RH0).

Remarque:

Dans le cas d'un test bidirectionnel, RH0 signifie bien sûr la mise en évidence d'une différence de la valeur observée

par rapport à la normale MAIS on peut aller plus loin. En effet, pour un même alpha MAIS pour un test

unidirectionnel, on aura aussi un RH0. L'expérimentateur pour donc dire qu'il y a une différence de la mesure mais

aussi que celle-ci est plus grande ou plus petite que la normale.

88


ATTENTION: La conclusion inverse n'est pas vrai. Ce n'est pas parce que on observe un RH0 dans un test

unidirectionnel avec un alpha déterminé qu'il y a RH0 pour un test bidirectionnel avec le même alpha.

Exemple:

Un écologiste étudie une population de chauves-souris. D'après la littérature, il sait que l'envergure de ces

chiroptères obéit à une distribution normale dont la moyenne est de 375 mm pour une variance de 225 mm2.

Cet écologiste capture un individu dont la taille est de 350 mm. Cet individu est-il considéré comme normal ou bien

est-il significativement différent de la normale?

Les hypothèses:

H0: µ1 = µ (l'individu a une taille normale)

H1: µ1 différent de µ (l'individu a une taille significativement différente de la normale)

Attention: "'significativement" permet de connaître l'importance de l'intervalle de confiance. Il est de 95%, par

conséquent le alpha est de 5%

Convertir la valeur observée en une valeur réduite:

X observé = 350 mm

z observé = (350-375)/15 (ou 15 est l'écart type de la population)

z observé = -1,66666667

Trouver le seuil de signification:

On sait que le alpha est de 5%. Le test est bidirectionnel (voir H1). Le seuil de signification est donc z alpha/2 et z

(1-alpha/2)

Dans la table de Z, on ne peut trouver que des probabilités de ce type: P(Z<z) ou z est positif. La borne supérieure de

l'intervalle de confiance vaut 1,96. En utilisant la propriété de symétrie (pour trouver la borne inférieure de

l'intervalle de confiance), le seuil de signification du test vaut -1,96.

89


Conclusion:

Lors d'un test d'hypothèses, l'expérimentateur tente de montrer que la moyenne observée de l'échantillon étudié n'est

pas normale pour la population qui lui sert de référence. Pour réaliser son test, il doit donc décomposer

arbitrairement la courbe de Gauss représentant la population de référence en 2 parties distinctes:

alpha (ou erreur de type I): la probabilité de considérer la moyenne observée comme anormale

1-alpha (ou confiance): la probabilité de considérer la moyenne observée comme normale

Si la moyenne observée est comprise dans la zone alpha, l'expérimentateur peut tirer une conclusion:

Voir un effet qui n'existe pas:

90


TOUS LES INDIVIDUS SOUS CETTE COURBE SONT NORMAUX

Si la moyenne observée est comprise dans la zone alpha, cela peut signifier que l'échantillon d'où provient la valeur

observée est constitué fortuitement d'individus normaux dont la taille est exceptionnelle. La moyenne ainsi obtenue

est peu probable mais toujours possible sous la courbe. Dans ce cas, l'expérimentateur va conclure erronément que

l'échantillon n'appartient pas à la population centrée sur µ.

Voir un effet qui existe:

Si la moyenne observée est comprise dans la zone alpha, cela peut signifier aussi que l'échantillon d'où provient la

valeur observée est constitué d'individus appartenant à une population de moyenne (µ1) distincte de µ (en gris foncé: cas où il existe une population centrée sur une moyenne µ1 plus grande que µ).

91


Cette courbe "avec effet" (dans ce cas, il s'agit de la courbe la plus à droite) inconnue du statisticien mais supposée

par son hypothèse alternative.

Dans le cas présent: H1: µ1 supérieur à µ, ce qui peut se traduire par la possible existence d'un accroissement du

paramètre étudié, déplaçant ainsi la courbe à droite. La moyenne de la courbe "avec effet" est centrée sur µ1.

Le seuil de signification définit sous la courbe "avec effet" deux zones distinctes:

92


L'objectif de l'expérimentateur sera de mettre toutes les chances de son côté afin de voir le plus souvent possible un effet si cet effet existe réellement. Il va devoir jouer sur certains paramètres pour diminuer le recouvrement des deux

courbes.

En d'autre terme, l'expérimentateur devra augmenter la puissance (1-ß) le plus possible (approximativement 99%) et

donc diminuer la probabilité de passer à côté d'un effet qui existe réellement (l'erreur de type II ß) à environ 1%

SANS MODIFIER LA CONFIANCE du test.

93


Supposons qu'un laboratoire pharmaceutique demande à un de ses employés de montrer qu'une molécule X

provoque une augmentation de la pression sanguine chez le rat.

L'employé doit mettre toutes les chances de son côté pour cet accroissement de la pression sanguine le plus souvent possible. Pour cela, il peut contrôler les paramètres suivants:

94


Modifier µ1:

En augmentant la dose du médicament X jusqu'à une concentration n'entraînant pas trop de décès chez les rats,

l'expérimentateur peut contraindre la courbe "avec effet" à se déplacer vers la droite.

La moyenne µ1 s'éloigne de plus en plus de la moyenne µ de référence jusqu'à une valeur optimale (si la dose de

médicament est plus importante, elle provoque la mort des rats).

Il en résulte une diminution de la superposition des deux courbes et donc une augmentation de la puissance.

exemple: µ = 120 mm de mercure; µ1 avant optimisation de la dose = 122 mm de Hg; µ1 après optimisation de la

dose = 124 mm de Hg

Modifier la variabilité de la population étudiée:

Dans notre exemple, un expérimentateur novice risque de prendre n'importe quel rat provenant de l'animalerie de

son laboratoire. Il risque de prendre des rats dont les caractéristiques sont très différentes.

La population des rats de laboratoires comportent des rats mâles et femelles, des jeunes et des vieux, des stressés et

des non stressés. Tous ces facteurs entraînent une augmentation significative de la variabilité.

En ciblant la population (par exemple: la population des rats mâles de 3 mois non stressés) on va diminuer sa

variabilité. L'implication graphique de cette diminution de la variabilité se traduit par un resserrement de la courbe

de Gauss autour de la moyenne.

95


Il en résulte une diminution de la superposition des deux courbes et donc une augmentation de la puissance.

exemple: variance pour tous les rats = 225 [mm de Hg]2; variance pour des rats mâles de 3 mois non stressés = 25

[mm de Hg]2

Modifier la taille de l'échantillon:

La modification de la taille de l'échantillon a une effet similaire à celui observé lorsque l'expérimentateur réduit la

variabilité de la population.

Le théorème de la limite centrale nous apprend que la distribution d'échantillonnage des moyennes obéit à une

distribution normale centrée sur µ et dont la variance est VARx/n.

Pour ne pas devoir augmenter de manière exagérée la taille de l'échantillon à traiter, il est recommandé d'optimiser

préalablement la distance entre µ et µ1 (augmenter la dose) et de réduire au maximum la variabilité de la population

étudié AVANT d'augmenter la taille de l'échantillon. Supposons le test d'hypothèses suivant:

H0: µ = µ1 = 120

H1: µ1 supérieur à µ = 120

Confiance 95%

96


NB: Si l'expérimentateur veut connaître la taille optimale de son échantillon pour avoir une puissance optimale de

99% il peut utiliser la formule suivante:

Augmenter alpha:

Un expérimentateur doit essayer de diminuer au maximum le recouvrement entre la courbe de référence et

l'hypothétique courbe "avec un effet" (si elle existe).

On serait tenté d'augmenter la surface alpha afin d'accroître la puissance (1-ß). Cette pratique n'est cependant pas

recommandée car l'existence de la courbe "avec un effet" n'est jamais certaine. C'est l'expérimentateur qui émet

l'hypothèse de son existence (H1) et qui va tenter de la démontrer.

L'expérimentateur délimite artificiellement un intervalle de confiance (1-alpha) et une erreur de type I (alpha).

Soit il n'y a pas d'effet à voir:

97


Lorsqu'il n'y a aucun effet à voir, cela implique que la courbe "avec effet" n'existe pas! En augmentant alpha,

l'expérimentateur risque de rejeter plus souvent l'hypothèse nulle et donc voir un effet qui n'existe pas.

Soit il y a bien un effet à voir

En conclusion:

Si la valeur observée se retrouve dans la zone de rejet de l'hypothèse nulle, cela veut dire:

qu'elle appartient à la population de référence mais, par hasard, il a obtenu une valeur observée très éloignée

de la moyenne de la population de référence. La probabilité de l'obtenir dans cette population de référence est

très faible mais pas impossible.

Qu'elle est trop éloignée de la moyenne de la population de référence. Elle n'a pas été obtenue par hasard et,

par conséquent, la courbe "avec effet" à toutes les chances d'exister.

98


Remarques:

99


Les tests d'hypothèses vont permettre aux statisticiens de comparer des échantillons entre eux ou encore de comparer

un échantillon avec une population de référence...

Tests paramétriques et non paramétriques

On distingue deux grandes catégories de tests : les tests paramétriques et les tests non paramétriques. Les premiers exigent que l’on spécifie la forme de la distribution de la population mère étudiée. Il peut s’agir, par

exemple, d’une distribution suivant la loi normale, ce qui est le cas général lorsque l’on a affaire à de grands

échantillons. En général, ces tests ne peuvent s’appliquer qu’aux variables numériques.

Les tests non paramétriques s’appliquent quant à eux, à la fois aux variables numériques et qualitatives. Ces tests ne

font pas référence à une répartition particulière de la population mère. Ils peuvent donc s’appliquer à des petits

échantillons.

S’ils sont théoriquement moins puissants que les tests paramétriques, on peut quand même considérer que les tests

non paramétriques sont plus adaptés aux problématiques d’enquêtes. Des études ont d’ailleurs prouvé que leur

exactitude sur des grands échantillons n’est que légèrement inférieure à celle des tests paramétriques, alors qu’ils

sont infiniment plus exacts sur des petits échantillons.

Tests non paramétriques de comparaisons d’échantillons

Ces tests ont les mêmes objectifs que leurs homologues paramétriques, en étant applicables dans le cas général.

Le test U de Mann-Whitney s’apparente au test de comparaison des moyennes sur deux échantillons indépendants.

Comme ce dernier, il s’applique essentiellement sur une variable numérique(ou qualitative ordinale).

Le test des rangs signés de Wilcoxon s’apparente également au test de comparaison des moyennes mais, cette fois,

sur des échantillons appariés. Là aussi, les deux variables à tester doivent être numériques (ou assimilées).

Ces tests effectuent des classements des réponses et font intervenir dans leurs calculs, le rang associé.

Ainsi le test de Mann-Whitney commence par mettre ensemble les réponses des 2 groupes X et Y et à les classer. Le

calcul porte ensuite sur le nombre de fois où un individu du groupe X précède un individu du groupe Y. La somme

de ces éléments permet d’obtenir la valeur du test à comparer à la valeur critique dans la table de Mann-Whitney.

Il existe un autre test non paramétrique permettant de comparer plus de 2 échantillons et qui est en fait la généralisation du test de Mann-Whitney. Il s’agit du test de Kruskal-Wallis.

Dans le cadre de ces travaux pratiques, nous envisagerons trois types de tests d'hypothèses.

test de comparaison d'une moyenne d'un échantillon par rapport à une population

test de comparaison de 2 échantillons tirés de 2 populations indépendantes

test de comparaison de 2 échantillons tirés de 2 populations pairées ou appariées.

Quelque soit le type de tests (voir ci-dessus), il faut toujours considérer a priori que la (les) moyenne(s) comparées

proviennent d’une seule population de moyenne Mx. Il s'agit de l'hypothèse de départ appelée "hypothèse nulle"

(H0) qui pourra s'écrire comme suit:

L'expérimentateur doit démontrer que la (les) moyenne(s) ne provien(nen)t pas de la même population, mais qu'une

des population possède une moyenne plus grande, plus petite ou tout simplement différente par rapport à l'autre

population. Il s'agit de l'"hypothèse alternative" (H1) qui pourra s'écrire comme suit:

100


Réduction des moyennes observées:

La (les) moyenne(s) mx obtenue(s) pour (les) l'échantillon(s) peu(ven)t être réduite(s) en une valeur observée (z

observée ou t observée). Celle-ci peut ensuite être comparée à une valeur seuil (z table ou t table).

Recherche d'une limite arbitraire, une valeur seuil:

La valeur seuil va déterminer sous la courbe de Gauss réduite des zones distinctes: une zone répondant aux

exigences de l'hypothèse nulle H0 et une zone répondant aux exigences de l'hypothèse alternative H1. En fonction

H1et de l'erreur de type I que vous souhaitez accorder au test (alpha = 5% ou 1% ou 0,1%), vous devrez choisir dans

les tables de Z ou de T de student une valeur seuil.

Comparer la valeur réduite observée à la valeur seuil trouvée dans les tables:

Si l'hypothèse alternative H1 est "M1 plus grand que M2"

Lorsque la valeur observée (Z observée ou t observée) est plus grande que la valeur théorique (Z(1-alpha) ou t(1-

alpha)), alors H1 est respectée (AH1)et H0 rejetée (RH0).

Dans le cas d'un rejet de H0 (RH0), l'expérimentateur aura réussi a démontrer que les moyennes comparées sont

telles que M1 est plus grande que M2. Comme la valeur de alpha choisie par l'expérimentateur est très faible

(maximum 5%), un RH0 signifie que la distance qui sépare les moyennes comparées est trop élevée pour être simplement due au hasard. Le risque de se tromper lorsque RH0 est donc très faible. Un RH0 permet à

l'expérimentateur d'être quasiment certain que M1 est bien plus grand que M2 avec un risque de se tromper

équivalent à alpha.

Dans le cas d'une acceptation de H0 (AH0), l'expérimentateur est obligé de considérer que les moyennes

comparées sont identiques. Cette AH0 doit être considérée par l'expérimentateur comme une "mise en échec". A la

différence de la "quasi certitude" au sujet de la conclusion tirée quand RH0, dans le cas d'une AH0, rien ne permet à

l'expérimentateur d'être certain que les moyennes comparées sont effectivement identiques.

101


Si l'hypothèse alternative H1 est "M1 plus petit que M2"

Lorsque la valeur observée (Z observée ou t observée) est plus petite que la valeur théorique (Z(alpha) ou t(alpha)), alors H1 est respectée (AH1)et H0 rejetée (RH0).

Dans le cas d'un rejet de H0 (RH0), l'expérimentateur a la "quasi certitude" que M1 est plus petit que M2 avec une

probabilité de se tromper de alpha (maximum 5%).

Dans le cas d'une acceptation de H0 (AH0), l'expérimentateur n'a pas réussi à démontrer que M1est plus petite que

M2. Le doute est toujours possible.

102


Si l'hypothèse alternative H1 est "M1 différent de M2"

Lorsque la valeur observée (Z observée ou t observée) est SOIT plus petite que la valeur théorique (Z(alpha/2) ou

t(alpha/2)), SOIT plus grande que la valeur théorique (Z(1-alpha/2) ou t(1-alpha/2)), alors H1 est respectée (AH1)et

H0 rejetée (RH0). Dans le cas d'un rejet de H0 (RH0), l'expérimentateur a la "quasi certitude" que M1 différent de M2 avec une

probabilité de se tromper de alpha (maximum 5%).

Dans le cas d'une acceptation de H0 (AH0), l'expérimentateur n'a pas réussi à démontrer que M1est différent de M2.

Le doute est toujours possible.

103


Un échantillon d'individus est prélevé et sa moyenne est calculée (mx). Cet échantillon provient-il d'une population

1 déterminée de moyenne M1 (ou µ1) ou bien appartient-il à une seconde population appelée population 2 de

moyenne M2? Autrement dit, cet échantillon est-il conforme à la population d'origine?

Hypothèse nulle H0:

104


Hypothèse alternative H1:

Cas 1: la variance de la population de référence est connue:

La réduction de ma moyenne de l'échantillon peut se faire par le calcul d'une valeur de Z observé dont la formule est

la suivante:

Où mx est la moyenne de l'échantillon; Mx est la moyenne de la population de référence; VARx est la variance de la

population de référence; n est la taille de l'échantillon.

Trouvez dans les tables de Z, la ou les valeurs seuil en tenant compte de alpha et de H1.

105


Cas 2: la variance de la population de référence est inconnue:

Dans ce cas, il n'est plus possible de calculer directement une valeur de z observée car il nous manque la valeur de la

variance de la population de référence VARx.

Cependant, il est toujours possible d'adapter cette formule en remplaçant VARx par une approximation de celle-ci.

Cette approximation est donnée par l'estimateur de la variance de la population varx. La variable réduite ainsi

obtenue n'est plus une variable z observée mais une variable t observée.

Où mx est la moyenne de l'échantillon; Mx est la moyenne de la population de référence; varx est l'estimateur de la

variance de la population (autrement dit la SCE/(n-1) qui est une valeur propre a l'échantillon); n est la taille de

l'échantillon.

Ensuite, il reste à trouver dans les tables de t de Student (l'aspect de la courbe est aussi une courbe de Gauss), la ou

les valeurs seuil en tenant compte de alpha et de H1. La valeur de t de Student nécessite aussi la détermination d'un

certain nombre de degrés de liberté. Pour trouver la ou les valeurs seuil, il faut donc rechercher:

tseuil;(n-1) degrés de liberté

Où "seuil" représente H1 (seuil peut être (1-alpha) ou alpha ou (1-alpha/2) ou (alpha/2); n est la taille de l'échantillon

106


Un expérimentateur désire comparer les moyennes (m1 et m2) de deux échantillons composés d'individus distincts:

les individus de l'échantillon 1 ne sont pas les mêmes que ceux de l'échantillon 2! Les deux échantillons sont

indépendants.

Les deux échantillons proviennent-ils d'une seule population de moyenne Mx ou bien ou bien les deux échantillons proviennent-ils de deux populations distinctes de moyennes M1 et M2?


107



Cas 1: la variance des populations 1 et 2 (VAR1 et VAR2) sont connues:

La réduction de ma moyenne de l'échantillon peut se faire par le calcul d'une valeur de Z observé dont la formule est

la suivante:

Où m1 et m2 sont les moyennes des 2 échantillons; VAR1 et VAR2 sont les variances des 2 populations 1 et 2; n1 et n2 sont les tailles respectives des échantillons 1 et 2.

Trouvez dans les tables de Z, la ou les valeurs seuil en tenant compte de alpha et de H1.

108


Cas 2: la variance de la population de référence est inconnue:

Dans ce cas, il n'est plus possible de calculer directement une valeur de z observée car il nous manque les valeurs de variances des populations de référence VAR1 et VAR2.

Pour pouvoir comparer les moyennes des 2 échantillons, l'expérimentateur va devoir remplacer les variances des

deux populations indépendantes par les variances estimées des 2 échantillons, var1 et var2.

Test sur l'homogénéité des variances des échantillons comparés: Une question préalable doit être posée: La variabilité des 2 échantillons est-elle comparable, homogène? En d'autre

terme, il faut vérifier l'égalité des variances des 2 population étudiées, c'est-à-dire l'homoscédasticité.

En effet, comme l'expérimentateur ne connaît rien des variances théoriques des 2 populations, il va devoir adapter la

formule de Z observé et en faire une formule de t observé (voir point suivant).

Dans cette formule, il remplacera VAR1 et VAR2 par une seule variance appelée "variance résiduelle" sr2 obtenue à

partir des variances des deux échantillons var1 et var2.

Réalisation du test:

Pour réaliser ce test, l'expérimentateur va mettre en rapport la plus grande des 2 variances d'échantillon sur la plus

petite. Ce rapport est une valeur appelée F observée que l'on peut comparer avec une valeur F des tables de Fisher.

Fobservé = var1 / var2 si var 1plus grande que var2

L'expérimentateur va ensuite comparer cette valeur à une valeur théorique des tables de F de Fisher-Snedecor.

L'hypothèse alternative H1induit la réalisation d'un test bidirectionnel. En général, ce test s'effectue avec une erreur

de type I (alpha) de 5%.

Il existe plusieurs tables de F de Fisher. L'expérimentateur doit sélectionner la table où (1-alpha/2) est 0,975.

Les premiers degrés de liberté (n1-1)dl correspondent à ceux de l'échantillon dont la variance est la plus grande. Ils

permettre de rentrer en tête de colonne dans la table.

Les seconds (n2-1)dl correspondent à ceux de l'échantillon dont la variance est la plus petite. Ils permettent de

rentrer en tête de colonne dans la table.

109


F tables;(n1-1) dl; (n2-1)dl; 0,975

Test de comparaison des moyennes des populations d'où proviennent les 2 échantillons:

Les hypothèses H0 et H1 sont celles décrites ci-dessus.

L'expérimentateur va ensuite calculer une valeur de t observé:

110


Où m1 et m2 sont les moyennes des 2 échantillons; sr2 est la variance résiduelle ; n1 et n2 sont les tailles respectives

des échantillons 1 et 2, var1 et var2 sont la variances respectives des deux échantillons 1 et 2.

Ensuite, il reste à trouver dans les tables de t de Student (l'aspect de la courbe est aussi une courbe de Gauss), la ou

les valeurs seuil en tenant compte de alpha et de H1. La valeur de t de Student nécessite aussi la détermination d'un

certain nombre de degrés de liberté. Pour trouver la ou les valeurs seuil, il fat donc rechercher:

tseuil;(n1+n2-2) degrés de liberté

Où "seuil" représente H1 (seuil peut être (1-alpha) ou alpha ou (1-alpha/2) ou (alpha/2); n est la taille de

l'échantillon.

111


112


Un expérimentateur dispose d'une série d'observations associées par paires ou par couples. Par exemple, une

expérience à été menée sur des rats. Ils ont été pesés avant et après un traitement hautement énergétique. A chaque

individu de l'expérience est associé une pesée avant et après le traitement.

Pour traiter ce genre de test, l'expérimentateur doit considérer la différence de chaque couple de données. Toutes ces

différences forment un échantillon dont on peut calculer la moyenne mD et la variance varD.

L'expérimentateur doit ensuite comparer la moyenne mD des échantillons pairés avec la moyenne des différences

attendues MD. Son point de départ est de considérer que la moyenne de différences mD de son échantillon provient d'une

population de différences de moyenne MD égale à delta (exemple: le traitement hautement énergétique ne provoque

aucune modification de poids chez les rats, d’où delta vaut 0). L'expérimentateur a pour objectif de montrer que la

moyenne des différences mD provient d'une population de moyennes de différences MD est différente de delta

(exemple: le traitement hautement énergétique provoque une modification de poids chez les rats, d'où delta devrait

être plus grand que 0).


NB: En général, delta vaut 0 (exemple: mesure du même paramètre sur un même échantillon mais avec deux techniques différentes). Delta peut être différent de 0, par exemple dans le cas où l'on teste, dans 10 nichées de

souris, le poids d'un mâle et d'une femelle de chaque nichée.

113



La réduction de la moyenne des différences peut se faire par le calcul d'une valeur de t observé dont la formule est la

suivante:

Où mD est la moyenne des différences des données pairées; varD est la variance des différences des données

pairées; n est le nombre de couples de données.

Trouvez dans les tables de t, la ou les valeurs seuil en tenant compte de alpha pour un test bidirectionnel. Le nombre de degré de liberté a employer est (n-1) dl où n est le nombre de couples de données.

t tables, (n-1) dl; (1-alpha/2)

114


115


L'analyse de la variance à un critère de classification à pour but la comparaison des moyennes de nA populations, à

partir d'échantillons aléatoires et indépendants prélevés dans chacune d'elles. Ces populations sont en général des

variantes (ou niveaux na) d'un facteur contrôlé (ou facteur A) de variation.

le paramètre étudié suit une distribution normale

les variances des populations sont toutes égales (HOMOSCEDASTICITE)

les échantillons sont prélevés aléatoirement et indépendamment dans les populations

Déterminer si les échantillons varient de la même manière

Si nous démontrons l'homogénéité des variances, alors, nous pouvons comparer les moyennes de ces

échantillons

CAS 1: comparer 2 échantillons de tailles inégales

Vous devez comparer le rapport suivant :

Par rapport à une valeur des tables de F de Fisher-Snedecor telle que

F table pour (n de l'échantillon dont la variance est la plus grande-1)dl; (n de l'échantillon dont la variance est la plus

petite-1)dl; 0,975

Conclusions

Si Fobservé est plus grand que le F des tables, alors cela signifie que les variances des 2 échantillons sont trop différentes. Il est impossible de comparer des échantillons qui ne varient pas de la même manière.

Si Fobservé est plus petit que le F des tables, nous n'avons pas pu mettre en évidence de différences significatives

des variances. Par conséquent, il est possible de comparer les moyennes de tels échantillons

CAS 2: comparer 2 échantillons ou plus de tailles identiques

Vous devez comparer le rapport suivant:

116


Par rapport à une valeur des tables de H de Hartley telle que

H table pour k dl; r dl; 0,95

k est le nombre de groupes comparés

r=ni-1; c’est-à-dire le nombre de d.l .des variances étudiées

Conclusions

Si Hobservé est plus grand que le H des tables, alors cela signifie que les variances des 2 échantillons sont trop

différentes. Il est impossible de comparer des échantillons qui ne varient pas de la même manière. Si Hobservé est plus petit que le H des tables, nous n'avons pas pu mettre en évidence de différences significatives

des variances. Par conséquent, il est possible de comparer les moyennes de tels échantillons

Les hypothèses

Le calcul:

SCET =somme des carrés des écarts (individus de l'expérience)

SCEF =ni * somme des carrés des écarts (moyenne des échantillons)

SCER =(ni-1)*somme(toutes les variances)

Convention d'écriture:

N est le nombre totale d'observations tout échantillon confondu

na est le nombre d'échantillons comparés

ni est le nombre d'individus par échantillons

Remarques:

SCER =SCET-SCEF (premier niveau de vérification du tableau d'ANOVA)

le CMR est aussi égal à la moyenne des variances (second niveau de vérification du tableau d'ANOVA)

Seuil de signification:

Dans les tables, il faut aller rechercher:

F dl factoriel; dl résiduel; (1-alpha)

117


Le test d'ANOVA est unilatéral (voir Dagnelie, Théorie et Méthodes statistiques, vol. 2).

Conclusion du test:

Lorsque le Fobservé est supérieur ou égal au F des tables, il y a rejet de l'hypothèse nulle H0. Cela implique que l'on

a réussi à mettre en évidence la présence d'au moins une moyenne différente des autres.

On ne peut cependant pas dire avec précision la ou lesquelles des moyennes est ou sont différente(s) des autres:

S (ou *) signifie RH0 pour un intervalle de confiance de 95%

SS (ou **) signifie RH0 pour un intervalle de confiance de 99%

SSS (ou ***) signifie RH0 pour un intervalle de confiance de 99,9%

Pour pouvoir tirer de telles conclusions, il est nécessaire d'effectuer des analyses complémentaires telles que les

contrastes de Scheffé ou les contrastes orthogonaux (si ces derniers sont justifiés).

118


119


120


Contrastes de SCHEFFE:

Cette méthode de comparaison des moyennes est peu sensible à la non normalité et à l'inégalité des variances

comparées. Elle est applicable au cas où les effectifs des échantillons ne sont pas tous égaux (Scheffé 1953).

Il s'agit d'un test de comparaison de moyennes 2 à 2. Soit les deux moyennes testées sont identiques (H0) soit elles

sont différentes (H1).

Ce test permet de comparer la différence entre 2 moyennes par rapport à une valeur seuil appelée PPDS: Plus

Petite Différence Significative

Chaque différence entre deux moyennes est comparée à la PPDS.

Si la différence est plus grand que la PPDS, on considère que l'écart séparant les deux échantillons est significatif ou

hautement significatif suivant le alpha utilisé pour déterminer la valeur de la PPDS.

Calculer la PPDS (Plus Petite Différence Significative)

Déterminer la valeur de F avec un alpha de 5% ou 1%

Conclusion du test de SCHEFFE:

Lorsqu'une des différences est plus grande que la PPDS, cela signifie que les 2 moyennes comparées sont différentes

de façon (hautement) significative

121


Exemple de conclusion du test de SCHEFFE:

Les contrastes de SCHEFFE mettent en évidence une différence significative entre les échantillons 1 et 2 ainsi

qu'une différence très hautement significative entre les échantillons 2 et 3. Les échantillons 1 et 3 possèdent des

moyennes comparables.

122


Définition

Une expérience fait parfois intervenir une série statistique double c'est-à-dire 2 séries d'observations associées X et

Y. Lorsqu'au moins une des 2 variables est aléatoire, il est possible de considérer ces 2 variables simultanément au

moyen d'une régression.

Cas étudié dans le cadre de ce cours:

Dans le cadre de ce cours, seul le cas où X est une variable contrôlée (non aléatoire) sera considéré.

Conditions d'utilisation de la régression dans l'ANOVA

C1: un raison logique permet de considérer que Y est une fonction de X, mais pas le contraire

Y=f(X)

C2: les valeurs prises par la variable X sont fixées sans erreur par l'expérimentateur

C3: Pour chaque valeur Xi de X, il existe une population de valeurs Yi distribuée normalement, de moyenne µi et de

variance 2 homogène c'est-à-dire constante quelle que soit la valeur de X

Yi v.a.N(µi; 2)

C4: Les moyennes µi correspondant aux valeurs Xi sont situées sur une droite dont les paramètres sont ß0 et ß1 telle

que

µi=ß0+ß1Xi

avec ß0 l'ordonnée à l'origine et ß1 la pente

C5: Les variables aléatoires Yi sont indépendantes

123


Exemple de résolution d'une régression dans une ANOVA

Supposons que l'on réalise une expérience portant sur l'étude de la pression sanguine (Y variable aléatoire) en

fonction de l'âge (X variable contrôlée). Lorsque l'âge des patients augmente, va-t-on observer un accroissement de

leur pression sanguine? Cet accroissement répond-il à un modèle linéaire?

Ce que nous savons déjà:

Une analyse descriptive simple nous a permis les conclusions suivantes:

Le coefficient de corrélation r vaut environ 0,94. L'interprétation donnée alors était la suivante: "Si la relation est

linéaire, elle est croissante. De plus, le r est très proche de 1, ce qui signifie que le nuage de point est très concentrer

autour de la droite de régression (si elle existe). Il est cependant impossible de tirer une conclusion ferme et

définitive sur la linéarité de la relation tant que le graphique n'a pas été réalisé."

Le coefficient de détermination r² vaut environ 0,88. L'interprétation donnée était la suivante: "Si la relation est

linéaire, le modèle linéaire est expliqué à 88%. Les 12% restants représentent les erreurs de mesures et toutes les

imprécisions engendrées lors de l'expérience. Comme au point précédant, sans la visualisation graphique de

l'expérience, il est impossible d'affirmer avec certitude que la relation est bien linéaire." Grâce à la représentation graphique (diagramme de dispersion), nous pouvons confirmer qu'il est bien possible de

faire passer au mieux une droite par le nuage des points.

Une analyse de ce type reste assez simpliste et il n'est pas possible de savoir à coup sûr si la relation est bien

linéaire!

Ce que nous apporte une analyse de la régression dans l'ANOVA

L'analyse de la régression dans l'ANOVA est une méthode de calcul qui permet de découper la variabilité expliquée

(factorielle) en deux parties:

La première partie contient la variabilité expliquée réellement par le modèle linéaire (SCEreg).

La seconde partie contient la variabilité expliquée par la non linéarité de la relation (SCEnl)

SCEF=SCEreg + SCEnl

Le principe de la régression dans l'ANOVA est de tester ces deux parties de la variabilité factorielle (variabilité due

à la régression et variabilité non linéaire) par rapport à la variabilité résiduelle.

124


Si le F observé pour la régression est supérieur au F des tables pour 1 dl (correspondant aux degrés de libertés de la

variabilité due à la régression) et (N-na) dl (correspondant aux degrés de libertés de la variabilité résiduelle), cela

signifie que le modèle linéaire est celui qui s'adapte le mieux à l'étude de la relation entre les deux paramètres

étudiés (X et Y c'est-à-dire l'âge et la pression sanguine).

Si le F observé pour l'aspect non linéaire est supérieur au F des tables pour (na-2)dl (correspondant aux degrés de

libertés de la variabilité due à l'aspect non linéaire de la variabilité) et N-na) dl (correspondant aux degrés de libertés

de la variabilité résiduelle), cela signifie qu'il y a "trop d'imprécisions" sur les valeurs de Y. Dans ce cas, même si la

conclusion sur la régression conduit à un rejet de H0, on considérera que le modèle linéaire ne peut être appliqué.

125


L'ANOVA 1 aléatoire s'applique aux échantillonnages à 2 niveaux.

Dans ce type d'expérience, nous ne pouvons pas approfondir l'analyse par l'étude des contrastes. Par contre, il est

possible de déterminer le nombre de réplications et d'individus optimaux.

Exemple:

Pour étudier le poids des hommes, on effectue 4 pesées sur 5 hommes pris au hasard dans la population.

premier niveau d'échantillonnage : le poids est une variable qui suit une distribution normale au sein de la

population masculine.

deuxième niveau d'échantillonnage : les 4 mesures (4 réplications) prises sur un même individu ne seront pas

exactement les mêmes. Nous observons donc un deuxième niveau de variabilité.

Variance totale = variances des réplications + variance des hommes

126


Calculs:

Les calculs de l'ANOVA aléatoire sont les mêmes que lors de la réalisation de l’ANOVA fixe.

Estimation des variances:

variance du premier niveau d'échantillonnage:

2a = ( E (CMfacto) - E (CMrési) ) / n

variance du deuxième niveau d'échantillonnage: 2 = E (CMrési)

Intervalle de confiance:

+/- t1-/2 * racine ( (2 / nan) + (2

a/na) )

Nombre d'unités au premier niveau d'échantillonnage:

soit le nombre d'individus nécessaires

na = 16 * ( ( 2/n ) + 2

a ) / 2

127


Si on étudie le taux de cholestérol dans le sang , le but est d'analyser les fluctuations de ce taux (notre mesure, notre

variable) en fonction:

du "régime alimentaire" (1critère de classification)

du "régime alimentaire" tout en gardant les mêmes "individus" d'un régime à l'autre (2 critères de

classification)

du "régime alimentaire", du "nombre de jours de traitement" avec un régime alimentaire, tout en gardant les

mêmes "individus" d'un régime à l'autre (3critères de classification).

L'expérimentateur constitue plusieurs échantillons contenant des individus pris au hasard dans une population

déterminée. L'objectif de l'expérience est de mettre en évidence des différences de taux de cholestérol en fonction du

"régime alimentaire". Le critère de classification étudié est unique: il s'agit de "régime alimentaire".

128


L'expérimentateur constitue plusieurs échantillons à partir des 5 mêmes individus d'une population déterminée.

Chaque individu passe successivement par 3 régimes alimentaires. pour chaque régime, une mesure de taux de

cholestérol est réalisée.

L'objectif de l'expérience est de mettre en évidence des différences de taux de cholestérol en fonction du "régime

alimentaire". Dans ce cas, il y a deux critères de classification: le critère "régime alimentaire" et le critère

"individu" puisque les mesures sont effectuées sur les mêmes individus (1, 2, 3, 4 et 5) pour tous les échantillons.

129


L'expérimentateur constitue plusieurs échantillons à partir des 5 mêmes individus d'une population déterminée.

Chaque individu suit un régime déterminé pendant trois jours avant de passer au régime suivant et ainsi de suite.

L'objectif de l'expérience est de mettre en évidence des différences de taux de cholestérol en fonction du "régime

alimentaire" et de la "durée du régime déterminé". Dans ce cas, il y a trois critères de classification: le critère "régime alimentaire", le critère "individu" et le critère "jour".

130


L'expérience présentée ci-dessus consiste à étudier le taux de cholestérol en fonction d'un régime clairement

identifié (régime à base de viande; à base d'aliments à haute teneur en graisses animales; à base de légumes). Le

critère "régime" est fixé (connu): le critère est dit "FIXE".

131


L'expérience présentée ci-dessus consiste à étudier le taux de cholestérol en fonction d'un régime (1, 2 ou 3) non précisé . Le critère "régime" n'est pas fixé (inconnu): il est "ALEATOIRE".

132


L'expérience présentée ci-dessus consiste à étudier le taux de cholestérol de façon à réaliser 3 prélèvements par jour

sur les mêmes individus pendant trois jours. Les individus sont croisés aux jours.

133


L'expérience présentée ci-dessus consiste à étudier le taux de cholestérol de façon à réaliser 3 prélèvements par jour

sur des individus différents de jour en jour. Les individus sont hiérarchisés aux jours.

Mise à niveau Statistique - statsoft.fr · Mise à Niveau Statistique avec Des logiciels...

Documents

Transcript of Mise à niveau Statistique - statsoft.fr · Mise à Niveau Statistique avec Des logiciels...