Test du caractère aléatoire d’une distribution, test de la normalité d’une population
Consigne
Comment justifier la normalité d’une population puis le caractère aléatoire et simple d'une
distribution ?
Résolution
1. Test d'hypothèse sur le caractère aléatoire d’un échantillon
L'échantillonnage ou le sondage est l'ensemble des opérations qui ont pour objet de prélever
dans une population les individus qui doivent constituer un échantillon. Un échantillon est dit
aléatoire lorsque tous les individus de la population ont une même probabilité de faire partie
de l'échantillon. Il est simple lorsque les individus qui doivent former l'échantillon sont tous
prélevés indépendamment l'un de l'autre. Différents procédés permettent d'assurer le caractère
aléatoire des échantillons, le plus courant est l'emploi de tables de nombres aléatoires, que l'on
trouve dans les manuels de statistiques (Dagnélie1969, table B, p358-359). Par exemple, si on
veut mesurer la pollution d'un étang dont on possède le plan, on établit un quadrillage en
utilisant du papier millimétré et on détermine, à l'aide d'une table de nombres aléatoires, les
coordonnées du nombre voulu de points de prélèvements d'eau. Ces tables sont constituées de
listes de nombres telles que tous les chiffres soient présents dans l'ensemble un même nombre
de fois. Pour assurer le caractère aléatoire du prélèvement d'un échantillon, on associe chaque
individu de la population à un ou plusieurs groupes de chiffres. On lit ensuite les nombres de
la table, à partir d'un point arbitraire, et on inclut dans l'échantillon les individus dont le
numéro apparaît. (Ramousse et al 1996).
Mode d’utilisation d’une table de nombres au hasard
Selon les auteurs Pasquier A. ; Dagnelie P. et Baillargeon G., les méthodes différent.
Toutefois la règle générale est la suivante :
On choisit, au hasard, un point d’entrée dans la table, puis on choisit un sens de
parcours de la table pour prélever les chiffres et on respecte ce sens de parcours.
Le sens de parcours peut être :
Soit à partir du point d’entrée, lire les nombres de la gauche vers la droite et du haut
vers le bas.
Soit à partir du point d’entrée, lire les nombres vers le haut et de droite à gauche.
Soit à partir du point d’entrée, lire les nombres en diagonale, vers le bas et de gauche à
droite.
1
Test du caractère aléatoire d’une distribution, test de la normalité d’une population
Exemple d’utilisation:
Nous prendrons un extrait des tables de Kendall et Babington Smith.
TABLE DE KENDALL ET BABINGTON SMITH
1°) On veut prélever, de façon aléatoire, 8 individus dans une population de
850 individus.
Il s'agit donc ici de 8 tirages successifs au hasard sans remise. La première opération consiste
à numéroter les 850 individus de 1 à 850. Ensuite, on prend une table de nombres au hasard et
on décide de la façon de l’utiliser.
Première méthode
Par exemple :
Nous partons de la ligne 10 et de la colonne 6 (point d'entrée dans la table). Nous allons de la
gauche vers la droite sur la table. Nous prenons les chiffres par "paquets" de 3. Dans la table,
on lit les nombres suivants : 393, 560, 298, 189, 107, 797, 885, 133, 037, 129, 318, 983, 401...
On ne retient dans cette liste que les 8 premiers nombres inférieurs ou égaux à 850. Les 8
individus constituant l’échantillon sont donc les individus respectivement numérotés : 393,
560, 298, 189, 107, 797, 133 et 037.
En effet, le nombre 885 n’est pas retenu, car il ne correspond à aucun individu.
Deuxième méthode
Par exemple :
Nous partons de la ligne 1 et de la colonne 31.Nous parcourons la table de haut en bas et de la
gauche vers la droite. Nous prélevons les nombres par "paquets" de 5 (la table s’y prête).
Nous ne conservons dans chaque "paquet" que les trois premiers chiffres.
Dans la table, on lit :
2
Test du caractère aléatoire d’une distribution, test de la normalité d’une population
Dans ce cas, les individus prélevés sont les individus respectivement numérotés : 789, 575,
676, 98, 422, 652, 344, 371 (855 et 949 étant supérieurs à 850 ne sont pas retenus).
Remarques :
Si le numéro 789, par exemple, était sorti une deuxième fois, comme il s'agissait d'un tirage
"sans remise", nous n'aurions pas tenu compte du deuxième 789. Si on avait du prélever 10
individus, les individus prélevés seraient les individus respectivement numéros : 789, 575,
676, 98, 422, 652, 344, 371, 470, 603. Le nombre 470 provient de 47008 et 603 de 60307.
2. Test de l'hypothèse de normalité
Les paragraphes suivants montrent des méthodes permettant de vérifier la normalité d'un
échantillon.
2.1. Test de Shapiro-Wilk
Très populaire, le test de Shapiro-Wilk est basé sur la statistique W. En comparaison des
autres tests, il est particulièrement puissant pour les petits effectifs (n ≤ 50). La statistique du
test s'écrit :
Où
_ x(i) correspond à la série des données triées ;
_ [n/2] est la partie entière du rapport n/2 ;
_ ai sont des constantes générées à partir de la moyenne et de la matrice de variance co-
variance des quantiles d'un échantillon de taille n suivant la loi normale. Ces constantes sont
fournies dans des tables spécifiques.
La statistique W peut donc être interprétée comme le coefficient de détermination (le carré du
coefficient de corrélation) entre la série des quantiles générées à partir de la loi normale et les
quantiles empiriques obtenues à partir des données. Plus W est élevé, plus la compatibilité
avec la loi normale est crédible.
La région critique, rejet de la normalité, s'écrit :
R.C. : W < Wcrit
3
Test du caractère aléatoire d’une distribution, test de la normalité d’une population
Les valeurs seuils Wcrit pour différents risques α et effectifs n sont lues dans la table de
Shapiro-Wilk.
2.1.1. Le test de Ryan-Joiner
Les coefficients ci (donnés sous forme de tables fournies entre autres par Shapiro et Wilk 1965)
sont comparables aux quantiles normaux ui ou ui' relatifs aux diagrammes de probabilités. La
statistique du test de Ryan-Joiner est donc le coefficient de corrélation linéaire entre les
données et les scores normaux. C’est le rapport entre la covariance des deux variables et le
produit de leurs écarts-types respectifs, soit :
La formule de calcul de la statistique, ρth, de Ryan-Joiner dépend de la taille n de
l’échantillon considéré et est donnée ici pour un niveau de confiance de 0,95 :
ρth = 1,0063 (0,1288/ ) (0,6118/ ) (1,3505/ ) n n n2 si n < 50
ρth = 0,9995 (0,0178/ ) (1,7726/ ) (3,5582/ ) n n n1,5 si n > 50.
L’hypothèse de normalité est rejetée lorsque ρobs est inférieur à ρth. (Kakaï R., al ;
2006)
.
2.2. Le test de Kolmogorov-Smirnov
Dans le cas général, le test de Kolmogorov-Smirnov vise à déterminer si les fonctions de
répartition de deux populations sont identiques. Il est utilisé lorsqu'on est en présence de deux
échantillons provenant de deux populations pouvant être différentes. Le test de Kolmogorov-
Smirnov a l'avantage de prendre en considération les fonctions de répartitions dans leur
ensemble.
Exigences :
les deux échantillons sont des échantillons aléatoires tirés de leur population
respective.
il y a indépendance mutuelle entre les deux échantillons.
4
Test du caractère aléatoire d’une distribution, test de la normalité d’une population
les variables aléatoires doivent être continues, sinon le test est moins précis. Si ces
variables sont qualitatives, il vaut mieux utiliser le test de chi-carré.
Pour toute série d’observations X1,...,Xn de même fonction de distribution, une fonction de
distribution empirique f(x) peut être définie.
Sous l’hypothèse nulle, f(x) suit une distribution normale. Supposons que les observations
soient classées par ordre croissant tel que : X(1), ... ,X(n). La fonction de distribution
empirique fn(x) est définie de la manière suivante :
Notons que fn(x) est une fonction par intervalles qui prend un pas de hauteur 1/n à chaque
observation. Cette fonction estime la valeur de la distribution f(x). A chaque valeur x, fn(x) est
la proportion des observations inférieures ou égales à x, alors que f(x) est la probabilité pour
qu’une observation soit inférieure ou égale à x. La statistique EDF (Empirical Distribution
Function) mesure la dissimilarité entre fn(x) et f(x). De façon générale, les tests EDF utilisent
la fonction de répartition U = F(x). Si f(X) est la fonction de distribution de X, la variable
aléatoire U est uniformément distribuée entre 0 et 1. Soient n observations X(1), ..., X(n), les
valeurs U(i) = f(X(i)) sont calculées. La statistique D du test de Kolmogorov-Smirnov est
définie de la façon suivante :
La statistique de Kolmogorov-Smirnov est basée sur la plus grande différence verticale entre
F(x) et Fn(x). Elle est calculée en considérant le maximum de D+ et D- , où D+ est la plus
grande distance verticale entre la fonction de distribution empirique et la fonction exacte de
distribution lorsque EDF est supérieure à la fonction de distribution, et D- est la distance
verticale la plus grande lorsque EDF est plus petite que la fonction de distribution.
5
Test du caractère aléatoire d’une distribution, test de la normalité d’une population
(Kakaï R., al ; 2006)
2.3. Le test de Lilliefors
Le test de Lilliefors compare la fonction de répartition d'une variable aléatoire quelconque à
celle d'une loi normale de moyenne et d'écart-type non spécifiée.
Un des avantages des tests de Kolmogorov-Smirnov et Lilliefors est leur possible utilisation
quel que soit l'effectif de l'échantillon. Cependant ces tests sont de plus en plus considérés
comme des méthodes pauvres et donc non recommandés. La statistique du test d'écrit :
où
Fi est la fréquence théorique de la loi de répartition normale centrée et réduite associée à la
valeur standardisée.
La table des valeurs critiques Dcrit pour les petites valeurs de n et différentes valeurs de α
doivent être utilisées 11. Lorsque les effectifs sont élevés, typiquement n ≥ 30, il est possible
d'approcher la valeur critique à l'aide de formules simples.
La région critique du test pour la statistique D est définie par
R.C. : D > Dcrit
2.4. Test de Anderson-Darling
Le test d’Anderson-Darling est une autre variante du test de Kolmogorov-Smirnov, à la
différence qu'elle donne plus d'importance aux queues de distribution. De ce point de vue, elle
6
Test du caractère aléatoire d’une distribution, test de la normalité d’une population
est plus indiquée dans la phase d'évaluation des données précédant la mise en œuvre d'un test
paramétrique (comparaison de moyenne, de variances, etc.) que le test de Lilliefors.
Autre particularité, ses valeurs critiques sont tabulées différemment selon la loi théorique de
référence, un coefficient multiplicatif correctif dépendant de la taille d'échantillon n peut être
aussi introduit. Concernant l'adéquation à la loi normale, la statistique du test s'écrit :
où
Fi est la fréquence théorique de la loi de répartition normale centrée et réduite associée à la
valeur standardisée.
Une correction est recommandée pour les petits effectifs, cette statistique corrigée est
également utilisée pour calculer la p-value :
Les valeurs critiques Acrit pour différents niveaux de risques sont résumées dans le tableau
suivant, ils ont été produits par simulation et ne dépendent pas de l'effectif de l'échantillon :
L'hypothèse de normalité est rejetée lorsque la statistique A prend des valeurs trop élevées :
R.C. : A > Acrit
2.5. La droite de Henry
C'est une procédure pratique et rapide, permettant de vérifier la présomption de normalité
pour une population dont on observe un échantillon. Cette procédure graphique ne constitue
pas, à proprement parler, un test statistique. Néanmoins, le tracé d'un graphique de Henry peut
suffire dans de nombreux cas où l'on doit s'assurer de la normalité d'une distribution
7
Test du caractère aléatoire d’une distribution, test de la normalité d’une population
d'échantillonnage. Le principe de la méthode repose sur la liaison linéaire entre une variable
normale x (moyenne m, écart-type б) et la variable réduite u (on rappelle que u =
Le test t à 1 échantillon suppose que les données sont échantillonnées à partir d'une
population distribuée normalement.
Le graphe ci-dessous présente la répartition des individus d’un échantillon en fonction des
heures et pourcentage.
Graphe 1: Diagramme de normalité
L’interprétation du graphe précédent peut se faire comme suit :
• Si les données proviennent d'une loi normale, les points doivent suivre plus ou moins la
droite d'ajustement.
• Si les données ne proviennent pas d'une loi normale, les points ne suivent pas la droite.
D'après le test de normalité, vous pouvez supposer que les données proviennent d'une
population normalement distribuée.
Conclusion
Dans ce document nous avons présenté les techniques destinées à évaluer la compatibilité
d'une distribution empirique avec la loi normale. Souvent, ils aboutissent tous à la même
conclusion, la compatibilité avec la loi normale, mais à des degrés différents que l'on peut
appréhender à l'aide de la p-value. On constate que le test le moins enclin à accepter
l'hypothèse de normalité est celui de Anderson-Darling, qui est justement sensible aux écarts
dans les queues de distribution (p-value = 0.1159).
Le test de Shapiro-Wilk propose une p-value égale 0.1408. Sa puissance est reconnue dans la
littérature, elle confirme cette idée ici.
Le test de Lilliefors, pourtant fondé sur la statistique de Kolmogorov-Smirnov, est plus
conservateur, avec un p-value de 0.3859. Cela est surtout consécutif à la nature du désaccord,
en queue de distribution, qu'elle détecte mal.8
Test du caractère aléatoire d’une distribution, test de la normalité d’une population
Références bibliographiques
BAILLARGEON G., 1984 : Méthodes statistiques Volume 1 édition SMG 1984.
DAGNELIE P., 1969 : Théorie et méthodes statistiques Tome 1 Presses agronomiques de
GEMBLOUX.
GLELE KAKAI R., Sodjinou E., Fonton H. N. ; 2006 : Conditions d’application des
méthodes statistiques paramétriques: applications sur ordinateur. Page 39-42
PASQUIER A., 1969 : Eléments de calcul des probabilités et de théories des sondages Dunod
économie.
Ramousse R., Le Berre M. & Le Guelte L ; 1996 : Introduction aux statistiques
9
Top Related