Download - Justifier la normalité d’une population puis le caractère aléatoire et simple d'une distribution

Test du caractère aléatoire d’une distribution, test de la normalité d’une population

Consigne

Comment justifier la normalité d’une population puis le caractère aléatoire et simple d'une

distribution ?

Résolution

1. Test d'hypothèse sur le caractère aléatoire d’un échantillon

L'échantillonnage ou le sondage est l'ensemble des opérations qui ont pour objet de prélever

dans une population les individus qui doivent constituer un échantillon. Un échantillon est dit

aléatoire lorsque tous les individus de la population ont une même probabilité de faire partie

de l'échantillon. Il est simple lorsque les individus qui doivent former l'échantillon sont tous

prélevés indépendamment l'un de l'autre. Différents procédés permettent d'assurer le caractère

aléatoire des échantillons, le plus courant est l'emploi de tables de nombres aléatoires, que l'on

trouve dans les manuels de statistiques (Dagnélie1969, table B, p358-359). Par exemple, si on

veut mesurer la pollution d'un étang dont on possède le plan, on établit un quadrillage en

utilisant du papier millimétré et on détermine, à l'aide d'une table de nombres aléatoires, les

coordonnées du nombre voulu de points de prélèvements d'eau. Ces tables sont constituées de

listes de nombres telles que tous les chiffres soient présents dans l'ensemble un même nombre

de fois. Pour assurer le caractère aléatoire du prélèvement d'un échantillon, on associe chaque

individu de la population à un ou plusieurs groupes de chiffres. On lit ensuite les nombres de

la table, à partir d'un point arbitraire, et on inclut dans l'échantillon les individus dont le

numéro apparaît. (Ramousse et al 1996).

Mode d’utilisation d’une table de nombres au hasard

Selon les auteurs Pasquier A. ; Dagnelie P. et Baillargeon G., les méthodes différent.

Toutefois la règle générale est la suivante :

On choisit, au hasard, un point d’entrée dans la table, puis on choisit un sens de

parcours de la table pour prélever les chiffres et on respecte ce sens de parcours.

Le sens de parcours peut être :

Soit à partir du point d’entrée, lire les nombres de la gauche vers la droite et du haut

vers le bas.

Soit à partir du point d’entrée, lire les nombres vers le haut et de droite à gauche.

Soit à partir du point d’entrée, lire les nombres en diagonale, vers le bas et de gauche à

droite.

1


Exemple d’utilisation:

Nous prendrons un extrait des tables de Kendall et Babington Smith.

TABLE DE KENDALL ET BABINGTON SMITH

1°) On veut prélever, de façon aléatoire, 8 individus dans une population de

850 individus.

Il s'agit donc ici de 8 tirages successifs au hasard sans remise. La première opération consiste

à numéroter les 850 individus de 1 à 850. Ensuite, on prend une table de nombres au hasard et

on décide de la façon de l’utiliser.

Première méthode

Par exemple :

Nous partons de la ligne 10 et de la colonne 6 (point d'entrée dans la table). Nous allons de la

gauche vers la droite sur la table. Nous prenons les chiffres par "paquets" de 3. Dans la table,

on lit les nombres suivants : 393, 560, 298, 189, 107, 797, 885, 133, 037, 129, 318, 983, 401...

On ne retient dans cette liste que les 8 premiers nombres inférieurs ou égaux à 850. Les 8

individus constituant l’échantillon sont donc les individus respectivement numérotés : 393,

560, 298, 189, 107, 797, 133 et 037.

En effet, le nombre 885 n’est pas retenu, car il ne correspond à aucun individu.

Deuxième méthode

Par exemple :

Nous partons de la ligne 1 et de la colonne 31.Nous parcourons la table de haut en bas et de la

gauche vers la droite. Nous prélevons les nombres par "paquets" de 5 (la table s’y prête).

Nous ne conservons dans chaque "paquet" que les trois premiers chiffres.

Dans la table, on lit :

2


Dans ce cas, les individus prélevés sont les individus respectivement numérotés : 789, 575,

676, 98, 422, 652, 344, 371 (855 et 949 étant supérieurs à 850 ne sont pas retenus).

Remarques :

Si le numéro 789, par exemple, était sorti une deuxième fois, comme il s'agissait d'un tirage

"sans remise", nous n'aurions pas tenu compte du deuxième 789. Si on avait du prélever 10

individus, les individus prélevés seraient les individus respectivement numéros : 789, 575,

676, 98, 422, 652, 344, 371, 470, 603. Le nombre 470 provient de 47008 et 603 de 60307.

2. Test de l'hypothèse de normalité

Les paragraphes suivants montrent des méthodes permettant de vérifier la normalité d'un

échantillon.

2.1. Test de Shapiro-Wilk

Très populaire, le test de Shapiro-Wilk est basé sur la statistique W. En comparaison des

autres tests, il est particulièrement puissant pour les petits effectifs (n ≤ 50). La statistique du

test s'écrit :

Où

_ x(i) correspond à la série des données triées ;

_ [n/2] est la partie entière du rapport n/2 ;

_ ai sont des constantes générées à partir de la moyenne et de la matrice de variance co-

variance des quantiles d'un échantillon de taille n suivant la loi normale. Ces constantes sont

fournies dans des tables spécifiques.

La statistique W peut donc être interprétée comme le coefficient de détermination (le carré du

coefficient de corrélation) entre la série des quantiles générées à partir de la loi normale et les

quantiles empiriques obtenues à partir des données. Plus W est élevé, plus la compatibilité

avec la loi normale est crédible.

La région critique, rejet de la normalité, s'écrit :

R.C. : W < Wcrit

3


Les valeurs seuils Wcrit pour différents risques α et effectifs n sont lues dans la table de

Shapiro-Wilk.

2.1.1. Le test de Ryan-Joiner

Les coefficients ci (donnés sous forme de tables fournies entre autres par Shapiro et Wilk 1965)

sont comparables aux quantiles normaux ui ou ui' relatifs aux diagrammes de probabilités. La

statistique du test de Ryan-Joiner est donc le coefficient de corrélation linéaire entre les

données et les scores normaux. C’est le rapport entre la covariance des deux variables et le

produit de leurs écarts-types respectifs, soit :

La formule de calcul de la statistique, ρth, de Ryan-Joiner dépend de la taille n de

l’échantillon considéré et est donnée ici pour un niveau de confiance de 0,95 :

ρth = 1,0063 (0,1288/ ) (0,6118/ ) (1,3505/ ) n n n2 si n < 50

ρth = 0,9995 (0,0178/ ) (1,7726/ ) (3,5582/ ) n n n1,5 si n > 50.

L’hypothèse de normalité est rejetée lorsque ρobs est inférieur à ρth. (Kakaï R., al ;

2006)

.

2.2. Le test de Kolmogorov-Smirnov

Dans le cas général, le test de Kolmogorov-Smirnov vise à déterminer si les fonctions de

répartition de deux populations sont identiques. Il est utilisé lorsqu'on est en présence de deux

échantillons provenant de deux populations pouvant être différentes. Le test de Kolmogorov-

Smirnov a l'avantage de prendre en considération les fonctions de répartitions dans leur

ensemble.

Exigences :

les deux échantillons sont des échantillons aléatoires tirés de leur population

respective.

il y a indépendance mutuelle entre les deux échantillons.

4


les variables aléatoires doivent être continues, sinon le test est moins précis. Si ces

variables sont qualitatives, il vaut mieux utiliser le test de chi-carré.

Pour toute série d’observations X1,...,Xn de même fonction de distribution, une fonction de

distribution empirique f(x) peut être définie.

Sous l’hypothèse nulle, f(x) suit une distribution normale. Supposons que les observations

soient classées par ordre croissant tel que : X(1), ... ,X(n). La fonction de distribution

empirique fn(x) est définie de la manière suivante :

Notons que fn(x) est une fonction par intervalles qui prend un pas de hauteur 1/n à chaque

observation. Cette fonction estime la valeur de la distribution f(x). A chaque valeur x, fn(x) est

la proportion des observations inférieures ou égales à x, alors que f(x) est la probabilité pour

qu’une observation soit inférieure ou égale à x. La statistique EDF (Empirical Distribution

Function) mesure la dissimilarité entre fn(x) et f(x). De façon générale, les tests EDF utilisent

la fonction de répartition U = F(x). Si f(X) est la fonction de distribution de X, la variable

aléatoire U est uniformément distribuée entre 0 et 1. Soient n observations X(1), ..., X(n), les

valeurs U(i) = f(X(i)) sont calculées. La statistique D du test de Kolmogorov-Smirnov est

définie de la façon suivante :

La statistique de Kolmogorov-Smirnov est basée sur la plus grande différence verticale entre

F(x) et Fn(x). Elle est calculée en considérant le maximum de D+ et D- , où D+ est la plus

grande distance verticale entre la fonction de distribution empirique et la fonction exacte de

distribution lorsque EDF est supérieure à la fonction de distribution, et D- est la distance

verticale la plus grande lorsque EDF est plus petite que la fonction de distribution.

5


(Kakaï R., al ; 2006)

2.3. Le test de Lilliefors

Le test de Lilliefors compare la fonction de répartition d'une variable aléatoire quelconque à

celle d'une loi normale de moyenne et d'écart-type non spécifiée.

Un des avantages des tests de Kolmogorov-Smirnov et Lilliefors est leur possible utilisation

quel que soit l'effectif de l'échantillon. Cependant ces tests sont de plus en plus considérés

comme des méthodes pauvres et donc non recommandés. La statistique du test d'écrit :

où

Fi est la fréquence théorique de la loi de répartition normale centrée et réduite associée à la

valeur standardisée.

La table des valeurs critiques Dcrit pour les petites valeurs de n et différentes valeurs de α

doivent être utilisées 11. Lorsque les effectifs sont élevés, typiquement n ≥ 30, il est possible

d'approcher la valeur critique à l'aide de formules simples.

La région critique du test pour la statistique D est définie par

R.C. : D > Dcrit

2.4. Test de Anderson-Darling

Le test d’Anderson-Darling est une autre variante du test de Kolmogorov-Smirnov, à la

différence qu'elle donne plus d'importance aux queues de distribution. De ce point de vue, elle

6


est plus indiquée dans la phase d'évaluation des données précédant la mise en œuvre d'un test

paramétrique (comparaison de moyenne, de variances, etc.) que le test de Lilliefors.

Autre particularité, ses valeurs critiques sont tabulées différemment selon la loi théorique de

référence, un coefficient multiplicatif correctif dépendant de la taille d'échantillon n peut être

aussi introduit. Concernant l'adéquation à la loi normale, la statistique du test s'écrit :

où

Fi est la fréquence théorique de la loi de répartition normale centrée et réduite associée à la

valeur standardisée.

Une correction est recommandée pour les petits effectifs, cette statistique corrigée est

également utilisée pour calculer la p-value :

Les valeurs critiques Acrit pour différents niveaux de risques sont résumées dans le tableau

suivant, ils ont été produits par simulation et ne dépendent pas de l'effectif de l'échantillon :

L'hypothèse de normalité est rejetée lorsque la statistique A prend des valeurs trop élevées :

R.C. : A > Acrit

2.5. La droite de Henry

C'est une procédure pratique et rapide, permettant de vérifier la présomption de normalité

pour une population dont on observe un échantillon. Cette procédure graphique ne constitue

pas, à proprement parler, un test statistique. Néanmoins, le tracé d'un graphique de Henry peut

suffire dans de nombreux cas où l'on doit s'assurer de la normalité d'une distribution

7


d'échantillonnage. Le principe de la méthode repose sur la liaison linéaire entre une variable

normale x (moyenne m, écart-type б) et la variable réduite u (on rappelle que u =

Le test t à 1 échantillon suppose que les données sont échantillonnées à partir d'une

population distribuée normalement.

Le graphe ci-dessous présente la répartition des individus d’un échantillon en fonction des

heures et pourcentage.

Graphe 1: Diagramme de normalité

L’interprétation du graphe précédent peut se faire comme suit :

• Si les données proviennent d'une loi normale, les points doivent suivre plus ou moins la

droite d'ajustement.

• Si les données ne proviennent pas d'une loi normale, les points ne suivent pas la droite.

D'après le test de normalité, vous pouvez supposer que les données proviennent d'une

population normalement distribuée.

Conclusion

Dans ce document nous avons présenté les techniques destinées à évaluer la compatibilité

d'une distribution empirique avec la loi normale. Souvent, ils aboutissent tous à la même

conclusion, la compatibilité avec la loi normale, mais à des degrés différents que l'on peut

appréhender à l'aide de la p-value. On constate que le test le moins enclin à accepter

l'hypothèse de normalité est celui de Anderson-Darling, qui est justement sensible aux écarts

dans les queues de distribution (p-value = 0.1159).

Le test de Shapiro-Wilk propose une p-value égale 0.1408. Sa puissance est reconnue dans la

littérature, elle confirme cette idée ici.

Le test de Lilliefors, pourtant fondé sur la statistique de Kolmogorov-Smirnov, est plus

conservateur, avec un p-value de 0.3859. Cela est surtout consécutif à la nature du désaccord,

en queue de distribution, qu'elle détecte mal.8


Références bibliographiques

BAILLARGEON G., 1984 : Méthodes statistiques Volume 1 édition SMG 1984.

DAGNELIE P., 1969 : Théorie et méthodes statistiques Tome 1 Presses agronomiques de

GEMBLOUX.

GLELE KAKAI R., Sodjinou E., Fonton H. N. ; 2006 : Conditions d’application des

méthodes statistiques paramétriques: applications sur ordinateur. Page 39-42

PASQUIER A., 1969 : Eléments de calcul des probabilités et de théories des sondages Dunod

économie.

Ramousse R., Le Berre M. & Le Guelte L ; 1996 : Introduction aux statistiques

9