Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE :...

47
ENSEIGNEMENT DE PROMOTION SOCIALE —————————————————————— Cours de STATISTIQUE - Paramètres de position et de dispersion - —————————————————————— H. Schyns Juin 2010

Transcript of Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE :...

Page 1: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

ENSEIGNEMENT DE PROMOTION SOCIALE

—————————————————————— Cours de

STATISTIQUE

- Paramètres de position et de dispersion -

——————————————————————

H. Schyns

Juin 2010

Page 2: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion Sommaire

H. Schyns S.1

Sommaire

1. INTRODUCTION

2. PARAMETRES DE POSITION

2.1. Position du problème 2.2. Le mode

2.2.1. Définition 2.2.2. Variable qualitative nominale 2.2.3. Variable qualitative ordinale 2.2.4. Variable quantitative discrète 2.2.5. Variable quantitative continue 2.2.6. Avantages et inconvénients

2.3. La médiane 2.3.1. Définition 2.3.2. Variable qualitative nominale 2.3.3. Variable qualitative ordinale 2.3.4. Variable quantitative discrète 2.3.5. Variable quantitative continue 2.3.6. Avantages et inconvénients 2.3.7. Propriétés

2.4. La moyenne arithmétique 2.4.1. Définition 2.4.2. Variables qualitatives nominales ou ordinales 2.4.3. Variable quantitative discrète 2.4.4. Variable quantitative continue 2.4.5. Avantages et inconvénients 2.4.6. Propriétés

2.5. La moyenne géométrique 2.5.1. Définition 2.5.2. Exemple

2.6. La moyenne harmonique 2.7. Généralisation de la moyenne 2.8. Classement des moyennes 2.9. Comparaison moyenne médiane

3. PARAMETRES DE DISPERSION

3.1. Position du problème 3.2. La plage ou amplitude

3.2.1. Définition 3.2.2. Variable qualitative ordinale 3.2.3. Variable quantitative 3.2.4. Avantages et inconvénients

3.3. L'écart interquartile 3.3.1. Définition 3.3.2. Variable qualitative

Page 3: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion Sommaire

H. Schyns S.2

3.3.3. Variable quantitative discrète 3.3.4. Variable quantitative continue 3.3.5. Avantages et inconvénients

3.4. Notion d'écart 3.5. L'écart moyen 3.6. L'écart absolu moyen 3.7. La variance et écart-type 3.8. Contrôle industriel

4. PARAMETRES DE FORMES

4.1. Asymétrie 4.2. Moments

5. CONCLUSION

6. EXERCICES

Exercice 1 Exercice 2 Exercice 3 Exercice 4

7. ANNEXE : L'OPERATEUR Σ

7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite

7.2.1. Formes simples 7.2.2. Formes évoluées

7.3. De la somme explicite à l'opérateur symbolique 7.3.1. Séries algébriques 7.3.2. Alternance de signe 7.3.3. Suites numériques

8. SOURCES

Page 4: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 1 - Introduction

H. Schyns 1.1

1. Introduction

Dans un chapitre précédent, nous avons vu comment condenser une série d'observations statistiques sous la forme d'un tableau de fréquences. Le principe de base était le comptage des observations.

Nous avons ensuite vu comment représenter des tableaux sous forme de graphiques nommés histogrammes. Ces histogrammes sont basés :

- soit sur les fréquences absolues ou sur les fréquences relatives, - soit sur les fréquences absolues cumulées ou sur les fréquences relatives

cumulées.

Les histogrammes donnent la répartition ou, plus exactement, la distribution des valeurs observées dans les différentes catégories ou classes.

Dans ce chapitre, nous franchirons un pas supplémentaire en caractérisant la distribution par sa forme générale et par deux paramètres ou valeurs typiques :

- un nombre caractéristique de la position de l'histogramme; - un nombre caractéristique de sa dispersion ou de son étalement.

fig. 1.1 Rôle des paramètres de position et de dispersion

Les paramètres de position caractérisent l'ordre de grandeur des observations.

Les paramètres de dispersion caractérisent l'étalement des valeurs autour d'un paramètre de position

Comme la plupart des paramètres numériques, il va de soi que ce chapitre s'applique principalement aux données quantitatives discrètes ou continues.

Page 5: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.1

2. Paramètres de position

2.1. Position du problème

Ainsi qu'il a été dit plus haut,

Les paramètres de position caractérisent l'ordre de grandeur des observations.

Ils permettent aussi de situer des distributions les unes par rapport aux autres.

On attend d'un paramètre de position qu'il soit :

- aisé à déterminer, - représentatif, - stable.

Les trois paramètres de positions les plus utilisés sont :

- le mode (ang.: mode), - la médiane (ang.: median), - la moyenne (ang.: mean ou average).

La moyenne peut prendre plusieurs formes selon le mode de calcul :

- moyenne arithmétique, - moyenne géométrique, - moyenne harmonique.

2.2. Le mode

2.2.1. Définition

Le mode est le seul paramètre de position qui s'applique à tous les types de variables, qu'elles soient qualitatives ou quantitatives.

Le mode est la valeur la plus représentée, c'est-à-dire la valeur présente la fréquence la plus élevée.

Le mode correspond au maximum de l'histogramme

2.2.2. Variable qualitative nominale

Reprenons l'enquête réalisée au chapitre précédent par enquêteur hypothétique posté à la sortie d'un parking d'une grande surface (1).

Les informations concernant les marques de voiture sont reprises à la fig. 2.1.

La valeur qui présente la plus grande fréquence est la marque "Autre". Autrement dit, la marque de voiture la plus rencontrée est "Autre"; "Autre" est le mode du tableau et de l'histogramme.

1 Cours de STATISTIQUE - Statistique descriptive - p 3.1.

Page 6: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.2

Inutile de dire que, dans le cas présent, ce résultat est particulièrement pauvre et désolant ! Il ne nous apporte aucune information vraiment pertinente. Par exemple, les vendeurs de Opel et VW ne savent pas s'ils sont réellement les plus présents sur le marché. En effet, "Autre" pourrait représenter exclusivement des Porsche ou des Lada. Pour lever l'ambiguïté, il faudrait préciser par exemple que "'Autre' regroupe toutes les marques de voitures qui n'ont été observées qu'une seule fois".

Ceci montre les dangers d'une enquête mal ficelée et d'un regroupement malheureux des données.

Voiture

Valeurs de la variable

Fréquence absolue

Fréquence relative

xi ni fi Ford 3 15 % Opel 5 25 %

Volkswagen 5 25 % Autre 7 35 %

Nbre observ. 20 100 %

fig. 2.1 Mode d'une variable qualitative nominale

2.2.3. Variable qualitative ordinale

Poursuivons avec l'appréciation sur la proportion d'articles que le client souhaitait trouver dans le magasin :

Articles trouvés

Valeurs de la variable

Fréquence absolue

Fréquence relative

xi ni fi Aucun 2 10 %

Quelques-uns 6 30 % Presque tous 9 45 %

Tous 3 15 % Nbre observ. 20 100 %

fig. 2.2 Mode d'une variable qualitative ordinale

La réponse "Presque tous" est celle qui recueille le maximum de suffrages. Cette réponse est le mode de l'enquête.

Notons que dire que la réponse "Presque tous" est celle qui rencontre la majorité des suffrages est faux. En effet, pour que cette réponse soit majoritaire, il faudrait quelle soit choisie par plus de la moitié des personnes interrogées; sa fréquence devrait être 11 et non 9.

La réponse majoritaire correspond toujours avec le mode. L'inverse n'est pas vrai : le mode n'est pas toujours la réponse majoritaire.

Page 7: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.3

2.2.4. Variable quantitative discrète

Dans le cas de la composition du ménage (fig. 2.3), il apparaît clairement que les ménages d'une personne constituent le mode. Ceci signifie que parmi la clientèle du magasin, on rencontre principalement des personnes qui appartiennent à un ménage d'une seule personne (c-à-d des personnes isolées).

Nous pouvons aussi introduire une notion intuitive de probabilité en disant que si nous prenons une personne au hasard à la sortie d'une grande surface, il y a "de fortes chances" pour qu'elle appartienne à un ménage d'une seule personne.

Composition du ménage Valeurs de la variable

Fréquence absolue

Fréquence relative

xi ni fi 1 8 40 % 2 3 15 % 3 4 20 % 4 4 20 % 5 0 0 %

6+ 1 5 %

Nbre observ. 20 100 %

fig. 2.3 Mode d'une variable quantitative discrète

2.2.5. Variable quantitative continue

Dans le cas d'une variable quantitative continue, nous ne parlerons plus de mode mais bien de classe modale. Si nous considérons la taille du conducteur (fig. 2.4), la classe modale est celle qui regroupe les personnes dont la taille est comprise entre 1.50m (inclus) et 1.60m (exclu).

A nouveau, si nous prenons une personne au hasard à la sortie d'une grande surface, il y a "de fortes chances" pour que sa taille soit comprise entre 1.50 et 1.60m.

Taille du conducteur (m) Valeurs de la variable

Fréquence absolue

Fréquence relative

xi ni fi [1.40 , 1.50 [ 2 10 % [1.50 , 1.60 [ 8 40 % [1.60 , 1.70 [ 6 30 % [1.70 , 1.80 [ 3 15 % [1.80 , 1.90 [ 1 5 % Nbre observ. 20 100 %

fig. 2.4 Classe modale d'une variable quantitative continue

2.2.6. Avantages et inconvénients

Le mode présente plusieurs avantages :

Page 8: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.4

- il est défini pour tous les types de variables, - il est facile à déterminer, - il est facile à combiner; quand on dispose de plusieurs histogrammes qui

étudient la même variable, on peut assez facilement déterminer le mode de l'ensemble des observations.

Le mode présente aussi plusieurs inconvénients :

- il ne prend en compte qu'une seule valeur ou une seule classe; il est donc peut représentatif de l'ensemble

- il est peu stable; il dépend assez fortement de l'échantillon analysé, - il n'est pas nécessairement unique; il arrive fréquemment que des distributions

présentent deux ou plusieurs modes. On parle alors de distributions bi- ou plurimodales (fig. 2.5).

fig. 2.5 Distribution bimodale

Dans les tableurs tels que Excel et OpenOffice le mode est calculé grâce à la fonction MODE(). Elle ne s'applique qu'à des données numériques; elle n'est d'aucune utilité dans le cas de données continues puisque celles-ci doivent d'abord être regroupées en classes.

2.3. La médiane

2.3.1. Définition

La médiane ne s'applique qu'aux variables qui admettent une relation d'ordre, c'est-à-dire aux variables que l'on peut ordonner ou classer. C'est le cas de toutes les variables quantitatives et des variables qualitatives ordinales.

La médiane est la valeur qui partage la liste des observations, préalablement classées en ordre croissant, en deux sous-listes qui contiennent le même nombre d'observations.

Graphiquement, la médiane est la valeur qui partage l'histogramme en deux zones de même aire. C'est aussi la valeur qui correspond à la fréquence relative cumulée de 50%.

Soit N est le nombre d'observations classées alors, la médiane notée x~ vaut :

- si N est impair, la médiane est la valeur ayant l'indice central

2

1Nxx~ += [eq. 2.1]

Page 9: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.5

- si N est pair, la médiane est la moyenne des deux valeurs centrales

2

xx

x~1

2N

2N

++

= [eq. 2.2]

2.3.2. Variable qualitative nominale

Poursuivons l'analyse de l'enquête réalisée au chapitre précédent.

La marque de voiture est une variable qualitative pour laquelle il n'existe aucune relation d'ordre. Par conséquent, il est impossible de définir une marque médiane.

2.3.3. Variable qualitative ordinale

Par définition, les variables qualitatives ordinales admettent une relation d'ordre. Elles peuvent donc être classées en ordre croissant ou décroissant et admettent une médiane.

Classons les vingt réponses qui concernent les articles trouvés (de gauche à droite et de haut en bas).

Articles A A Q Q Q Q Q Q P P P P P P P P P T T T

tableau 2.1 Articles trouvés

Puisque le nombre d'observations est pair, la médiane se trouve entre les deux valeurs centrales (la 10e et la 11e). Nous avons de la chance : il se fait que ces deux valeurs sont identiques. La réponse médiane est donc "Presque tous".

Si les deux valeurs avaient été différentes, nous aurions formulé notre réponse en disant – par exemple - que la médiane se trouve "entre quelques-uns et presque tous".

Lorsqu'on dispose du diagramme des fréquences cumulées, la médiane correspond à la première barre traversée par l'horizontale tracée à 50% :

fig. 2.6 Médiane d'une variable qualitative ordinale.

Page 10: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.6

2.3.4. Variable quantitative discrète

Les variables quantitatives admettent aussi une relation d'ordre. Nous pouvons les traiter comme les variables qualitatives ordinales.

Classons les vingt réponses qui concernent le nombre de personnes formant le ménage (de gauche à droite et de haut en bas).

Composition du Ménage 1 1 1 1 1 1 1 1 2 2 2 3 3 3 3 4 4 4 4 6+

tableau 2.2 Composition du ménage

Puisque le nombre d'observation est pair (N=20), la médiane est la moyenne des deux valeurs centrales (la 10e et la 11e) :

22

22x~ =+

= [eq. 2.3]

2 est la valeur formelle de la médiane, celle qui correspond à la définition ou, plus exactement, à une partie de la définition. En effet, nous ne pouvons pas affirmer que "50% des personnes interrogées appartiennent à un ménage de moins de 2 personnes" (en réalité 40%) ni que "50% des personnes interrogées appartiennent à un ménage de 2 personnes ou moins" (en réalité 55%).

Ceci vient du fait que nous traitons des données discrètes.

Lorsqu'on dispose du diagramme des fréquences cumulées, la médiane correspond à la première barre traversée par l'horizontale tracée à 50% :

fig. 2.7 Médiane d'une variable discrète.

Notons que la médiane est définie même lorsque la distribution comprend des classes "ouvertes" (telles que la classe "6 et plus") à chaque extrémité.

2.3.5. Variable quantitative continue

Classons à présent les vingt réponses qui concernent la taille du conducteur (de gauche à droite et de haut en bas).

Page 11: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.7

Taille (m) 1.47 1.48 1.53 1.54 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.67 1.67 1.67 1.69 1.69 1.72 1.78 1.79 1.86

tableau 2.3 Taille du conducteur

Comme ci-dessus, puisque le nombre d'observation est pair (N=20), la médiane est la moyenne des deux valeurs centrales (la 10e et la 11e) :

595.12

60.159.1x~ =+

= m [eq. 2.4]

Dans ce cas-ci, nous pouvons effectivement affirmer que "50% des personnes interrogées ont une taille inférieure (ou inférieure ou égale) à 1.595 m".

Lorsque les données ont été regroupées en classes, la détermination de la médiane peut nécessiter quelques calculs. Par contre, sa détermination graphique est très simple : dans le diagramme des fréquences cumulées, la médiane correspond à l'abscisse du point d'intersection du polygone des fréquences et de l'horizontale à 50% :

fig. 2.8 Médiane d'une variable continue.

Notons que la médiane définie à partir de l'ensemble des données initiales et celle calculée à partir des données regroupées en classes peuvent être différentes. Cette situation est normale et découle de la perte de précision due au regroupement.

Dans notre exemple, la médiane correspond à une limite de classe. En pratique, c'est rarement le cas; il faut alors effectuer une interpolation linéaire :

[ ]infsup

infinfsupinf FF

F50.0bbbx~

−−

⋅−+= [eq. 2.5]

où :

- bsup et binf sont les bornes supérieures et inférieures de la classe - Fsup et Finf sont les fréquences relatives cumulées correspondant à ces bornes

Page 12: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.8

fig. 2.9 Médiane par interpolation linéaire.

Par exemple, dans la situation de la fig. 2.9, l'équation devient

[ ]40.070.040.050.040.150.140.1x~

−−

⋅−+= [eq. 2.6]

43.130.010.010.040.1x~ =⋅+= [eq. 2.7]

2.3.6. Avantages et inconvénients

La médiane présente plusieurs avantages :

- elle est facile à déterminer, - elle part du classement de toutes les observations; elle est donc représentative

de l'ensemble, - elle est unique car chaque série n'a qu'une et une seule médiane, - elle est insensible aux valeurs extrêmes, ce qui en fait un paramètre

remarquablement stable (1),

La médiane présente aussi un inconvénient :

- quand on dispose de plusieurs échantillons qui observent la même variable, il n'est pas possible de définir la médiane générale à partir des médianes partielles.

Dans les tableurs tels que Excel et OpenOffice la médiane est calculée grâce à la fonction MEDIANE(). Elle ne s'applique qu'à des données numériques.

2.3.7. Propriétés

La médiane jouit de propriétés mathématiques intéressantes :

- translation : Si on ajoute (soustrait) une constante à toutes les observations, on ajoute

(soustrait) aussi cette constante à la médiane Si Cxx ii +→ alors Cx~x~ +→ [eq. 2.8] - dilatation : Si on multiplie (divise) toutes les observations par un même facteur, on multiplie

(divise) aussi la médiane par ce même facteur 1 Le fait que l'un des conducteurs soit un nain de 1.10m ou un géant de 2.10m ne change en rien la

médiane.

Page 13: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.9

Si ii xkx ⋅→ alors x~kx~ ⋅→ [eq. 2.9] - combinaison : les deux propriétés ci-dessus peuvent être combinées Si Cxkx ii +⋅→ alors Cx~kx~ +⋅→ [eq. 2.1]

2.4. La moyenne arithmétique

2.4.1. Définition

La moyenne arithmétique ne s'applique qu'aux variables qui admettent les opérations d'addition et de soustraction . Elle ne s'applique donc qu'aux variables quantitatives discrètes ou continues.

La moyenne est obtenue par calcul, en faisant la somme de toutes les valeurs observées puis en divisant le total obtenu par le nombre de valeurs prises en compte dans le total.

Soit N est le nombre d'observations et x1, x2, ..., xi, ..., xN respectivement les 1e ,2e , ...,ie et dernière valeurs observées alors la moyenne, notée x vaut :

N

x...xxxx N321 ++++

= [eq. 2.10]

( )N321 x...xxxN1x ++++= [eq. 2.11]

ce que l'on note de manière plus condensée, grâce à l'opérateur Σ (sigma), sous la forme (1) :

∑=

⋅=N

1iix

N1x [eq. 2.12]

Le symbolisme

∑=

N

1iix [eq. 2.13]

se lit : la somme (Σ) de tous les x dont l'indice i (xi) prend les valeurs entières allant de 1 à N

Dans le cas où les valeurs auraient été préalablement groupées par classes dans un tableau, l'expression devient

K321

KK332211n...nnn

cn...cncncnx

++++⋅++⋅+⋅+⋅

= [eq. 2.14]

dans laquelle :

- ci est le centre de la classe considérée, - n est le nombre d'observations qui appartiennent à cette classe, - K est le nombre de classes;

ce que l'on note de manière plus condensée, sous la forme : 1 L'utilisation de l'opérateur Σ (sigma) est développée en annexe.

Page 14: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.10

=

=

=K

1ii

K

1iii

n

cn

x [eq. 2.15]

comme

Nnn...nnnK

1iiK321 ==++++ ∑

= [eq. 2.16]

où N est le nombre total d'observations, on peut écrire plus simplement

∑=

⋅⋅=K

1iii cn

N1x [eq. 2.17]

2.4.2. Variables qualitatives nominales ou ordinales

Poursuivons l'analyse de notre enquête.

La marque de voiture est une variable qualitative nominale qui n'admet pas l'addition. Par conséquent, il est impossible de définir une marque moyenne.

Il en va de même pour la quantité d'articles trouvés qui, dans notre enquête, s'exprime par une variable qualitative ordinale.

2.4.3. Variable quantitative discrète

Les variables quantitatives admettent l'addition. Il est généralement possible de définir une moyenne.

Toutefois, notre enquête constitue cependant un cas particulier car l'une des observations contient une valeur indéterminée :

Composition du Ménage 1 1 1 1 1 1 1 1 2 2 2 3 3 3 3 4 4 4 4 6+

tableau 2.4 Composition du ménage

Il n'est pas possible de donner une valeur déterminée à la réponse "6 personnes ou plus". Cette réponse constitue une valeur ouverte. Dès lors, la moyenne elle-même devient indéterminée.

Que ceci soit bien clair : il n'est pas question de supprimer la valeur "6+" sous prétexte de calculer une moyenne sur les chiffres restants ! Cette moyenne ne serait pas représentative de l'échantillon.

Par contre, il est possible de calculer une valeur minimale de la moyenne en remplaçant "6+" par la valeur minimale "6" :

4.22048

20615044342318x ==

⋅+⋅+⋅+⋅+⋅+⋅≥ [eq. 2.18]

On peut affirmer que la composition moyenne du ménage est au moins de 2.4 personnes. Mieux vaut une information partielle que pas d'information du tout.

Page 15: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.11

Notons bien que même cette information disparaît si les valeurs extrêmes proposées dans le questionnaire sont toutes deux des valeurs ouvertes :

2- 3 4 5 6+ 2 ou

moins 6 ou plus

2.4.4. Variable quantitative continue

Reprenons l'analyse de la taille du conducteur :

Taille (m) 1.47 1.48 1.53 1.54 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.67 1.67 1.67 1.69 1.69 1.72 1.78 1.79 1.86

tableau 2.5 Taille du conducteur

Nous pouvons calculer la moyenne à partir des données détaillées à partir de l'équation [2.13] :

55.32xN

1ii =∑

=m [eq. 2.19]

628.120

55.32x == m [eq. 2.20]

Il est permis d'écrire la moyenne avec un chiffre significatif de plus que les données, en arrondissant à bon escient, lorsque l'on dispose de deux à vingt données. Lorsque l'on dispose d'une centaine de données, la moyenne peut être écrite avec deux chiffres significatifs de plus.

Nous aurions pu aussi calculer la moyenne à partir du tableau des classes, en utilisant l'équation [2.16] ou [2.18]

Taille du conducteur (m)

Valeurs de la variable Centre Fréquence

absolue Produit

xi ci ni ni•fi [1.40 - 1.50 [ 1.45 2 2.90 [1.50 - 1.60 [ 1.55 8 12.40 [1.60 - 1.70 [ 1.65 6 9.90 [1.70 - 1.80 [ 1.75 3 5.25 [1.80 - 1.90 [ 1.85 1 1.85 Totaux 20 32.30

tableau 2.6 Classes de taille du conducteur

20nK

1ii =∑

= 30.32cn

K

1iii =⋅∑

= [eq. 2.21]

615.120

30.32x == m [eq. 2.22]

Cette valeur de la moyenne est différente de celle obtenue plus haut (1.628 m) !

Page 16: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.12

C'est absolument normal : en regroupant les données en classes, nous avons perdu une partie de l'information. En remplaçant les valeurs initiales par celle du centre la classe à laquelle elles appartiennent, nous avons introduit une erreur.

En principe, quand les classes sont assez peuplées, les erreurs se compensent et la différence est minime. Par contre, dans les classes extrêmes qui sont généralement peu peuplées, il peut y avoir sous- ou surestimation systématique des valeurs qui y apparaissent.

Aussi curieux que cela puisse paraître, les moyennes calculées par les deux méthodes sont aussi valables l'une que l'autre :

N'oublions pas que les statistiques donnent des estimations basées sur un échantillon.

Il est vraisemblable que le même dépouillement portant sur un échantillon différent aurait donné encore d'autres estimations de la moyenne.

Nous verrons comment résoudre cet apparent paradoxe lorsque nous parlerons des paramètres de dispersion (1).

Il apparaît déjà clairement que la moyenne utilisée seule est pratiquement inutilisable : il faut obligatoirement l'accompagner de sa précision.

2.4.5. Avantages et inconvénients

La moyenne arithmétique présente plusieurs avantages :

- elle est relativement facile à déterminer, - son calcul fait intervenir toutes les observations; elle est donc représentative de

l'ensemble, - elle est unique car chaque série n'a qu'une et une seule moyenne, - quand on dispose de plusieurs échantillons qui observent la même variable, il

est possible de définir la moyenne générale à partir des moyennes partielles.

La moyenne présente aussi un inconvénient :

- elle est assez sensible aux valeurs extrêmes, ce qui en fait un paramètre moins stable que la médiane (2),

- elle ne prend son sens que si elle est accompagnée d'une estimation de sa précision.

Pour éviter la sensibilité aux valeurs extrêmes, on recourt parfois à une moyenne arithmétique élaguée ou moyenne réduite : après classement, on supprime les m valeurs minimales et les m valeurs maximales observées avant de procéder au calcul de la moyenne.

Cette méthode est souvent appliquée :

1 En général, c'est ici que les lecteurs s'écrient : "Mais alors, on n'est jamais sûr de rien !". Eh non ! Mais

prendre conscience que tout ce qui nous entoure est entaché d'erreur et d'imprécision; que la vérité est contextuelle, est un grand pas en avant sur la voie de la sagesse.

2 Le fait que, dans un échantillon réduit, l'un des conducteurs soit un nain de 1.10m ou un géant de 2.10m peut changer formtement la valeur de la moyenne.

Page 17: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.13

- dans les compétitions sportives artistiques quand la valeur de la performance est évaluée par des juges qui remettent une cote (on supprime la meilleure et la plus mauvaise),

- en économétrie, quand on doit traiter des informations disparates (on supprime 1% des observations du côté max et 1% du côté min (1)).

En procédant de la sorte, le comportement de la moyenne se rapproche de celui de la médiane.

Dans les tableurs tels que Excel et OpenOffice la moyenne arithmétique est calculée grâce à la fonction MOYENNE(). Elle ne s'applique qu'à des données numériques. Ces tableurs proposent aussi les fonctions

- MOYENNE.REDUITE() - MOYENNE.GEOMETRIQUE() - MOYENNE.HARMONIQUE()

2.4.6. Propriétés

Comme la médiane, la moyenne jouit de propriétés mathématiques intéressantes :

- translation : Si on ajoute (soustrait) une constante à toutes les observations, on ajoute

(soustrait) aussi cette constante à la moyenne Si Cxx ii +→ alors Cxx +→

- dilatation : Si on multiplie (divise) toutes les observations par un même facteur, on multiplie

(divise) aussi la moyenne par ce même facteur Si ii xkx ⋅→ alors xkx ⋅→

- combinaison : les deux propriétés ci-dessus peuvent être combinées

Si Cxkx ii +⋅→ alors Cxkx +⋅→

2.5. La moyenne géométrique

2.5.1. Définition

La moyenne géométrique est obtenue par calcul, en faisant le produit des N valeurs observées puis en prenant la racine Neme du nombre obtenu.

Soit N est le nombre d'observations et x1, x2, ..., xi, ..., xN respectivement les 1e ,2e , ...,ie et dernière valeurs observées alors la moyenne géométrique, notée gx vaut :

N N321g x...xxxx ⋅⋅⋅⋅= [eq. 2.23]

( )N1

N321g x...xxxx ⋅⋅⋅⋅= [eq. 2.24]

ce que l'on note de manière plus condensée, grâce à l'opérateur Π (pi), sous la forme (2) :

1 Attention, les valeurs sont retirées de la liste et non réduites de 1% ! 2 L'utilisation de l'opérateur Σ (sigma) est développée en annexe.

Page 18: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.14

N1

N

1iig xx

= ∏

=

[eq. 2.25]

Le symbolisme

∏=

N

1iix [eq. 2.26]

se lit : le produit (Π) de tous les x dont l'indice i (xi) prend les valeurs entières allant de 1 à N.

Par passage aux logarithmes, on obtient une autre expression équivalente :

Le logarithme de la moyenne géométrique est la moyenne arithmétique du logarithme des valeurs observées (1).

[ ]N321g xln...xlnxlnxlnN1xln ++++⋅= [eq. 2.27]

∑=

⋅=N

1i1g xln

N1xln [eq. 2.28]

Cette expression montre qu'il est impossible de calculer la moyenne géométrique dès qu'une des valeurs observées est nulle ou négative.

La moyenne géométrique est largement utilisée en économie et finance, notamment pour déterminer le taux de croissance moyen sur une période donnée.

2.5.2. Exemple

Un investisseur évalue son portefeuille d'actions et d'obligations à la fin de chaque année afin de connaître le taux d'intérêt moyen que lui procurent ses investissements.

Par taux d'intérêt moyen, il faut comprendre le taux d'intérêt composé unique que son capital initial de 25 000 EUR aurait dû procurer pendant le même laps de temps pour arriver au même résultat.

Date Valeur Vn

Différence Vn-Vn-1

Rapport Vn / Vn-1

Taux [Vn-Vn-1] / Vn-1

TAEG 4.72%

1 jan 2000 25 000 - - - 25 000 1 jan 2001 27 000 +2000 1.080 8% 26 180 1 jan 2002 30 240 +3240 1.120 12% 27 416 1 jan 2003 29 332 -908 0.970 -3% 28 710 1 jan 2004 30 065 +773 1.025 2.5% 30 065

Total 5 065 Par an 1 266 4.875%

1 Un changement de la base du logarithme ne change en rien la valeur de la moyenne géométrique. On

peut tout aussi bien utilier les logarithmes décimaux que les logarithmes népériens.

Page 19: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.15

La première erreur classique consiste à calculer le gain réalisé sur la période considérée :

30 065 - 25 000 = 5 065 EUR

puis à diviser ce gain par le nombre d'années :

5 065 / 4 = 1 266.25 EUR

puis à ramener ce montant annuel au montant initial :

1 266.25 / 25 000 = 0.05065 = 5.065 % par an

Ce résultat est FAUX. Il s'agit d'un taux d'intérêt simple et non d'un taux d'intérêt composé.

La seconde erreur classique consiste à calculer la moyenne arithmétique des taux annuels :

8% + 12% - 3% + 2.5% = 19.5%

puis à diviser ce taux par le nombre d'années :

19.5% / 4 = 4.875 % par an

Ce résultat est FAUX mais cette valeur se rapproche déjà de la valeur exacte.

La solution exacte consiste à faire la moyenne géométrique des rapports de croissance :

0472.12026.1025.1970.0012.1080.1x 44g ==⋅⋅⋅=

soit 4.72 % par an

Si le capital initial avait été bloqué et capitalisé à ce taux de 4.72% pendant quatre ans, il aurait atteint la même valeur aujourd'hui ainsi qu'en témoigne la dernière colonne du tableau.

2.6. La moyenne harmonique

La moyenne harmonique est obtenue par calcul. Son inverse est la moyenne arithmétique de l'inverse des valeurs observées.

Soit N est le nombre d'observations et x1, x2, ..., xi, ..., xN respectivement les 1e ,2e , ...,ie et dernière valeurs observées alors la moyenne harmonique, notée hx vaut :

++++⋅=

N321h x1...

x1

x1

x1

N1

x1 [eq. 2.29]

ce que l'on note de manière plus condensée, grâce à l'opérateur Σ (sigma), sous la forme :

∑=

⋅=N

1i ih x1

N1

x1 [eq. 2.30]

ou

Page 20: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.16

∑=

=N

1i i

h

x1

Nx [eq. 2.31]

Le principal inconvénient de la moyenne harmonique est qu'aucune des valeurs observées ne peut être nulle.

La moyenne harmonique est assez peu utilisée dans la vie courante.

2.7. Généralisation de la moyenne

Les moyennes géométriques et harmoniques ouvrent la voie à une infinité de manières de calculer la moyenne. Il suffit :

- de choisir une fonction f(x) quelconque, - d'appliquer cette fonction f(x) aux valeurs observées xi, - de calculer la moyenne arithmétique des valeurs f(xi) obtenues, - d'appliquer la fonction inverse f -1(x) à la moyenne arithmétique obtenue.

( ) ( ) ( ) ( ) ( )[ ]N321f xf...xfxfxfN1xf ++++⋅= [eq. 2.32]

( ) ( )∑=

⋅=N

1iif xf

N1xf [eq. 2.33]

( )f1

f xfx −= [eq. 2.34]

Nous pouvons ainsi définir - entre autres - les moyennes :

- arithmétique : f(x) = x

- géométrique : f(x) = ln(x)

- harmonique : f(x) = 1/x

- quadratique : f(x) = x2

- cubique : f(x) = x3

- trigonométrique : f(x) = tan x - etc.

2.8. Classement des moyennes

On démontre facilement que :

La moyenne géométrique est toujours plus petite ou égale à la moyenne arithmétique.

Considérons deux nombres x1 et x2 positifs et la différence de leur racine carrée :

21 xx − [eq. 2.35]

Le carré de cette expression est évidemment positif ou nul car le carré d'un nombre est toujours positif ou nul.

[ ] 0xx2

21 ≥− [eq. 2.36]

Développons en appliquant la règle des produits remarquables

Page 21: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.17

( ) ( ) 0xxx2x2

2212

1 ≥+⋅⋅− [eq. 2.37]

0xxx2x 2211 ≥+⋅⋅− [eq. 2.38]

Faisons passer la racine carrée dans l'autre membre, puis divisons les deux membres par 2

2121 xx2xx ⋅⋅≥+ [eq. 2.39]

2121 xx

2xx

⋅≥+

[eq. 2.40]

Le membre de gauche n'est rien d'autre que la moyenne arithmétique des deux nombres tandis que le membre de droite représente leur moyenne géométrique.

gxx ≥ [eq. 2.41]

On démontre de manière similaire que :

La moyenne harmonique est toujours plus petite ou égale à la moyenne géométrique.

Reprenons les deux nombres x1 et x2 positifs et la différence des inverses de leur racine carrée :

21 x

1x1

− [eq. 2.42]

Le carré de cette expression est évidemment positif ou nul car le carré d'un nombre est toujours positif ou nul.

0x1

x1

2

21≥

− [eq. 2.43]

Développons en appliquant la règle des produits remarquables

0x1

xx2

x1

2211≥+

⋅− [eq. 2.44]

Faisons passer la racine carrée dans l'autre membre, puis divisons les deux membres par 2

2121 xx

1x1

x1

21

⋅≥

+ [eq. 2.45]

Le membre de gauche n'est rien d'autre que l'inverse de la moyenne harmonique des deux nombres tandis que le dénominateur du membre de droite représente leur moyenne géométrique.

gh x

1x1

≥ [eq. 2.46]

En inversant les fractions, on inverse également le sens de l'inégalité :

gh xx ≤ [eq. 2.47]

Par transitivité des deux propositions précédentes, on a

Page 22: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 2 - Paramètres de position

H. Schyns 2.18

xxx gh ≤≤ [eq. 2.48]

harmonique ≤ géométrique ≤ arithmétique

L'égalité n'est obtenue que quand toutes les valeurs observées sont égales entre elles.

Tous les paramètres de position s'expriment dans la même unité de mesure que les données observées.

2.9. Comparaison moyenne médiane

Pour une distribution symétrique, le mode, la moyenne et la médiane sont confondues (fig. 2.10).

fig. 2.10 Médiane et moyenne dans une distribution symétrique

Dans le cas d'une distribution non symétrique, qui possède une queue de distribution, la moyenne et la médiane sont distinctes. La moyenne, qui est influencée par les valeurs extrêmes se déplace vers la queue. (fig. 2.10). L'écart est d'autant plus grand que la queue de distribution est longue.

fig. 2.11 Médiane et moyenne dans une distribution asymétrique

Inversement, en se basant sur la valeur de la médiane et de la moyenne, nous pourrons deviner si la distribution a une queue ou non et de quel côté elle se situe.

Page 23: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.1

3. Paramètres de dispersion

3.1. Position du problème

Considérons trois groupes (a, b, c) de cinq enfants ou de jeunes auxquels on demande leur âge. Nous obtenons le tableau suivant :

Groupe a b c Âges 8 6 4

9 8 7 10 10 10 11 12 13 12 14 16

Moyenne 10 10 10 Médiane 10 10 10

Sur base de ce tableau, nous construisons les histogrammes de la fig. 3.1.

fig. 3.1 Histogrammes de même moyenne

Comme les trois groupes sont différents, la situation représentée par l'histogramme (a) est différente de celles représentées par les histogrammes (b) et (c).

Pourtant, dans les trois cas de figure, la moyenne et la médiane sont identiques et constantes :

10 x~ x == [eq. 3.1]

Il est clair que les paramètres de position tels que la moyenne et la médiane ne suffisent pas pour décrire l'hétérogénéité de ces trois groupes. Or, ce qui les distingue, c'est l'étalement des âges observés.

En d'autres mots, il nous manque un paramètre pour caractériser la dispersion des observations autour du paramètre de position.

Page 24: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.2

Les paramètres de dispersion caractérisent l'étalement des observations autour d'un paramètre de position.

On ne détermine pas de paramètres de dispersion pour les variables qualitatives nominales.

On attend d'un paramètre de dispersion qu'il ait les mêmes propriétés qu'un paramètre de position, c'est-à-dire, qu'il soit :

- aisé à déterminer, - représentatif, - stable.

Les quatre paramètres de dispersion les plus utilisés sont :

- la plage ou amplitude (ang.: range, span), - l'écart interquartile (ang.: interquartile range), - l'écart absolu moyen (ang.: mean deviation), - l'écart-type et la variance (ang.: standard deviation, variance).

Nous voyons déjà que les paramètres de dispersion sont basés sur la notion d'écart.

3.2. La plage ou amplitude

3.2.1. Définition

La plage ou amplitude est la différence entre la plus grande (maximum) et la plus petite (minimum) des valeurs observées.

A = xmax - xmin [eq. 3.2]

Cette définition sous-entend qu'il est possible de calculer une différence ce qui limite le calcul de la plage aux variables quantitatives (discrètes ou continues).

3.2.2. Variable qualitative ordinale

Comme il a été dit plus haut, il n'est pas possible de calculer la plage d'une variable qualitative. Toutefois, dans le cas d'une variable qualitative ordinale, nous pourrons exprimer la plage par une phrase du type :

"Les valeurs observées se répartissent toutes entre la valeur 'satisfaisant' et la valeur 'presque parfait'."

3.2.3. Variable quantitative

La plage se calcule de la même manière, qu'il s'agisse de variables discrètes ou de variables continues.

Page 25: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.3

A titre d'exemple, repartons du tableau classé relatif à l'enquête sur la taille du conducteur (tableau 3.1) :

Taille (m) 1.47 1.48 1.53 1.54 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.67 1.67 1.67 1.69 1.69 1.72 1.78 1.79 1.86

tableau 3.1 Taille du conducteur

A = xmax - xmin

A = 1.86 – 1.47 = 0.39 m [eq. 3.3]

Notons que l'amplitude [ A ] s'exprime dans les mêmes unités que la variable analysée.

3.2.4. Avantages et inconvénients

L'amplitude présente peu d'avantages :

- elle est très facile à déterminer, - elle permet de définir la largeur des classes dans le cas de variables continues, - elle est unique car chaque série n'a qu'une et une seule amplitude,

L'amplitude présente un inconvénient majeur :

- son calcul ne fait intervenir que les deux observations extrêmes; elle n'est donc pas représentative de l'ensemble,

- elle peut varier très fortement d'un échantillon à un autre et est donc très instable,

Les tableurs tels que Excel et OpenOffice ne proposent pas de fonction de calcul de l'amplitude. Par contre, elle se calcule facilement à partir des fonctions MAX() et MIN().

3.3. L'écart interquartile

3.3.1. Définition

Avant de parler d'écart interquartile, il est nécessaire de définir la notion de quartile.

Les quartiles – il y en a trois – se définissent comme la médiane.

Nous savons que la médiane est la valeur qui partage les observations (après classement) en deux groupes contenant le même nombre d'observations. C'est la valeur qui correspond à la fréquence relative cumulée de 50%.

De manière similaire, les quartiles divisent la liste en quatre groupes contenant le même nombre d'observations.

En d'autres mots, alors que la médiane réalise un partage 50/50, les quartiles [ Qi ] réalisent respectivement les partages :

Page 26: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.4

- Q1 : 25/75 - Q2 : 50/50 - Q3 : 75/25

Nous voyons que le deuxième quartile [ Q2 ] est égal à la médiane (1).

Les quartiles se déterminent comme la médiane, à partir du tableau trié. Dans le cas de la médiane, nous devions considérer deux types de calcul selon que le nombre d'observations était pair ou impair. Cette fois, nous devons considérer quatre cas selon que le nombre d'observations est :

- un multiple de 4 (p.ex.: 20) N = 4·q 2

xxQ 1qq

1++

= 2xx

Q 1q3q33

++=

- un multiple de 4 + 1 (p.ex.: 21) N = 4·q+1 1q1 xQ += 1q33 xQ +=

- un multiple de 4 + 2 (p.ex.: 22) N = 4·q+2 1q1 xQ += 2q33 xQ +=

- un multiple de 4 + 3 (p.ex.: 23) N = 4·q+3 1q1 xQ += 1q33 xQ +=

Cette façon de faire est illustrée sur le graphique suivant :

fig. 3.2 Définition des quartiles

Par exemple, supposons que nous disposions de 45 données. Le plus grand multiple de 4 inférieur ou égal à 45 est 44. Nous sommes donc dans le cas

N = 4q + 1 avec q = 11 [eq. 3.4]

Le premier quartile Q1 sera donc représenté par la 12ème valeur de la série (11+1) et le troisième quartile Q3 par la 34ème (33+1).

L'écart interquartile [ eQ ] est défini comme la différence entre le troisième et le premier quartile :

eQ = Q3 – Q1 [eq. 3.5]

1 Dans le même ordre d'idées, la statistique définit aussi les Déciles (1 à 9) et les Centiles (1 à 99)

Page 27: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.5

Il recouvre la moitié des observations.

3.3.2. Variable qualitative

La définition implique le calcule d'une différence, ce qui est impossible dans le cas des variables nominales. Toutefois, dans le cas d'une variable qualitative ordinale, nous pourrons exprimer l'écart interquartile par une phrase du type :

"Les premiers 25% des valeurs observées se situent en-deça de la valeur 'satisfaisant' tandis que les derniers 25% si situent au-delà de la valeur 'presque parfait'."

3.3.3. Variable quantitative discrète

Reprenons l'exemple déjà étudié de la composition de ménage (tableau 3.2).

Composition du Ménage 1 1 1 1 1 1 1 1 2 2 2 3 3 3 3 4 4 4 4 6+

tableau 3.2 Composition du ménage

Ici, nous avons un peu de chance car nous disposons de 20 observations et 20 est divisible par 4. Nous pouvons répartir les données en quatre lignes de cinq données et nous sommes donc dans le cas (a) de la définition. Par conséquent, le premier quartile est défini par la moyenne entre la cinquième et la sixième observation :

1 211 2

xx Q 65

1 =+=+

= [eq. 3.6]

Nous procédons de même pour le troisième quartile

.53 243 2

xx Q 1615

3 =+=+

= [eq. 3.7]

L'écart interquartile [ eQ ] est la différence entre le troisième et le premier quartile :

eQ = 3.5 – 1 = 2.5 [eq. 3.8]

Dans le diagramme des fréquences cumulées, les quartiles correspondent à la première barre traversée par l'horizontale tracée à 25% ou 75%, sauf si l'horizontale coïncide avec le sommet de la barre, auquel cas nous ferons la moyenne des deux valeurs adjacentes :

Page 28: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.6

fig. 3.3 Quartiles d'une variable discrète.

3.3.4. Variable quantitative continue

Dans le cas des variables quantitatives continues, la détermination des quartiles est identique à ce qui a été vu au point précédent.

Repartons du tableau de chiffres sur la taille du conducteur (tableau 3.3).

Taille (m) 1.47 1.48 1.53 1.54 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.67 1.67 1.67 1.69 1.69 1.72 1.78 1.79 1.86

tableau 3.3 Taille du conducteur

Le découpage en quarts est identique à ce qui a été effectué plus haut. Pour le premier et troisième quartile, nous avons :

545.1255.154.1Q1 =+= m [eq. 3.9]

69.1269.169.1Q3 =+= m [eq. 3.10]

Nous pouvons aussi déterminer les quartiles et l'écart interquartile à partir du tableau regroupé :

Taille du conducteur (m)

Valeurs de la variable

Fréquence relative

Fréquence relative

cumulée xi fi Fi [1.40 , 1.50 [ 10 % 10 % [1.50 , 1.60 [ 40 % 50 % [1.60 , 1.70 [ 30 % 80 % [1.70 , 1.80 [ 15 % 95 % [1.80 , 1.90 [ 5 % 100 % Nbre observ. 100 % 100 %

Page 29: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.7

En nous servant de la colonne des fréquences relatives cumulées, nous voyons que le premier quartile (25%) se trouve dans l'intervalle [ 1.50 , 1.60 ]; la borne 1.50 correspondant à 10% et la borne 1.60, à 50%.

En appliquant les formules d'interpolation linéaire, nous trouvons :

[ ] 10.050.010.025.050.160.150.1Q1 −

−⋅−+= [eq. 3.11]

54.140.015.010.050.11Q =⋅+= [eq. 3.12]

De même, le troisième quartile (75%) se trouve dans l'intervalle [ 1.60, 1.70 ]; la borne 1.60 correspondant à 50% et la borne 1.70 à 80% :

[ ] 50.080.050.075.060.170.160.13Q

−−⋅−+= [eq. 3.13]

68.130.025.010.060.13Q =⋅+= [eq. 3.14]

Nous en déduisons la valeur de l'écart interquartile :

eQ = 1.68 – 1.54 = 0.14 m [eq. 3.15]

La détermination graphique des quartiles et de l'écart interquartile est illustrée sur le diagramme des fréquences relatives cumulées de la fig. 3.4

fig. 3.4 Quartiles d'une variable continue.

3.3.5. Avantages et inconvénients

L'écart interquartile présente plusieurs avantages, semblables à ceux de la médiane :

- il est assez facile à déterminer, - il part du classement de toutes les observations; il est donc représentatif de

l'ensemble, - il est unique car chaque série n'a qu'un et un seul jeu de quartiles, - il est peu sensible aux valeurs extrêmes, ce qui en fait un paramètre

remarquablement stable,

L'écart interquartile présente aussi un inconvénient :

Page 30: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.8

- quand on dispose de plusieurs échantillons qui observent la même variable, il n'est pas possible de définir l'écart interquartile général à partir des écarts interquartiles partiels.

Dans les tableurs tels que Excel et OpenOffice les quartiles sont calculés grâce à la fonction QUARTILE(). qui prend en paramètre la série de données et le numéro du quartile à calculer (0 à 4) (1). De là, on calcule facilement l'écart interquartile.

3.4. Notion d'écart

Dans le cadre des paramètres de position, on appelle écart la différence entre une valeur xi particulière et la moyenne de toutes les valeurs xi, soit xmoy

x x e ii −= [eq. 3.16]

Le calcul de l'écart faisant intervenir une soustraction, il s'applique donc qu'aux variables quantitatives

3.5. L'écart moyen

Puisque les valeurs [ xi ] s'écartent plus ou moins de la moyenne, une première idée qui vient à l'esprit consiste à calculer la moyenne des écarts et à prendre cette valeur comme mesure de la dispersion.

La moyenne des écarts est toujours égale à zéro, quelle que soit la série de nombres considérée !

Prenons une fois de plus l'exemple de la taille des conducteurs () :

Taille (m) 1.47 1.48 1.53 1.54 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.67 1.67 1.67 1.69 1.69 1.72 1.78 1.79 1.86

Moyenne des mesures 1.628 Ecarts (m)

-0.158 -0.148 -0.098 -0.088 -0.088 -0.078 -0.068 -0.058 -0.048 -0.038 -0.028 0.042 0.042 0.042 0.062 0.062 0.092 0.153 0.163 0.233

Moyenne des écarts 0.000 tableau 3.4 Ecarts à la moyenne

La somme des écarts négatifs compense exactement la somme des écarts positifs (2).

1 Q0 et Q4 correspondent respectivement au minimum et au maximum observés. 2 A condition de ne pas arrondir les chiffres

Page 31: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.9

C'est toujours le cas et nous le démontrons aisément :

x x e ii −= [eq. 3.17]

( )∑∑==

−=N

1ii

N

1ii x x e [eq. 3.18]

( )∑∑==

−=N

1ii

N

1ii x xN

1 eN1 [eq. 3.19]

∑∑∑===

⋅−⋅=⋅N

1i

N

1ii

N

1ii xN

1 xN1 eN

1 [eq. 3.20]

Or, dans le membre de droite, le premier terme n'est autre que la moyenne et, dans le second, la moyenne ne fait pas intervenir l'indice et peut sortir de la somme (voir 7.2.1)

xNN1 x eN

1 N

1ii ⋅⋅−=⋅∑

= [eq. 3.21]

0 eN1 N

1ii =⋅∑

= [eq. 3.22]

3.6. L'écart absolu moyen

Ainsi que nous venons de la voir, le fait que la moyenne des écarts soit nulle vient du fait que les écarts négatifs compensent exactement les écarts positifs.

Cette compensation ne peut avoir lieu si nous remplaçons les écarts [ ei ] par leur valeur absolue (1). Dès lors, la somme des écarts absolus est toujours différente de zéro sauf si toutes les valeurs [ xi ] sont identiques. Il est donc possible de calculer l'écart absolu moyen (ang.: average absolute deviation)

x x e ii −= [eq. 3.23]

∑∑==

−⋅=⋅=N

1ii

N

1iiABS x xN

1 eN1 e [eq. 3.24]

Ecarts absolus (m) 0.158 0.148 0.098 0.088 0.088 0.078 0.068 0.058 0.048 0.038 0.028 0.042 0.042 0.042 0.062 0.062 0.092 0.153 0.163 0.233 Moyenne des écarts absolus 0.089

tableau 3.5 Ecarts absolus à la moyenne

Dans les tableurs, l'écart absolu moyen est calculé par la fonction ECART.MOYEN().

1 La valeur absolue d'un nombre est ce nombre sans son signe : la valeur absolue d'un nombre positif est

ce même nombre; la valeur absolue d'un nombre négatif est ce nombre changé de signe (de – vers +)

Page 32: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.10

3.7. La variance et écart-type

Lorsqu'ils veulent se débarrasser d'un nombre négatif, les mathématiciens utilisent une astuce bien commode : ils l'élèvent au carré.

Nous pouvons appliquer ce principe pour calculer un paramètre de dispersion :

Au lieu de calculer la moyenne des écarts, nous calculons - la moyenne des carrés des écarts (ang.: mean of squared differences). nous prenons ensuite - la racine carrée du résultat pour éliminer l'effet du carré.

Repartons du tableau 3.4 de notre exemple :

Carré des écarts (m2) 0.0250 0.0220 0.0100 0.0080 0.0080 0.0060 0.0050 0.0030 0.0020 0.0010 0.0010 0.0020 0.0020 0.0020 0.0040 0.0040 0.0090 0.0230 0.0260 0.0540

Ecart carré moyen (m2) 0.0109 Racine carrée (m) 0.104

L'écart carré moyen se nomme variance (ang.: variance) et sa racine carrée est l'écart-type (ang.: standard deviation).

( )∑∑==

−⋅=⋅=N

1i

2i

N

1i

2i x xN

1 eN1 Var [eq. 3.25]

En développant la somme des différences, peut également écrire

2

2N

1i

N

1i

²

N

xN xNVar

⋅−⋅

=∑∑== [eq. 3.26]

eN1 Var s e

N

1i

2iTYPE ∑

=⋅=== [eq. 3.27]

Dans les tableurs, ces deux grandeurs sont calculées par les fonctions VAR.P() ou VARP() et ECARTYPE.P() ou ECARTYPE.P()

Cette définition pose cependant un petit problème conceptuel :

Le but des statistiques est de définir les caractéristiques d'une population à partir de celles d'un échantillon.

Ainsi, quand nous déterminons la moyenne d'un échantillon, nous espérons qu'elle correspond à la moyenne de la population (à une certaine précision près)(1).

La théorie – qui sort du cadre de ce cours – nous démontre qu'il y a bien correspondance. En langage statistique, on dit que :

1 Ce point fera l'objet du chapitre sur l'inférence statistique et les tests.

Page 33: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.11

La moyenne de l'échantillon est un estimateur non biaisé de la moyenne de la population

De même, quand nous déterminons la dispersion d'un échantillon au moyen de sa variance et de son écart-type, nous espérons que ces valeurs correspondent à celles de la population. Hélas, ici, la théorie nous dit que c'est faux !

La variance et l'écart-type de l'échantillon tels que définis par les équations [3.25] et [3.27] sous-estiment la variance de la population. Ce sont des indicateurs biaisés.

La théorie démontre que, pour corriger le biais, il faut diviser la somme des carrés par [ N-1 ] et non par le nombre d'observations [ N ] (1).

( )∑∑==

−⋅=⋅−

=N

1i

2i

N

1i

2i x x e Var 1-N

11N

1 [eq. 3.28]

( )1NN

xN xNVar

2N

1i

N

1i

²

−⋅

⋅−⋅

=∑∑== [eq. 3.29]

e Var s eN

1i

2iTYPE ∑

=⋅

−=== 1N

1 [eq. 3.30]

Dans les tableurs, ces deux grandeurs sont calculées par les fonctions VAR() et ECARTYPE().

Dans les applications, nous utiliserons toujours les expressions [ 3.28 ], [ 3.29 ] et [ 3.30 ] (2).

L'unité dans laquelle s'exprime la variance est le carré de l'unité des observations. Dans le cas présent, il s'agit de mètres carrés puisque la taille s'exprime en mètres (ici var = 0.0109 m2). A cause de cette unité, la variance est difficile à interpréter.

Par contre, l'unité de l'écart-type est identique à celles des observations (ici 0.104 m). C'est donc une grandeur plus commode.

Comme le calcul fait intervenir le carré des écarts, il suffit qu'une observation s'éloigne beaucoup de la moyenne pour que l'écart-type augmente énormément. En fait, un seul grand écart a plus d'impact sur l'écart-type qu'une série de petits écarts.

Nous pouvons aussi calculer les paramètres de dispersion à partir des tableaux regroupés en classe (tableau 3.6)

1 La grandeur [ N-1 ] est souvent appelé "nombre de degrés de liberté" 2 Retenons que VAR() est utilisé dans le cas général et VARP()uniquement quand on dispose des chiffres

de toute la population.

Page 34: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.12

Classes Centre Fréq. absolue Produit Ecarts Carré

écarts Produit

xi ci ni ni•ci ei = ci-moy

ei2 ni•ei

2

[1.40 - 1.50 [ 1.45 2 2.90 -0.165 0.02722 0.05444 [1.50 - 1.60 [ 1.55 8 12.40 -0.065 0.00422 0.03376 [1.60 - 1.70 [ 1.65 6 9.90 0.035 0.00122 0.00732 [1.70 - 1.80 [ 1.75 3 5.25 0.135 0.01822 0.05466 [1.80 - 1.90 [ 1.85 1 1.85 0.235 0.05522 0.05522

Totaux 20 32.30 SCE 0.20540 Moyenne 1.615 Var 0.01081 Racine Ec-Type 0.104

tableau 3.6 Classes de taille du conducteur

( )∑∑==

−⋅⋅=⋅⋅−

=K

1i

2ii

N

1i

2ii x cn en Var 1-N

11N

1 [eq. 3.31]

La somme des carrés des écarts (SCE) est un concept très important en statistiques; il reviendra dans d'autres chapitres (ici SCE = 0.20540).

Lorsque la distribution des observations suit la loi normale ou gaussienne, il existe une relation entre l'écart interquartile, l'écart absolu moyen et l'écart-type :

s35.1 eQ ⋅≈ [eq. 3.32]

s.800 eABS ⋅≈ [eq. 3.33]

3.8. Contrôle industriel

La moyenne et l'écart-type sont les paramètres de position et de dispersion les plus utilisés. Pourtant, dans l'industrie, et plus particulièrement dans le cadre du contrôle de production, on leur préfère souvent la médiane et l'écart interquartiles.

En effet, pour suivre un processus, il faut effectuer des mesures. Certaines d'entre elles sont continues et informatisées (p.ex.: température, pression,…); mais croire que tout est automatisé est une erreur. Dans de nombreuses PME, une grande partie des relevés se font à la main : un opérateur muni d'une feuille de route relève périodiquement les chiffres affichés par les appareils de mesure.

Comment déléguer à cet opérateur qui est en première ligne une partie de l'analyse des données quand on sait que ses connaissances en statistiques sont nulles et que celles en mathématiques sont fort limitées.

Prenons l'exemple du suivi de la production de pots de confiture artisanale.

Nous demanderons à l'opérateur chargé de suivre une production de prélever un certain nombres de pots de confiture.

En vertu de ce qui a été dit au point 3.3.1 le nombre [ n ] de pots à prélever sera de la forme "multiple de 4 plus 3" :

n = 4·p + 3 [eq. 3.34]

soit 7, 11, 15, 19,… pots selon la précision voulue.

Page 35: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 3 - Paramètres de dispersion

H. Schyns 3.13

Nous lui demanderons ensuite de les peser et de classer les poids obtenus dans l'ordre croissant (ou décroissant) puis de noter uniquement le poids de certains pots selon le tableau 3.7 afin de déterminer les quartiles et la médiane :

p Nombre de pots

Pot Q1

Pot Median

Pot Q3

1 7 2 ème 4 ème 6 ème 2 11 3 ème 6 ème 9 ème 3 15 4 ème 8 ème 12 ème 4 19 5 ème 10 ème 15 ème tableau 3.7 Position des quartiles en fonction du nombre de pots

Si les poids suivent une distribution gaussienne (1), alors la médiane donne une bonne estimation de la moyenne et l'écart interquartile vaut environ 1.35 fois l'écart-type ainsi que vu plus haut.

x~ x ≈ [eq. 3.35]

35.1e

s Q≈ [eq. 3.36]

1 La distribution normale ou gaussienne sera définie dans un prochain chapitre

Page 36: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 4 - Paramètres de formes

H. Schyns 4.1

4. Paramètres de formes

4.1. Asymétrie

(à développer…)

4.2. Moments

(à développer…)

Page 37: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 5 - Conclusion

H. Schyns 5.1

5. Conclusion

Nous avons déjà vu que pouvons synthétiser un grand ensemble de données par un histogramme et un polygone de fréquences relatives cumulées.

Nous avons vu dans ce chapitre que nous pouvons également remaner les données à quelques grandeurs caractéristiques :

- des paramètres de position mode, médiane, moyenne - des paramètres de dispersion amplitude, ecart absolu moyen, variance, écart-type - éventuellement un paramètre d'asymétrie

Lors de ces opération, le détail des données initiales s'estompe au profit de la facilité de traitement.

La plus grosse difficulté n'est pas tant de calculer les paramètres que d'interpréter leurs valeurs.

Page 38: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 6 - Exercices

H. Schyns 6.1

6. Exercices

Exercice 1

Quelles valeurs faut-il prendre pour définir le premier quartile, la médiane, et le troisième quartile dans une série triée qui contient :

- 120 données - 23 données - 50 données - 65 données

Exercice 2

En 2002, une revue d'économie publie le graphique ci-dessous :

En 2010, une revue médicale publie le graphique ci-dessous :

Pour chacun des graphiques - de quoi s'agit-il ? - les graphiques témoignent-ils d'une situation ou d'une évolution ? - quelles informations pouvez-vous en tirer ? - quelle est la situation la plus favorable (justifiez sur le graphique) ? - les informations que vous en tirez sont elles cohérentes avec vos

connaissances générales ?

Page 39: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 6 - Exercices

H. Schyns 6.2

Exercice 3

Dans un aéroport, on a pesé les valises d'un échantillon de 25 passagers pris au hasard.

18.6 22.9 19.2 12.6 18.3 15.8 16.7 14.6 21.7 15.7 18.0 22.9 16.8 19.7 17.2 17.5 18.1 18.5 19.1 17.2 21.9 14.8 19.1 14.6 22.6

tableau 6.1 Poids des valises (kg)

Déterminez les paramètres de position de cette série

- classe modale - médiane - moyenne arithmétique

ainsi que ses paramètres de dispersion

- plage - écart interquartile - écart absolu moyen - variance - écart-type

Exercice 4

Une usine teste un nouveau procédé visant à économiser l'énergie et à lutter contre la pollution.

Pendant 20 jours, on a prélevé un échantillon d'effluent à la fin de chacune des pauses (06-14 / 14-22 / 22-06). L'analyse révèle la présence d'un agent polluant. Les teneurs sont reprises au tableau ci-dessous.

Après la mise en place du nouveau procédé, on a procédé de la même manière pendant 25 jours

On demande :

- Calculez la moyenne et la médiane des mesures effectuées dans chacune des poses, avant et après modification du processus.

- Calculez la variance, l'écart-type et l'écart interquartile des mesures effectuées dans chacune des poses, avant et après modification du processus.

- Y a-t-il des différences significatives de pollution entre les pauses ? - Peut-on dire que le nouveau processus a apporté une amélioration significative

par rapport à l'ancien ? - Peut-on admettre que le niveau de polluants est statistiquement nul ?

Page 40: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 6 - Exercices

H. Schyns 6.3

Avant (g/kg) Après (g/kg) Jour Pause Jour Pause

06-14 14-22 22-06 06-14 14-22 22-06 1 26.6 20.4 28.6 1 11.5 23.2 19.9 2 21.9 19.1 28.4 2 20.6 19.7 18.8 3 22.8 25.7 34.3 3 15.1 13.9 14.7 4 22.6 21.1 28.9 4 16.5 12.7 17.5 5 28.0 25.4 34.3 5 13.8 16.2 13.9 6 23.0 18.7 26.0 6 18.1 14.8 19.4 7 28.0 21.9 24.6 7 25.1 21.1 17.6 8 20.3 21.2 27.4 8 16.1 19.7 13.8 9 19.1 21.9 26.4 9 11.1 17.6 20.2

10 21.6 20.9 21.3 10 8.4 20.3 17.6 11 20.7 25.4 26.3 11 20.6 16.3 19.1 12 16.1 21.4 32.2 12 18.8 13.1 18.2 13 20.6 20.1 33.5 13 16.5 12.6 21.4 14 26.1 25.9 40.2 14 14.6 18.5 15.7 15 27.3 22.1 28.8 15 21.9 14.5 21.2 16 33.4 19.7 31.4 16 17.4 16.7 19.4 17 22.9 26.7 22.6 17 15.5 20 16.4 18 25.3 20.7 27.3 18 16 6.7 15.8 19 17.2 12.9 26.1 19 11.3 20.7 17.5 20 21.6 21.3 36.3 20 19.4 9.1 16.8

21 12 17.6 20.1 22 15.3 13.3 19.4 23 14.8 15.5 18.3 24 12.4 14.7 19.7 25 19.2 18.4 17.6

tableau 6.2 Teneur en polluants (g/kg)

Page 41: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 7 - Annexe : l'opérateur Σ

H. Schyns 7.1

7. Annexe : l'opérateur Σ

7.1. Définition

Les additions sont très nombreuses en statistiques. Calculer un paramètre implique presque toujours le calcul d'une somme de très nombreux termes.

Nous pouvons écrire l'expression d'une somme sous une forme explicite :

N321 x...xxxS ++++= [eq. 7.1]

Souvent, nous insèrerons au milieu de l'expression un terme générique tel que xi ou xj ou xk :

Ni321 x...x...xxxS ++++++= [eq. 7.2]

L'usage a consacré l'emploi des indices i, j, k, ... mais ce choix est arbitraire; nous pourrions tout aussi bien utiliser des signes tels que ♣, ♦, ♥, ♠.

Ecrites de cette manière, les sommes prennent beaucoup de place et, lorsqu'il faut combiner des sommes entre elles, l'écriture devient rapidement kilométrique et illisible. Pour contourner ce problème les mathématiciens ont créé une écriture symbolique qui utilise un caractère spécial appelé opérateur Σ (sigma).

Sous cette forme, la somme de l'équation 9.2 devient :

∑=

=N

1iixS [eq. 7.3]

L'expression se lit : la somme (Σ) de tous les x dont l'indice i (xi) prend les valeurs entières allant de 1 à N.

L'écriture fait apparaître le terme générique xi ainsi que les premier et dernier indices (1 et N). L'expression [ i=1 ] qui apparaît en dessous de l'opérateur rappelle que c'est l'indice i de l'expression générique qui varie. Cet indice est purement symbolique. A titre d'illustration, toutes les expressions de l'équation 9.4 représentent exactement la même somme :

∑∑∑∑==♥

♥==

====N

1TotoToto

N

1

N

1kk

N

1ii xxxxS [eq. 7.4]

Dans un langage informatique, l'opérateur sigma se traduit par une boucle for...next et le terme générique, l'argument de l'opérateur, forme le corps de la boucle. Dans un langage tel que C ou PHP, nous aurions un segment de code ressemblant à :

somme = 0.; for (i=1; i<= N; i++) somme += x[i];

Parfois, on omet de réécrire les bornes lorsqu'elles ont déjà été définies ou lorsque le contexte les rend évidentes :

∑=i

ixS [eq. 7.5]

Page 42: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 7 - Annexe : l'opérateur Σ

H. Schyns 7.2

7.2. De l'opérateur symbolique à la somme explicite

La bonne utilisation de l'opérateur Σ demande un peu d'habitude. Au début, il est plus aisé de passer de la forme symbolique à la forme explicite que de faire l'inverse. Dans ce paragraphe, nous allons développer quelques formes rencontrées en pratique.

7.2.1. Formes simples

Nous savons déjà que

Ni321N

1ii x...x...xxxx ++++++=∑

= [eq. 7.6]

Dans le même ordre d'idées

2012111020

10ii x...xxxx ++++=∑

= [eq. 7.7]

Le terme générique peut faire apparaître un exposant constant :

2N

2k

23

22

21

N

1k

2k x...x...xxxx ++++++=∑

= [eq. 7.8]

Il se peut que le terme générique ne contienne aucun "x" :

M...j...321jM

1j++++++=∑

= [eq. 7.9]

En particulier, la somme de tous les nombres entiers entre 10 et 100 s'écrit simplement :

100...121110j100

10j++++=∑

= [eq. 7.10]

De même pour la somme des carrés de 20 premiers nombres

400...94120...321j 222220

1j

2 ++++=++++=∑=

[eq. 7.11]

L'indice générique peut aussi apparaître en exposant :

NN210N

0k

k 2...4212...2222 ++++=++++=∑=

[eq. 7.12]

Dans certaines circonstances, l'indice peut disparaître complètement. Cela ne signifie pas que l'opérateur est sans objet, au contraire ! Par exemple :

183633333335

0M=⋅=+++++=∑

= [eq. 7.13]

Pour comprendre ce cas, réécrivons l'équation sous la forme de la boucle for...next du point 7.1

Page 43: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 7 - Annexe : l'opérateur Σ

H. Schyns 7.3

somme = 0.; for (M=0; i<= 5; i++) somme += 3;

Nous voyons que le corps de boucle va être exécuté six fois (on énonce 6 nombres quand on compte de 0 à 5). A chaque passage dans le corps de boucle, on ajoute 3 à la somme obtenue au passage précédent, ce qui correspond bien à l'expression développée dans l'équation 9.12.

7.2.2. Formes évoluées

Les choses se compliquent quand l'indice apparaît plusieurs fois dans le terme générique :

N21

N

1ii xN...x2x1xi ⋅++⋅+⋅=⋅∑

=

[eq. 7.14]

L'indice peut aussi faire l'objet d'une expression algébrique

11a

...3

a2

a1

a1j

a 2153110

0j

1j2 ++++=+∑

=

+ [eq. 7.15]

7.3. De la somme explicite à l'opérateur symbolique

7.3.1. Séries algébriques

Le principe de base est d'examiner les termes successifs afin de distinguer "ce qui bouge" de "ce qui se répète" d'un terme à l'autre.

7.3.2. Alternance de signe

L'algèbre présente souvent des séries dont les termes successifs sont alternativement positifs et négatifs telles que

... x x x x x S 54321 −+−+−= [eq. 7.16]

Le truc consiste à rechercher le terme générique comme si tous les termes étaient positifs.

... x x x x x S 5432'1 +++++= [eq. 7.17]

On s'aperçoit que la seule chose qui change est l'exposant. Le terme générique est donc

kx [eq. 7.18]

et l'exposant varie de 1 à l'infini, d'où

∑∞

==

1k

k'1 x S [eq. 7.19]

On utilise ensuite le fait que les puissances successives de –1 sont alternativement positives et négatives

Page 44: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 7 - Annexe : l'opérateur Σ

H. Schyns 7.4

(-1)0 = 1 (-1)1 = -1 (-1)2 = 1 (-1)3 = -1 (-1)4 = 1

Il suffit ensuite de multiplier la solution générale par une puissance de –1 initiale adéquate pour obtenir la solution :

( )∑∞

=

+ ⋅−=1k

k1k1 x1 S [eq. 7.20]

Dans le cas présent, l'exposant de –1 est [ k+1 ] car ce sont les termes en [ x ] dont l'exposant est pair qui sont affectés du signe moins. Nous aurions aussi bien pu écrire :

( )∑∞

=

+⋅−=0k

1kk1 x1 S [eq. 7.21]

7.3.3. Suites numériques

Les tests psychotechniques d'embauche présentent très souvent des suites de nombres pour lesquelles il faut deviner le terme suivant. Le problème qui se pose ici est assez semblable, sauf que les termes sont reliés par un opérateur [ + ] ou [ - ].

Pour résoudre le problème, il faut transformer la suite numérique en une suite algébrique. Plusieurs stratégies s'appliquent

- Série linéaire

Partons d'un exemple simple :

56 50 44 38 32 SL ++++= [eq. 7.22]

Calculons la différence entre les différents termes

32 38 44 50 56 +6 +6 +6 +6

Chaque fois que l'indice avance d'une unité, la valeur augmente de 6. Nous en déduisons que l'indice est multiplié par 6. L'expression doit donc faire apparaître

6·k [eq. 7.23]

D'autre part, la série commence à 32; le terme générique est donc

xk = 32 + 6·k [eq. 7.24]

Par contre, pour le premier terme, il ne faut pas ajouter 6, donc, pour le premier terme

k = 0 puis 1, 2, 3, 4

En rassemblant les informations

( )∑=

⋅+=++++=4

0kL k632 56 50 44 38 32 S [eq. 7.25]

- Série quadratique

Page 45: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 7 - Annexe : l'opérateur Σ

H. Schyns 7.5

Partons de la suite :

63 72 02 15 12 SQ ++++= [eq. 7.26]

Calculons la différence entre les différents termes

12 15 20 27 36 +3 +5 +7 +9 +2 +2 +2

Les premières différences ne sont pas constantes. Elles montrent une progression linéaire. Par contre, les secondes différences sont constantes. Nous en déduisons que l'indice intervient au carré. Pourquoi le carré ? parce que nous avons du faire deux rangs de différences :

k2 [eq. 7.27]

Reprenons le tableau et reconstituons le terme générique en soustrayant l'évolution due à l'indice puis calculons les différences des résidus :

xk 12 15 20 27 36 k 0 1 2 3 4 k2 0 1 4 9 16

xi - k2 12 14 16 18 20 diff +2 +2 +2 +2

Nous retombons sur quelque chose qui ressemble au premier cas vu plus haut

xk = 12 + 2·k + k2 avec k = 0, 1, 2,… [eq. 7.28]

En faisant intervenir nos souvenirs d'algèbre, nous pouvons écrire

xk = 11+ 1 + 2·k + k2 = 11 + (k + 1)2 [eq. 7.29]

En rassemblant les informations

( )[ ] [ ]∑∑==

+=++=++++=5

1k

24

0k

2Q k 11 1 k 11 63 72 02 15 12 S [eq. 7.30]

- Suite exponentielle ou puissance

Partons de la suite :

33 71 9 5 3 SE ++++= [eq. 7.31]

Calculons la différence entre les différents termes

3 5 9 17 33 +2 +4 +8 +16 +2 +4 +8

Cette fois, la ligne des différences secondes est identique à celle des différences premières. Nous nous trouvons en présence d'une série exponentielle dans laquelle l'indice apparaît en exposant. Ici, nous reconnaissons la suite des puissances de 2. Le terme générique fait donc intervenir

Page 46: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 7 - Annexe : l'opérateur Σ

H. Schyns 7.6

2k [eq. 7.32]

Reprenons le tableau et reconstituons le terme générique en soustrayant l'évolution due à l'indice puis calculons les différences des résidus :

xk 3 5 9 17 33 k 1 2 3 4 5 2k 2 4 8 16 32

xi – 2k 1 1 1 1 1 diff 0 0 0 0

Pourquoi avons-nous commencé l'indice à 1 et non à 0 comme précédemment ? Parce que la première différence vaut 2, ce qui est 2 exposant 1. Nous avons donc

xk = 2k + 1 [eq. 7.33]

En rassemblant les informations

( )∑=

+=++++=5

1k

kE 12 33 71 9 5 3 S [eq. 7.34]

Page 47: Cours de statistique - Bienvenue · Exercice 1 Exercice 2 Exercice 3 Exercice 4 7. ANNEXE : L'OPERATEUR S 7.1. Définition 7.2. De l'opérateur symbolique à la somme explicite 7.2.1.

Paramètres de position et de dispersion 8 - Sources

H. Schyns 8.1

8. Sources

- Théorie et méthodes statistiques (Vol 1, vol 2 et exercices) Pierre Dagnelie Presses Agronomiques de Gembloux On ne peut que conseiller la lecture de cet excellent ouvrage de référence.

- Biostatistiques Eric Depiereux, Benoît DeHertogh, Grégoire Vincke cours de Biostatistiques, Faculté des Sciences. http://webcampus.fundp.ac.be/claroline/document/goto/index.php/syllabus2004.pdf

- Chimie Analytique Skoog, West & Holler De Boek Les premiers chapitres constituent une excellente introduction aux statistiques.

- Statistique descriptive (et articles connexes) Anonyme Wikipedia fr.wikipedia.org http://fr.wikipedia.org/wiki/Statistique_descriptive