Download - Statistique Descriptive

Khalil F( TD-TP ) 1999-2000

CHAPITRE 1

I) LES STATISTIQUES EN SCIENCES HUMAINES

1. Définitions

On donne plusieurs définitions de « la statistique » (Howell) :

1 c’est l’étude des ensembles numériques et de leurs relations ; 2 c’est également le moyen d’obtenir des indications probables sur des ensembles

imparfaitement connus ;

La statistique est une méthode pour effectuer la synthèse de ces données. Elle met en œuvre plusieurs « statistiques » caractérisant et résumant les données. La moyenne fait

partie des statistiques, comme l’écart type, la variance, etc.

On appelle population un ensemble d’objets ou d’êtres sur lesquels on étudie une ou plusieurs caractéristiques ; chaque élément de cette population est appelé individu statistique. On s’intéresse, à propos de chaque individu, à une ou à plusieurs

caractéristiques, que l’on appelle caractères ou variables statistiques. L’échantillon est un sous-ensemble de la population de référence.

Quand on travaille uniquement sur les caractéristiques de l’échantillon, quand on utilise les statistiques pour décrire la nature de l’échantillon, on se situe dans le cadre des

statistiques descriptives. Quand on utilise les paramètres, les caractéristiques de l’échantillon pour estimer ceux de la population dont il est extrait, on se situe dans le cadre des statistiques inférentielles.

2. L’utilisation des statistiques en sciences humaines

2.1. La variabilité des conduites

Expériences de mesure des temps de réaction

tableau des temps de réaction en centièmes de seconde pour 20 présentations

successives d’un stimulus (d’après Reuchlin, 1998, Précis de statistique, PUF, p.21) N° d’ordre des 20 présentations du stimulus

1 2 3 4 5 6 7 8 9 10 11 12

1ère expérience : lampe rouge 20 15 18 25 17 32 18 17 19 23 19 21


seule

2ème expérience : lampe rouge

choisie parmi trois lampes de couleurs différentes

32 40 33 37 35 29 42 62 50 39 45 47

3ème expérience : lampe verte

seule

16 18 19 18 15 18 17 32 23 19 23 20

N° d’ordre des 20 présentations du stimulus

13 14 15 16 17 18 19 20 Moyenne des 20 temps

1ère expérience : lampe rouge seule

15 22 17 17 21 19 17 23 m1 = 19.75

2ème expérience : lampe rouge choisie parmi trois lampes de

couleurs différentes

52 37 38 39 40 41 42 39 m2 = 40.95

3ème expérience : lampe verte seule

18 25 15 15 17 23 17 19 m3 = 19.35

2.2. Exemples d’applications statistiques en psychologie


CHAPITRE 2

VARIABLES, NIVEAUX DE MESURE ET TABLEAU STATISTIQUE

1. Variables qualitatives et variables quantitatives On distingue les variables qualitatives et les variables quantitatives.

Une variable qualitative désigne une qualité de l’individu statistique ; chaque

observation appartient à une catégorie, à une modalité (exemple : couleur des cheveux,

sexe, situation géographique, catégorie socio-professionnelle, évaluation d’une copie avec A, B, C ou TB, B, …,). Même si on code ensuite A= 1, B=2, etc, le nombre n’exprime pas une quantité mais une qualité.

Une variable quantitative est caractérisée par une quantité numérique (durée, une note,

âge, …) ; elle résulte d’un dénombrement ou d’une mesure. Une variable quantitative

est continue, si elle peut prendre n’importe quelle valeur sur le continuum considéré (le temps, la taille, le poids, une note sur 20 si on observe des valeurs de 13.452, un score qui varie de 0 à 100). Elle est dite discontinue ou discrète, si elle ne prend que certaines

valeurs (le nombre de pièces d’un logement, le nombre d’enfants – on ne peut pas avoir 2.5 enfants pour un sujet).

2. Les échelles de mesure

Une autre façon d’appréhender les variables est celle qui consiste à distinguer les niveaux de mesure ou échelles de mesure. On distingue ainsi les échelles nominales (variables nominales), les échelles ordinales (variables ordinales) et les échelles par intervalle

(variables d’intervalle). Les relations existant entre les éléments ayant des valeurs

différentes sur l’échelle ne sont pas les mêmes selon que l’on se situe sur une échelle nominale, ordinale ou d’intervalle.

Les échelles nominales

Pour construire une échelle nominale, il faut répartir les observations dans un certain nombre de classes que l’on appelle « l’échelle ».

Les caractéristiques des échelles nominales sont les suivantes :

les classes sont définies a priori par le psychologue ;


chaque observation doit appartenir à une seule classe ;

si 2 observations sont dans la même classe, elles sont considérées comme étant équivalentes.

Si on attribue des numéros aux classes, ceux-ci n’ont pas de valeur numérique, c’est juste un moyen de les distinguer, de les nommer. Ils n’ont pas d’autre sens que celui

d’être identiques ou différents ; par exemple, au lieu d’appeler des classes A, B et C, on peut les appeler 1, 2 et 3 ou encore 13, 7 et 45.

Exemple d’échelle nominale : le test du Rorschach

Ce test utilise 10 planches composées de taches d’encre symétriques, certaines noires, d’autres colorées. Elles sont présentées successivement au sujet qui doit décrire « tout ce qu’on pourrait y voir ». Chaque réponse est notée 3 fois, en fonction de sa localisation,

de sont déterminant, et de son contenu. Chacune de ces notations se fait sur une échelle nominale :

l’échelle ‘localisation’ est constituée de classes comme

réponses globales (toute la planche) : G

réponses grand détail (découpes fréquemment interprétées dans chaque planche) : D

réponses petit détail : Dt

réponses détail dans le blanc : Dbl, etc…

l’échelle ‘déterminant’ distingue

les réponses formes : F

les réponses mouvement : K

les réponses couleur : C, etc…

l’échelle ‘contenu’ distingue

les réponses humaines

les réponses animaux, etc

Autre exemple d’échelle nominale : le code des catégories socio-professionnelles de

l’INSEE 0 : agriculteurs

1 : salariés agricoles 2 : patrons de l’industrie et du commerce 3 : professions libérales et cadres supérieurs

C’est un exemple des catégories les plus générales ; cette échelle est en fait divisée en classes plus fines, chaque catégorie étant elle-même détaillée :

21 : industriels employant plus de 5 salariés 22 : artisans employant 5 ouvriers au plus 23 : patrons pêcheurs


24 : gros commerçants 25 etc.

Les échelles ordinales

Le psychologue définit une relation d’ordre entre les observations (ou entre les catégories d’observations) et l’ensemble des observations ainsi ordonnées constitue une échelle ordinale.

Les nombres qui désignent les observations ou les catégories d’observations ont déjà la propriété de ceux qui désignent les observations dans le cas d’une échelle nominale : ce

sont des symboles, c’est une façon de distinguer les catégories. Mais dans le cas d’une

échelle ordinale, ils ont la propriété supplémentaire d’être des symboles ordonnés. Exemple de construction d’une échelle ordinale : l’échelle de Longeot

configuration Q1 Q2 Q3 note

1 0 0 0 0

2 1 0 0 1

3 1 1 0 2

4 1 1 1 3

On fait passer le test à une population de 35 enfants; on obtient les résultats suivants :

Note Effectifs effectifs

cumulés

0 (000) 5 5

1 (100) 12 17

2 (110) 15 32

3 (111) 3 35

Exemples d’échelles ordinales : les niveaux scolaires, le score d’anxiété, les notes (y

compris les scores bruts des tests d’aptitude ou des questionnaires de personnalité), les préférences et les opinions (beaucoup – assez - moyennement – peu - pas du tout ; très souvent – assez souvent – de temps en temps – rarement – jamais ; … )

Les échelles d’intervalles

Dans une échelle d’intervalles, les observations se répartissent dans des classes qui sont des intervalles ordonnés et réguliers. Les nombres qui définissent les échelles d’intervalles prennent tout leur sens. On peut parler de différences entre les points de

l’échelle. Exemple des temps de réaction moyens de 200 sujets aux 20 présentations de la lampe


rouge

On a le tableau descriptif suivant :

sujet

n°

moyenne des 20 temps

(centièmes de seconde)

1 25.02

2 65.51

3 19.96

….. 54.30

….. ….

200 34.72

M Effectifs effectifs

cumulés

pourcentages de sujet pourcentages cumulés

[10, 20[ 24 24 12 12

[20, 30[ 40 64 20 32

[30, 40[ 52 116 26 58

[40, 50[ 50 166 25 82

[50, 60[ 18 184 9 92

[60, 70[ 16 200 8 100

3. Les tableaux statistiques et les effectifs

Il existe des conventions pour désigner les variables, les effectifs, les sommes, etc.

Exemple : nous disposons des scores au test opératoire de Longeot de 50 enfants, d’âge différent (entre 6 et 10 ans) et provenant d’écoles différentes.

Sujet n° Ecole Test Longeot Age

1 A 2 7 ans 3 mois

2 B 3 9 ans 1 mois

3 A 0 6 ans 8mois

4 D 2 8 ans 5 mois

5 C 1 6 ans 10

mois

….. …

….. …

50 C 1 7 ans 11 mois

La population est l’ensemble des 50 sujets.


Les variables (X) sont :

X1 ‘école’, variable nominale, modalités A, B, C et D

X2 ‘Test Longeot’, variable ordinale, modalités 0, 1, 2, 3

X3 ‘âge’, variable d’intervalle

On peut élaborer 3 tableaux statistiques :

Ecole (X1)

X1

ni fi

A 12 24

B 11 22

C 20 40

D 7 14

50 100

ni est l’effectif absolu d’une valeur prise par la variable ; c’est le nombre

d’occurrences du caractère dans la population étudiée ; la somme de l’effectif total

est N.

fi est l’effectif relatif ; c’est le rapport de l’effectif absolu sur l’effectif total ; il est le

plus souvent donné en pourcentages, et est aussi appelé fréquence. fi = ni / N

N = ni

Test Longeot (X2)

X2 ni

fi ni ni fi fi

0 (000) 5 10 5 50 10 100

1 (100) 18 36 23 45 46 90

2 (110) 13 26 36 27 72 54

3 (111) 14 28 50 14 100 28

50 100 / / / /

l’effectif absolu cumulé croissant (ni ) de la valeur xj = ni de i=1 à i=j (dernière

valeur)

l’effectif absolu cumulé décroissant (ni ) de la valeur xj = ni de i=j (valeur de

‘départ’) à i=k (dernière modalité)


l’effectif relatif cumulé croissant (fi ) de la valeur xj = fi de i=1 à i=j

l’effectif relatif cumulé décroissant (fi ) de la valeur xj = fi de i=j à i=k

Age (X3)

X3 ni

fi ni ni fi fi

[6 ; 6.5[ 8 16 8 50 16 100

[6.5 ; 7[ 7 14 15 42 30 84

[7 ; 7.5[ 9 18 24 35 48 70

[7.5 ; 8[ 6 12 30 26 60 52

[8 ; 8.5[ 11 22 41 20 82 40

[8.5 ; 9[ 3 6 44 9 88 18

[9 ; 9.5[ 5 10 49 6 98 12

[9.5 ; 10[ 1 2 50 1 100 2

50 100 / / / /

CHAPITRE 3

LES REPRESENTATIONS GRAPHIQUES

1. Les représentations graphiques en fonction du type de variables

Variables nominales On réalise un diagramme à secteurs circulaires (camembert); ce diagramme repose sur la

représentation des fractions de chacune des valeurs (ou des fréquences) prises par la

variable. Les aires des secteurs sont proportionnelles aux effectifs.


ECOLE (X1)

7,00

20,0011,00

12,00

D

CB

A

ECOLE (X1)

14,0%

40,0%22,0%

24,0%

D

CB

A

Exemples de diagramme circulaire simple des effectifs de la variable Ecole (X1) (avec les valeurs ou les pourcentages –effectifs absolus ou relatifs)

ECOLE (X1)

14,0%

40,0%22,0%

24,0%

D

CB

A

Diagramme circulaire éclaté avec pourcentage de la variable X1

A (12)

B (11)

C (20)

D (7)

Diagramme en barre des fréquences de la variable X1

1.2. Variables ordinales

On les représente à l’aide d’un diagramme en bâtons ; on reporte sur une ligne horizontale toutes les modalités de la variable étudiée en notant sous cette ligne le nom

de chaque modalité ; les modalités doivent être présentées dans l’ordre croissant de gauche à droite. Puis on trace un bâton vertical au dessus de chaque modalité dont la hauteur correspond à leur effectif ; la taille des bâtons est fonction de l’échelle choisie

présentée sur la gauche du graphique par un axe vertical. Il est possible de préciser les effectifs au dessus des bâtons.

Le polygone statistique représente l’allure générale de la distribution ; il est réalisé en


reliant les sommets des bâtons ; il n’est pas nécessaire de représenter les bâtons.

Diagramme en bâtons de la variable Test de Longeot

Diagramme en bâtons et polygone statistique de la variable Test de Longeot

Score test Longeot

111 (3)110 (2)1OO (1)OOO (O)

Occ

urr

en

ces

20

18

16

14

12

10

8

6

4

2

14

13

18

5

Score test Longeot

111 (3)110 (2)1OO (1)OOO (O)

Occu

rre

nce

s

20

18

16

14

12

10

8

6

4

2

14

13

18

5

Exemples de diagramme en bâtons des effectifs absolus de la variable Test Longeot (sur SPSS)

1.3. Variables d’intervalles

La représentation graphique pour ce type de variables est l’histogramme ; on utilise la

même procédure que pour les diagrammes en bâtons, mais en élargissant les bâtons sur l’intervalle de chaque modalité. La surface des rectangles ainsi obtenus est proportionnelle aux effectifs de chaque modalité de la variable étudiée. Les rectangles se

touchent car la variable est continue.


AGE (X3)

9,759,258,758,257,757,256,756,25

12

10

8

6

4

2

0

Sigma = ,99

Moyenne = 7,64

N = 50,00

Histogramme des effectifs absolus de la variable Age (X3) (sur SPSS) Le polygone statistique est la ligne brisée qui relie le centre des sommets des rectangles

de l’histogramme.

On peut utiliser le même type de graphique pour représenter les effectifs relatifs (même graphique mais en pourcentage)

1 Histogramme des effectifs croissants et décroissants :

AGE (X3)

9,759,258,758,257,757,256,756,25

60

50

40

30

20

10

0

Sigma = ,98

Moyenne = 8,51

N = 261,00

Histogramme des effectifs absolus croissants de la variable Age (X3)(sur SPSS)

Le polygone statistique des effectifs cumulés croissants (absolus ou relatifs) se construit

en reliant les bornes supérieures des classes.


AGE (X3)

9,759,258,758,257,757,256,756,25

60

50

40

30

20

10

0

Sigma = ,85

Moyenne = 7,20

N = 189,00

Histogramme des effectifs absolus décroissants de la variable Age (X3)(sur SPSS)

Le polygone statistique des effectifs cumulés décroissants en reliant les bornes

inférieures des classes.

2. Autres types de représentations graphiques

2.1. Représentation en tiges et en feuilles Ce type de représentation (Turkey John, 1977) permet de travailler à partir des données

brutes, sans les regrouper en intervalle. Prenons l’exemple des temps de réaction relatifs à la détection de la lampe rouge. Supposons que nous disposions des moyennes aux 20 présentations de 200 sujets. Nous

pouvons élaborer le tableau suivant, qui est uniquement un extrait du tableau total.

Données brutes (centièmes de sec.)

Tiges Feuilles

……………………… ……………………… 20-20-21-21-21-22-22-22-22-22-23-24-25-26-26-26-26-29 30-30-30-31-32-33-34-35-36-36-36-36

0 1 2 3 4

……. ………… 0 0 1 1 1 2 2 2 2 2 3 4 5 6 6 6 6 9 0 0 0 1 2 3 4 5 6 6 6 6 0 3 3 3 3 6 7 7 9 9


40-43-43-43-43-46-47-47-49-49 52-52-58-58-58-58-59-59 ………………………

5 6

2 2 8 8 8 8 9 9

Les chiffres des dizaines sont appelés chiffres principaux des scores (ou chiffres les plus

significatifs): ils forment la tige (cela peut être les chiffres des centaines, cela dépend de la mesure et de sa précision ; par exemple si les données varient de 100 à 1000, les

chiffres des centaines formeraient la tige, ceux des dizaines les feuilles et on ne tiendrait

pas compte des unités) Les chiffres des unités sont les chiffres secondaires (ou chiffres les moins significatifs) : ils forment les feuilles.

L’une des utilités supplémentaires de ce type de représentation est de pouvoir comparer

deux distributions : on place alors les feuilles de part et d’autres des tiges.

Exemple : on veut comparer les moyennes des temps de réaction de deux groupes de sujets, car on a posé l’hypothèse d’une différence entre ces deux groupes (l’âge).

Tiges Sujets ‘âgés’ (de 41 à 60 ans)


……………………

0 1 2 3 4 5 6

…… 8 8 8 9 9 9 2 2 2 3 3 4 4 4 5 5 6 1 1 2 2 2 3 3 4 4 5 5 5 7 8 8 8 8 9 1 1 1 1 5 6 7 7 7 8 8 8 8 8 9 9 9 2 2 3 3 3 4 4 4 4 5 5 5 6 8 9 5 5 5 6 6 7

2.2. Le graphique séquentiel ou en continu

On utilise ce type de graphique pour représenter principalement l’évolution d’une série chronologique (dans le temps).

Exemple : fréquentation d’une station de ski en 1987-1988 mois par mois en milliers de sujets

année

J F M A M J J A S O N D

1987 11 10 9 9 2 1 7 9 10 3 1 10

1988 14 13 13 15 6 4 12 14 15 6 8 15


mois de l'année

decnovoctsepaoujuiljuinmaiavrmarfevjan

mill

iers

de

to

uri

ste

s

16

14

12

10

8

6

4

2

0

1987

1988

2.3. L’Echelonnement Multidimensionnel

Dimension 1

210-1-2

Dim

en

sio

n 2

2,0

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

herbe

tigre

banane

ferme

chien

cerf

vache

chapiteau de cirque

éléphant

maïs

souris

ver de terre

singe

champignon

carotte

lapin

moutonnoisette

os

aigle

forêt

écureuil

Représentation sur le plan 1/2 des liens entre les 23 items


(stress = .16 ; RSQ = .76)

Autre exemple : Comparaison entre deux espaces

Dimension 1

2,01,51,0,50,0-,5-1,0-1,5-2,0

Dim

ensi

on 2

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

tigrelapinéléphant

écureuil

singe

herbe

aigle

banane carotte

maïs

noisettes

mouton

Schéma 1 : Représentation des liens entre les 12 items par les enfants de maternelle (stress = .19 ; RSQ = .78)

Dimension 1

2,01,51,0,50,0-,5-1,0-1,5

Dim

ensi

on 2

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

herbe

tigre

banane

éléphantmaïs

singe

carotte

lapin

mouton

aigle

écureuil

Schéma 2 : Représentation des liens entre les 12 items par les enfants de CM1 (stress = .19 ; RSQ = .78)


3. Description de distributions

Sur les représentations graphiques (essentiellement les histogrammes, les courbes), on observe la forme de la distribution ; cette forme générale nous renseigne sur les données recueillies.

Distribution normale

Distribution bimodale

Distribution asymétrique négative

Distribution asymétrique positive


L’aplatissement (voussure ou curtosis) rend essentiellement compte du nombre d’observations qui se situent au centre de la distribution, par rapport au nombre attendu

dans une distribution dite normale.

S’il y a moins d’observations au niveau du sommet de la distribution que dans une

distribution normale, le sommet est ‘aplati’, la distribution est dite ‘platycurtique’.

S’il y a plus d’observations au niveau du sommet de la distribution que dans une

distribution normale, le sommet est ‘pointu’, la distribution est dite ‘leptocurtique’.


CHAPITRE QUATRE

LES CARACTERISTIQUES DE TENDANCE CENTRALE

1. Le mode

Le mode Mo est la valeur de la variable dont l’effectif (relatif ou absolu) est le plus

grand ; c’est la valeur qui se rencontre le plus fréquemment. Exemples de séries statistiques :

Notes {3,3,5,6,7,4,4,4,6,6,6,6,8,8,9,9,9,9,9,9,9,12,12,13,13,14,14,15} : Mo = 9 (il y a 7 fois la note 9)

Notes {2,4,6,8,10,12,14,16,18,20} le mode n’existe pas Notes {3,3,3,3,4,5,6,6,6,7,7,7,7,8,9,10} il y a deux modes : 3 et 7 ; (distribution bimodale)

On parle également de distribution multimodale ou plurimodale

Variables nominales et ordinales

Dans un tableau statistique, le mode est facilement repérable : c’est le Xi pour lequel la fréquence est la plus élevée. Sur le diagramme en barres, c’est la valeur Xi qui correspond à la barre la plus grande. Sur le diagramme en bâtons, c’est la valeur Xi qui

correspond au bâton le plus haut.

Exemple de X1 (école)

Ecole (X1)

X1

ni fi

A 12 24

B 11 22

C 20 40

D 7 14

50 100

Mo = C


A (12)

B (11)

C (20)

D (7)

Exemple de X2 (test Longeot)

X2 ni

fi ni ni fi fi

0 (000) 5 10 5 50 10 100

1 (100) 18 36 23 45 46 90

2 (110) 13 26 36 27 72 54

3 (111) 14 28 50 14 100 28

50 100 / / / /

Mo = 1 (ou 100)

Variables d’intervalle

On ne parle plus de mode mais de classe modale. La classe modale est donc celle qui correspond à l’effectif le plus élevé ; sur l’histogramme, c’est le rectangle qui est le plus

grand. La classe modale dépend évidemment du choix des classes. Exemple avec X3 (âge)

X3 ni

fi ni ni fi fi

[6 ; 6.5[ 8 16 8 50 16 100

[6.5 ; 7[ 7 14 15 42 30 84

[7 ; 7.5[ 9 18 24 35 48 70

[7.5 ; 8[ 6 12 30 26 60 52

[8 ; 8.5[ 11 22 41 20 82 40

[8.5 ; 9[ 3 6 44 9 88 18

[9 ; 9.5[ 5 10 49 6 98 12

[9.5 ; 10[ 1 2 50 1 100 2

50 100 / / / /

Classe modale = [8 ; 8,5[ (n = 11)

2. La médiane


La médiane est la valeur de la variable qui divise les effectifs en deux parties égales donc telle que 50% des sujets de l’échantillon ont une valeur inférieure à la médiane et

50% des sujets une valeur supérieure. Quand on ordonne la série de mesures, la

médiane est la valeur qui se situe au centre de la série ainsi ordonnée.

Dans un tableau statistique, ce sont les effectifs relatifs ou absolus cumulés qui vont nous permettre de calculer la Mé ; en effet, ces effectifs nous permettent de dire ‘il y a tant de sujets qui se situent au dessus ou en dessous de telle valeur’ et c’est exactement

la signification de la médiane ‘il y a 50% de sujets au dessus et 50% de sujets en dessous de cette valeur’.

On ne peut pas calculer la médiane d’une distribution nominale, cela n’a aucun sens.

2.1. Variables ordinales

Si le nombre de valeurs est impair, la série comporte (2n+1) valeurs et la médiane est

la (n+1) ième valeur ; on peut dire aussi qu’elle a pour rang (N+1)/2 Exemple : 4 5 9 11 15 16 18

La médiane Mé est 11 ; il y a 3 observations avant et 3 observations après 11

Si le nombre de valeurs est pair, la série comporte 2n valeurs et il n’existe pas de

valeur qui sépare en deux sous-ensembles égaux la série ; on parle alors d’un intervalle médian, déterminé par les valeurs n et n+1

Exemple : 4 5 9 11 15 16 18 20 L’intervalle médian est 11-15 Parfois, on admet que c’est la moyenne de ces deux valeurs.

Détermination de la médiane

Dans le tableau statistique, on calcule les fréquences cumulées relatives ou absolues ; on repère la valeur 0,5 (ou 50 si pourcentages) pour les fréquences cumulées relatives ou N/2 pour les fréquences cumulées absolues. Généralement, les valeurs 0,5 ou N/2

apparaissent entre deux lignes du tableau ; la médiane est la valeur de Xi qui correspond

à la ligne du bas. Cela signifie que la médiane dans ce cas ne partage pas exactement l’effectif en deux sous-ensembles égaux.

On peut également observer la médiane sur le graphe des effectifs cumulés. Exemple : nombre de pièces dans un appartement


xi ni ni fi fi

1 45 45 30 30

2 60 105 40 70

3 20 125 13.33 83.33

4 10 135 6.66 90

5 9 144 6 96

6 6 150 4 100

150 100

N/2 (c’est-à-dire 75) ou fi = 50 se situe entre xi = 1 et 2 Mé = 2

Ce n’est pas tout à fait exact, car 30% de la population présente une valeur inférieure à 2 et non pas exactement 50%

Exemple sur la représentation graphique des effectifs cumulés croissants

2.2. Variables par intervalle Dans ce cas, on peut toujours trouver une valeur de la médiane divisant la série en deux

sous-ensembles d’égale importance. Pour trouver la classe médiane qui contient la médiane, on effectue le même raisonnement

que dans le cas des variables discrètes.


Exemple avec X3 (âge)

X3 ni

fi ni ni fi fi

[6 ; 6.5[ 8 16 8 50 16 100

[6.5 ; 7[ 7 14 15 42 30 84

[7 ; 7.5[ 9 18 24 35 48 70

[7.5 ; 8[ 6 12 30 26 60 52

[8 ; 8.5[ 11 22 41 20 82 40

[8.5 ; 9[ 3 6 44 9 88 18

[9 ; 9.5[ 5 10 49 6 98 12

[9.5 ; 10[ 1 2 50 1 100 2

50 100 / / / /

La classe médiane est [7,5 ;8[ avec une fréquence cumulée de 60% Il reste à déterminer la valeur de Mé dans cette classe.

Méthode approximative : détermination graphique

Détermination par interpolation linéaire Cette méthode suppose une répartition uniforme des individus dans la classe médiane.

1) on extrait la classe médiane, c’est-à-dire la classe correspondant à l’effectif cumulé

croissant qui dépasse N/2 ou 50% ; dans notre exemple, c’est [7,5 ; 8[


2) on extrait la partie du polygone statistique des effectifs absolus cumulés croissants correspondant à cette classe ; on travaille uniquement avec sur l’axe des abscisses 7,5

et 8 et sur l’axe des ordonnées 24 et 30. On place 25 (N/2) en ordonnées et on cherche

l’abscisse correspondant.

AGE (X3)

9,759,258,758,257,757,256,756,25

60

50

40

30

20

10

0

Sigma = ,98

Moyenne = 8,51

N = 261,00

Histogramme des effectifs absolus cumulés croissants de la variable Age (X3)

Détermination de la médiane par interpolation linéaire à partir des effectifs absolus

cumulés croissants

On applique Thalès : 5,78

5,7

Me

= 2430

2425

Me – 7,5 = 1/6 0,5 Me = 0,5/6 + 7,5 = 7,6

On peut faire la même chose avec un polygone des effectifs relatifs cumulés décroissants ; cette fois, on place 50 (50% moitié des effectifs) et on cherche l’abscisse

correspondant.


On peut faire également la même chose avec un polygone des effectifs cumulés

décroissants (absolus ou relatifs). On place 7,5 et 8 sur l’axe des abscisses, et 26 et 20 sur

l’axe des ordonnées. On place 25 et on cherche l’abscisse correspondant), mais attention à Thalès (sens différent)

AGE (X3)

9,759,258,758,257,757,256,756,25

60

50

40

30

20

10

0

Sigma = ,85

Moyenne = 7,20

N = 189,00

Histogramme des effectifs absolus décroissants de la variable Age (X3)

Détermination de la médiane par interpolation linéaire à partir des effectifs absolus cumulés décroissants

5,78

5,7

Me

= 2620

2625

Me – 7,5 = -1/-6 0,5 Me = 0,5/6 + 7,5 = 7,6


La médiane partage l’histogramme en deux surfaces égales.

3. Les quantiles

C’est la même idée que la médiane : on cherche ou on définit une valeur de la variable telle que cette valeur partage la série statistique en n sous-ensembles égaux ; si on veut partager la série en 4 sous-ensembles égaux, on parlera de quartiles, 10 sous-ensembles

égaux de déciles, et 100 sous-ensembles égaux de centiles.

De façon générale, on appelle fractile d’ordre , la valeur (f) telle que % de la

population présente une valeur inférieure à f. (exemple : f0,82 est la valeur telle que 82%

de la population présente une valeur inférieure à f0,82).

3.1. Les quartiles

Ce sont les valeurs qui partagent la série en 4 sous-ensembles de données ; on les note q1, q2 et q3. On les détermine de la même façon que la médiane ; on calcule les effectifs

relatifs ou absolus cumulés croissants, on repère les valeurs 25%, 50% et 75% ou ¼ N, ½ N et ¾ N (q2 est la médiane).

On appelle intervalle interquartile q3 – q1 ; il contient 50% des observations.

25% 25% 25% 25%

Q1 Q2 Q3 ¼ N ½ N ¾ N N

Exemple sur X3 (âge) :

X3 ni

fi ni ni fi fi

[6 ; 6.5[ 8 16 8 50 16 100

[6.5 ; 7[ 7 14 15 42 30 84

[7 ; 7.5[ 9 18 24 35 48 70

[7.5 ; 8[ 6 12 30 26 60 52

[8 ; 8.5[ 11 22 41 20 82 40

[8.5 ; 9[ 3 6 44 9 88 18

[9 ; 9.5[ 5 10 49 6 98 12

[9.5 ; 10[ 1 2 50 1 100 2

50 100 / / / /

Q1 : on cherche 25% dans les fi↑ La classe contenant 25% est [6,5 ; 7[


On associe 16% à 6,5 et 30% à 7

82,611630

1625

5,67

5,61

Q

Q

Q3 : on cherche 75% dans les fi↑

La classe contenant 75% est [8 ; 8,5[ On associe 16% à 6,5 et 30% à 7

34,836082

6075

85,8

83

Q

Q

3.2. Les déciles

Ils sont au nombre de 9 : d1, d2, ..., d9. Ils partagent la série en 10 sous-ensembles égaux contenant chacun 10% de la population. L’intervalle d9 – d1 est l’intervalle interdécile et

il contient 80% des observations. d5 est la médiane. 10% 10% 10% 10% 10% 10% 10% 10% 10% 10%

d1 d2 d3 d4 d5 d6 d7 d8 d9

3.3. Les centiles

Ils sont au nombre de 99 et partagent la série en 100 sous-ensembles égaux contenant chacun 1% de la population. L’intervalle intercentile est c99-c1 et il contient 98% de la population. c50 est la médiane, c10 est d1, c25 est q1.

3.4. Exemple de calcul d’un fractile

On veut calculer f0,85 de la série X3 (âge), c’est-à-dire la valeur de X3 (l’âge) telle que 85% de la population ait un âge strictement inférieur à cette valeur.

Classe concernée par l’interpolation linéaire : 8,5 ; 9 abscisses ; ordonnées : 82 et 88


75,88288

8285

5,89

5,885,0

85,0

f

f

4. La moyenne

4.1. Définitions

La moyenne arithmétique d’une série statistique Xi est égale au rapport de la somme

des valeurs observées par le nombre d’observations (N). On lit x barre.

x = n

1

n

i 1 xi Exemple : série de notes obtenues par 20 étudiants {9, 12, 13, 5, 3, 8, 14, 17, 9, 12, 11, 15, 18, 9, 8, 13, 2, 5, 9, 18}

x = 20

1

(9 + 12 + 13 + ..... + 9 + 18) = 10,5

On dit qu’une moyenne est pondérée lorsqu’il existe plusieurs observations pour toutes

ou certaines valeurs de xi.

4.2. Cas des variables ordinales

Exemple de la même série de notes mais présentée dans un tableau statistique

xi ni nixi fi fixi


2 1 2 0.05 0.1

3 1 3 0.05 0.15

5 2 10 0.1 0.5

8 2 16 0.1 0.8

9 4 36 0.2 1.8

11 1 11 0.05 0.55

12 2 24 0.1 1.2

13 2 26 0.1 1.3

14 1 14 0.05 0.7

15 1 15 0.05 0.75

17 1 17 0.05 0.85

18 2 36 0.1 1.8

20 210 1 10.5

x = npnn

npxpxnxn

.....21

......2211

= 20

3617......1032

= 20

210

= 10.5

x =

ni

nixi

On observe également que la moyenne est égale à la somme du produit des valeurs de la variable par leurs fréquences relatives :

x =

k

i 1 fixi

4.3. Cas d’une variable d’intervalle

On est obligé de définir quelle est la valeur de xi : c’est le centre de la classe.

Exemple de âge (X3)


X3 xi ni

nixi fi (%) fi(%)xi fi fixi

[6 ; 6.5[ 6.25 8 50 16 100 0.16 1

[6.5 ; 7[ 6.75 7 47.25 14 94.5 0.14 0.945

[7 ; 7.5[ 7.25 9 65.25 18 130.5 0.18 1.305

[7.5 ; 8[ 7.75 6 46.5 12 93 0.12 0.93

[8 ; 8.5[ 8.25 11 90.75 22 181.5 0.22 1.815

[8.5 ; 9[ 8.75 3 26.25 6 52.5 0.06 0.525

[9 ; 9.5[ 9.25 5 46.25 10 92.5 0.10 0.925

[9.5 ; 10[ 9.75 1 9.75 2 19.5 0.02 0.195

/ 50 382 100 764 1 7.64

x =

ni

nixi

= 50

382

= 7.64 L’âge moyen des enfants est donc de 7.64 ans.

5. Relation entre mode, médiane et moyenne Pour une courbe unimodale, modérément asymétrique, on a la relation suivante :

m - mo = 3 (m - Mé)


CHAPITRE CINQ

LES CARACTERISTIQUES DE DISPERSION Les paramètres de tendance centrale sont utiles mais insuffisants pour décrire une

population.

Exemple : on observe les diagrammes en bâtons des deux séries X et Y

(1,5) (2,5) (3,9) (4,5) (5,2) (6,9) (7,4) (8,6) (9,5) x = 4.94 N=50

(1,8) (2,7) (3,4) (4,8) (5,1) (6,2) (7,3) (8,10) (9,7) y = 4,94 N=50 Elles ont la même moyenne mais présentent des distributions différentes ; on est donc amené à mesurer leur dispersion afin de mieux caractériser ces deux séries.

VAR00001

9,008,007,006,005,004,003,002,001,00

Occu

rre

nce

s

10

8

6

4

2

0

VAR00002

9,008,007,006,005,004,003,002,001,00

Occ

urr

en

ces

12

10

8

6

4

2

0

1. Définitions

L’étendue est la différence entre la plus grande valeur et la plus petite valeur prises par la variable ; cette quantité est indépendante de la façon dont sont distribuées les

valeurs dans la série. Exemple : étendue de x = 9 – 1 = 8

étendue de y = 9 – 1 = 8

L’écart absolu moyen est la moyenne des valeurs absolues des écarts à la moyenne.


e =

ni

xxini

Exemple : ex = 50

94.49594.486......94.42594.415

= 2.57

ey = 50

94.49794.4810......94.42794.418

= 2.97

La fonction valeur absolue n’étant pas très manipulable en mathématiques, on a préféré la variance.

La variance est la moyenne des carrés des écarts à la moyenne ou écart quadratique

moyen.

VarX =

ni

xxini2

L’écart-type est la racine carrée de la variance : = VarX

Exemple : VarX = 6.60 x = 2.57

VarY = 8.82 y = 2.97

2. Calcul de la variance et de l’écart type suivant la définition

Dans le tableau statistique, on a donc besoin d’une colonne xi - x , d’une colonne (xi -

x )² et d’une colonne ni (xi - x )² en plus de celle nécessaire pour calculer la moyenne.

Exemple : soit 27 enfants dont on relève le QI

Classes xi ni

ni.xi xi - x (xi - x )² ni .(xi - x )²

[65 ; 75[ 70 1 70 -39.26 1541.35 1541.35

[75 ; 85[ 80 2 160 -29.26 856.15 1712.30

[85 ; 95[ 90 3 270 -19.26 370.95 1112.84

[95 ; 105[ 100 6 600 -9.26 85.75 514.49


[105 ; 115[ 110 5 550 .74 .55 2.74

[115 ; 125[ 120 4 480 10.74 115.35 461.39

[125 ;135[ 130 3 390 20.74 430.15 1290.44

[135 ; 145[ 140 2 280 30.74 944.95 1889.90

[145 ; 155[ 150 1 150 40.74 1659.75 1659.75

27 2950 / / 10185.20

x = 2950/27 = 109.26

VarX = 10185.20/27 = 377.23

= 19.42

3. Autre méthode de calcul de la variance et de l’écart type

On montre que Var X =

ni

nixi²

-

2

ni

nixi

VarX =

ni

xxini2

(rappel : (a+b)² = a² + 2ab + b²)

=

ni

xnixxininixi ²2²

or

ni

nixi

= x

=

ni

nixi²

- x .2. x+

ni

xni ²

x (et x ²) étant une constante dans l’équation,

=

ni

nixi²

- x .2. x+ x ²ni

ni

=

ni

nixi²

- x .2. x+ x ².1

=

ni

nixi²

- 2 x ² + x ²

=

ni

nixi²

- x ² ou encore =

ni

nixi²

-

2

ni

nixi


Exemple : soit 27 enfants dont on relève le QI

classes xi ni

ni.xi ni.xi²

[65 ; 75[ 70 1 70 4900

[75 ; 85[ 80 2 160 12800

[85 ; 95[ 90 3 270 24300

[95 ; 105[ 100 6 600 60000

[105 ; 115[ 110 5 550 60500

[115 ; 125[ 120 4 480 57600

[125 ;135[ 130 3 390 50700

[135 ; 145[ 140 2 280 39200

[145 ; 155[ 150 1 150 22500

27 2950 332500

VarX =

27

332500 2

27

2950

= 377.23

= 19.42

4. Caractéristiques des paramètres de dispersion

Pour une courbe symétrique et unimodale, proche d’une courbe de type courbe de Gauss, l’écart type correspond à la distance qui sépare le point d’inflexion de la courbe

de l’axe de symétrie. Le point d’inflexion est le point d’inversion du sens de la courbure, celui où la tangente d’intérieure devient extérieure.


La « preuve des 3 écarts-types » Pour une courbe proche d’une courbe gaussienne et si l’écart-type est correctement

calculé, pratiquement toutes les valeurs de la distribution doivent se trouver entre : m -

3 et m + 3. Exemple précédent :

= 19.42 m = 109.29 m + 3 = 167.55 et m - 3 = 51.03