Khalil F( TD-TP ) 1999-2000
CHAPITRE 1
I) LES STATISTIQUES EN SCIENCES HUMAINES
1. Définitions
On donne plusieurs définitions de « la statistique » (Howell) :
1 c’est l’étude des ensembles numériques et de leurs relations ; 2 c’est également le moyen d’obtenir des indications probables sur des ensembles
imparfaitement connus ;
La statistique est une méthode pour effectuer la synthèse de ces données. Elle met en œuvre plusieurs « statistiques » caractérisant et résumant les données. La moyenne fait
partie des statistiques, comme l’écart type, la variance, etc.
On appelle population un ensemble d’objets ou d’êtres sur lesquels on étudie une ou plusieurs caractéristiques ; chaque élément de cette population est appelé individu statistique. On s’intéresse, à propos de chaque individu, à une ou à plusieurs
caractéristiques, que l’on appelle caractères ou variables statistiques. L’échantillon est un sous-ensemble de la population de référence.
Quand on travaille uniquement sur les caractéristiques de l’échantillon, quand on utilise les statistiques pour décrire la nature de l’échantillon, on se situe dans le cadre des
statistiques descriptives. Quand on utilise les paramètres, les caractéristiques de l’échantillon pour estimer ceux de la population dont il est extrait, on se situe dans le cadre des statistiques inférentielles.
2. L’utilisation des statistiques en sciences humaines
2.1. La variabilité des conduites
Expériences de mesure des temps de réaction
tableau des temps de réaction en centièmes de seconde pour 20 présentations
successives d’un stimulus (d’après Reuchlin, 1998, Précis de statistique, PUF, p.21) N° d’ordre des 20 présentations du stimulus
1 2 3 4 5 6 7 8 9 10 11 12
1ère expérience : lampe rouge 20 15 18 25 17 32 18 17 19 23 19 21
Khalil F( TD-TP ) 1999-2000
seule
2ème expérience : lampe rouge
choisie parmi trois lampes de couleurs différentes
32 40 33 37 35 29 42 62 50 39 45 47
3ème expérience : lampe verte
seule
16 18 19 18 15 18 17 32 23 19 23 20
N° d’ordre des 20 présentations du stimulus
13 14 15 16 17 18 19 20 Moyenne des 20 temps
1ère expérience : lampe rouge seule
15 22 17 17 21 19 17 23 m1 = 19.75
2ème expérience : lampe rouge choisie parmi trois lampes de
couleurs différentes
52 37 38 39 40 41 42 39 m2 = 40.95
3ème expérience : lampe verte seule
18 25 15 15 17 23 17 19 m3 = 19.35
2.2. Exemples d’applications statistiques en psychologie
Khalil F( TD-TP ) 1999-2000
CHAPITRE 2
VARIABLES, NIVEAUX DE MESURE ET TABLEAU STATISTIQUE
1. Variables qualitatives et variables quantitatives On distingue les variables qualitatives et les variables quantitatives.
Une variable qualitative désigne une qualité de l’individu statistique ; chaque
observation appartient à une catégorie, à une modalité (exemple : couleur des cheveux,
sexe, situation géographique, catégorie socio-professionnelle, évaluation d’une copie avec A, B, C ou TB, B, …,). Même si on code ensuite A= 1, B=2, etc, le nombre n’exprime pas une quantité mais une qualité.
Une variable quantitative est caractérisée par une quantité numérique (durée, une note,
âge, …) ; elle résulte d’un dénombrement ou d’une mesure. Une variable quantitative
est continue, si elle peut prendre n’importe quelle valeur sur le continuum considéré (le temps, la taille, le poids, une note sur 20 si on observe des valeurs de 13.452, un score qui varie de 0 à 100). Elle est dite discontinue ou discrète, si elle ne prend que certaines
valeurs (le nombre de pièces d’un logement, le nombre d’enfants – on ne peut pas avoir 2.5 enfants pour un sujet).
2. Les échelles de mesure
Une autre façon d’appréhender les variables est celle qui consiste à distinguer les niveaux de mesure ou échelles de mesure. On distingue ainsi les échelles nominales (variables nominales), les échelles ordinales (variables ordinales) et les échelles par intervalle
(variables d’intervalle). Les relations existant entre les éléments ayant des valeurs
différentes sur l’échelle ne sont pas les mêmes selon que l’on se situe sur une échelle nominale, ordinale ou d’intervalle.
Les échelles nominales
Pour construire une échelle nominale, il faut répartir les observations dans un certain nombre de classes que l’on appelle « l’échelle ».
Les caractéristiques des échelles nominales sont les suivantes :
les classes sont définies a priori par le psychologue ;
Khalil F( TD-TP ) 1999-2000
chaque observation doit appartenir à une seule classe ;
si 2 observations sont dans la même classe, elles sont considérées comme étant équivalentes.
Si on attribue des numéros aux classes, ceux-ci n’ont pas de valeur numérique, c’est juste un moyen de les distinguer, de les nommer. Ils n’ont pas d’autre sens que celui
d’être identiques ou différents ; par exemple, au lieu d’appeler des classes A, B et C, on peut les appeler 1, 2 et 3 ou encore 13, 7 et 45.
Exemple d’échelle nominale : le test du Rorschach
Ce test utilise 10 planches composées de taches d’encre symétriques, certaines noires, d’autres colorées. Elles sont présentées successivement au sujet qui doit décrire « tout ce qu’on pourrait y voir ». Chaque réponse est notée 3 fois, en fonction de sa localisation,
de sont déterminant, et de son contenu. Chacune de ces notations se fait sur une échelle nominale :
l’échelle ‘localisation’ est constituée de classes comme
réponses globales (toute la planche) : G
réponses grand détail (découpes fréquemment interprétées dans chaque planche) : D
réponses petit détail : Dt
réponses détail dans le blanc : Dbl, etc…
l’échelle ‘déterminant’ distingue
les réponses formes : F
les réponses mouvement : K
les réponses couleur : C, etc…
l’échelle ‘contenu’ distingue
les réponses humaines
les réponses animaux, etc
Autre exemple d’échelle nominale : le code des catégories socio-professionnelles de
l’INSEE 0 : agriculteurs
1 : salariés agricoles 2 : patrons de l’industrie et du commerce 3 : professions libérales et cadres supérieurs
C’est un exemple des catégories les plus générales ; cette échelle est en fait divisée en classes plus fines, chaque catégorie étant elle-même détaillée :
21 : industriels employant plus de 5 salariés 22 : artisans employant 5 ouvriers au plus 23 : patrons pêcheurs
Khalil F( TD-TP ) 1999-2000
24 : gros commerçants 25 etc.
Les échelles ordinales
Le psychologue définit une relation d’ordre entre les observations (ou entre les catégories d’observations) et l’ensemble des observations ainsi ordonnées constitue une échelle ordinale.
Les nombres qui désignent les observations ou les catégories d’observations ont déjà la propriété de ceux qui désignent les observations dans le cas d’une échelle nominale : ce
sont des symboles, c’est une façon de distinguer les catégories. Mais dans le cas d’une
échelle ordinale, ils ont la propriété supplémentaire d’être des symboles ordonnés. Exemple de construction d’une échelle ordinale : l’échelle de Longeot
configuration Q1 Q2 Q3 note
1 0 0 0 0
2 1 0 0 1
3 1 1 0 2
4 1 1 1 3
On fait passer le test à une population de 35 enfants; on obtient les résultats suivants :
Note Effectifs effectifs
cumulés
0 (000) 5 5
1 (100) 12 17
2 (110) 15 32
3 (111) 3 35
Exemples d’échelles ordinales : les niveaux scolaires, le score d’anxiété, les notes (y
compris les scores bruts des tests d’aptitude ou des questionnaires de personnalité), les préférences et les opinions (beaucoup – assez - moyennement – peu - pas du tout ; très souvent – assez souvent – de temps en temps – rarement – jamais ; … )
Les échelles d’intervalles
Dans une échelle d’intervalles, les observations se répartissent dans des classes qui sont des intervalles ordonnés et réguliers. Les nombres qui définissent les échelles d’intervalles prennent tout leur sens. On peut parler de différences entre les points de
l’échelle. Exemple des temps de réaction moyens de 200 sujets aux 20 présentations de la lampe
Khalil F( TD-TP ) 1999-2000
rouge
On a le tableau descriptif suivant :
sujet
n°
moyenne des 20 temps
(centièmes de seconde)
1 25.02
2 65.51
3 19.96
….. 54.30
….. ….
200 34.72
M Effectifs effectifs
cumulés
pourcentages de sujet pourcentages cumulés
[10, 20[ 24 24 12 12
[20, 30[ 40 64 20 32
[30, 40[ 52 116 26 58
[40, 50[ 50 166 25 82
[50, 60[ 18 184 9 92
[60, 70[ 16 200 8 100
3. Les tableaux statistiques et les effectifs
Il existe des conventions pour désigner les variables, les effectifs, les sommes, etc.
Exemple : nous disposons des scores au test opératoire de Longeot de 50 enfants, d’âge différent (entre 6 et 10 ans) et provenant d’écoles différentes.
Sujet n° Ecole Test Longeot Age
1 A 2 7 ans 3 mois
2 B 3 9 ans 1 mois
3 A 0 6 ans 8mois
4 D 2 8 ans 5 mois
5 C 1 6 ans 10
mois
….. …
….. …
50 C 1 7 ans 11 mois
La population est l’ensemble des 50 sujets.
Khalil F( TD-TP ) 1999-2000
Les variables (X) sont :
X1 ‘école’, variable nominale, modalités A, B, C et D
X2 ‘Test Longeot’, variable ordinale, modalités 0, 1, 2, 3
X3 ‘âge’, variable d’intervalle
On peut élaborer 3 tableaux statistiques :
Ecole (X1)
X1
ni fi
A 12 24
B 11 22
C 20 40
D 7 14
50 100
ni est l’effectif absolu d’une valeur prise par la variable ; c’est le nombre
d’occurrences du caractère dans la population étudiée ; la somme de l’effectif total
est N.
fi est l’effectif relatif ; c’est le rapport de l’effectif absolu sur l’effectif total ; il est le
plus souvent donné en pourcentages, et est aussi appelé fréquence. fi = ni / N
N = ni
Test Longeot (X2)
X2 ni
fi ni ni fi fi
0 (000) 5 10 5 50 10 100
1 (100) 18 36 23 45 46 90
2 (110) 13 26 36 27 72 54
3 (111) 14 28 50 14 100 28
50 100 / / / /
l’effectif absolu cumulé croissant (ni ) de la valeur xj = ni de i=1 à i=j (dernière
valeur)
l’effectif absolu cumulé décroissant (ni ) de la valeur xj = ni de i=j (valeur de
‘départ’) à i=k (dernière modalité)
Khalil F( TD-TP ) 1999-2000
l’effectif relatif cumulé croissant (fi ) de la valeur xj = fi de i=1 à i=j
l’effectif relatif cumulé décroissant (fi ) de la valeur xj = fi de i=j à i=k
Age (X3)
X3 ni
fi ni ni fi fi
[6 ; 6.5[ 8 16 8 50 16 100
[6.5 ; 7[ 7 14 15 42 30 84
[7 ; 7.5[ 9 18 24 35 48 70
[7.5 ; 8[ 6 12 30 26 60 52
[8 ; 8.5[ 11 22 41 20 82 40
[8.5 ; 9[ 3 6 44 9 88 18
[9 ; 9.5[ 5 10 49 6 98 12
[9.5 ; 10[ 1 2 50 1 100 2
50 100 / / / /
CHAPITRE 3
LES REPRESENTATIONS GRAPHIQUES
1. Les représentations graphiques en fonction du type de variables
Variables nominales On réalise un diagramme à secteurs circulaires (camembert); ce diagramme repose sur la
représentation des fractions de chacune des valeurs (ou des fréquences) prises par la
variable. Les aires des secteurs sont proportionnelles aux effectifs.
Khalil F( TD-TP ) 1999-2000
ECOLE (X1)
7,00
20,0011,00
12,00
D
CB
A
ECOLE (X1)
14,0%
40,0%22,0%
24,0%
D
CB
A
Exemples de diagramme circulaire simple des effectifs de la variable Ecole (X1) (avec les valeurs ou les pourcentages –effectifs absolus ou relatifs)
ECOLE (X1)
14,0%
40,0%22,0%
24,0%
D
CB
A
Diagramme circulaire éclaté avec pourcentage de la variable X1
A (12)
B (11)
C (20)
D (7)
Diagramme en barre des fréquences de la variable X1
1.2. Variables ordinales
On les représente à l’aide d’un diagramme en bâtons ; on reporte sur une ligne horizontale toutes les modalités de la variable étudiée en notant sous cette ligne le nom
de chaque modalité ; les modalités doivent être présentées dans l’ordre croissant de gauche à droite. Puis on trace un bâton vertical au dessus de chaque modalité dont la hauteur correspond à leur effectif ; la taille des bâtons est fonction de l’échelle choisie
présentée sur la gauche du graphique par un axe vertical. Il est possible de préciser les effectifs au dessus des bâtons.
Le polygone statistique représente l’allure générale de la distribution ; il est réalisé en
Khalil F( TD-TP ) 1999-2000
reliant les sommets des bâtons ; il n’est pas nécessaire de représenter les bâtons.
Diagramme en bâtons de la variable Test de Longeot
Diagramme en bâtons et polygone statistique de la variable Test de Longeot
Score test Longeot
111 (3)110 (2)1OO (1)OOO (O)
Occ
urr
en
ces
20
18
16
14
12
10
8
6
4
2
14
13
18
5
Score test Longeot
111 (3)110 (2)1OO (1)OOO (O)
Occu
rre
nce
s
20
18
16
14
12
10
8
6
4
2
14
13
18
5
Exemples de diagramme en bâtons des effectifs absolus de la variable Test Longeot (sur SPSS)
1.3. Variables d’intervalles
La représentation graphique pour ce type de variables est l’histogramme ; on utilise la
même procédure que pour les diagrammes en bâtons, mais en élargissant les bâtons sur l’intervalle de chaque modalité. La surface des rectangles ainsi obtenus est proportionnelle aux effectifs de chaque modalité de la variable étudiée. Les rectangles se
touchent car la variable est continue.
Khalil F( TD-TP ) 1999-2000
AGE (X3)
9,759,258,758,257,757,256,756,25
12
10
8
6
4
2
0
Sigma = ,99
Moyenne = 7,64
N = 50,00
Histogramme des effectifs absolus de la variable Age (X3) (sur SPSS) Le polygone statistique est la ligne brisée qui relie le centre des sommets des rectangles
de l’histogramme.
On peut utiliser le même type de graphique pour représenter les effectifs relatifs (même graphique mais en pourcentage)
1 Histogramme des effectifs croissants et décroissants :
AGE (X3)
9,759,258,758,257,757,256,756,25
60
50
40
30
20
10
0
Sigma = ,98
Moyenne = 8,51
N = 261,00
Histogramme des effectifs absolus croissants de la variable Age (X3)(sur SPSS)
Le polygone statistique des effectifs cumulés croissants (absolus ou relatifs) se construit
en reliant les bornes supérieures des classes.
Khalil F( TD-TP ) 1999-2000
AGE (X3)
9,759,258,758,257,757,256,756,25
60
50
40
30
20
10
0
Sigma = ,85
Moyenne = 7,20
N = 189,00
Histogramme des effectifs absolus décroissants de la variable Age (X3)(sur SPSS)
Le polygone statistique des effectifs cumulés décroissants en reliant les bornes
inférieures des classes.
2. Autres types de représentations graphiques
2.1. Représentation en tiges et en feuilles Ce type de représentation (Turkey John, 1977) permet de travailler à partir des données
brutes, sans les regrouper en intervalle. Prenons l’exemple des temps de réaction relatifs à la détection de la lampe rouge. Supposons que nous disposions des moyennes aux 20 présentations de 200 sujets. Nous
pouvons élaborer le tableau suivant, qui est uniquement un extrait du tableau total.
Données brutes (centièmes de sec.)
Tiges Feuilles
……………………… ……………………… 20-20-21-21-21-22-22-22-22-22-23-24-25-26-26-26-26-29 30-30-30-31-32-33-34-35-36-36-36-36
0 1 2 3 4
……. ………… 0 0 1 1 1 2 2 2 2 2 3 4 5 6 6 6 6 9 0 0 0 1 2 3 4 5 6 6 6 6 0 3 3 3 3 6 7 7 9 9
Khalil F( TD-TP ) 1999-2000
40-43-43-43-43-46-47-47-49-49 52-52-58-58-58-58-59-59 ………………………
5 6
2 2 8 8 8 8 9 9
Les chiffres des dizaines sont appelés chiffres principaux des scores (ou chiffres les plus
significatifs): ils forment la tige (cela peut être les chiffres des centaines, cela dépend de la mesure et de sa précision ; par exemple si les données varient de 100 à 1000, les
chiffres des centaines formeraient la tige, ceux des dizaines les feuilles et on ne tiendrait
pas compte des unités) Les chiffres des unités sont les chiffres secondaires (ou chiffres les moins significatifs) : ils forment les feuilles.
L’une des utilités supplémentaires de ce type de représentation est de pouvoir comparer
deux distributions : on place alors les feuilles de part et d’autres des tiges.
Exemple : on veut comparer les moyennes des temps de réaction de deux groupes de sujets, car on a posé l’hypothèse d’une différence entre ces deux groupes (l’âge).
Tiges Sujets ‘âgés’ (de 41 à 60 ans)
Khalil F( TD-TP ) 1999-2000
……………………
0 1 2 3 4 5 6
…… 8 8 8 9 9 9 2 2 2 3 3 4 4 4 5 5 6 1 1 2 2 2 3 3 4 4 5 5 5 7 8 8 8 8 9 1 1 1 1 5 6 7 7 7 8 8 8 8 8 9 9 9 2 2 3 3 3 4 4 4 4 5 5 5 6 8 9 5 5 5 6 6 7
2.2. Le graphique séquentiel ou en continu
On utilise ce type de graphique pour représenter principalement l’évolution d’une série chronologique (dans le temps).
Exemple : fréquentation d’une station de ski en 1987-1988 mois par mois en milliers de sujets
année
J F M A M J J A S O N D
1987 11 10 9 9 2 1 7 9 10 3 1 10
1988 14 13 13 15 6 4 12 14 15 6 8 15
Khalil F( TD-TP ) 1999-2000
mois de l'année
decnovoctsepaoujuiljuinmaiavrmarfevjan
mill
iers
de
to
uri
ste
s
16
14
12
10
8
6
4
2
0
1987
1988
2.3. L’Echelonnement Multidimensionnel
Dimension 1
210-1-2
Dim
en
sio
n 2
2,0
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
herbe
tigre
banane
ferme
chien
cerf
vache
chapiteau de cirque
éléphant
maïs
souris
ver de terre
singe
champignon
carotte
lapin
moutonnoisette
os
aigle
forêt
écureuil
Représentation sur le plan 1/2 des liens entre les 23 items
Khalil F( TD-TP ) 1999-2000
(stress = .16 ; RSQ = .76)
Autre exemple : Comparaison entre deux espaces
Dimension 1
2,01,51,0,50,0-,5-1,0-1,5-2,0
Dim
ensi
on 2
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
tigrelapinéléphant
écureuil
singe
herbe
aigle
banane carotte
maïs
noisettes
mouton
Schéma 1 : Représentation des liens entre les 12 items par les enfants de maternelle (stress = .19 ; RSQ = .78)
Dimension 1
2,01,51,0,50,0-,5-1,0-1,5
Dim
ensi
on 2
1,0
,5
0,0
-,5
-1,0
-1,5
-2,0
herbe
tigre
banane
éléphantmaïs
singe
carotte
lapin
mouton
aigle
écureuil
Schéma 2 : Représentation des liens entre les 12 items par les enfants de CM1 (stress = .19 ; RSQ = .78)
Khalil F( TD-TP ) 1999-2000
3. Description de distributions
Sur les représentations graphiques (essentiellement les histogrammes, les courbes), on observe la forme de la distribution ; cette forme générale nous renseigne sur les données recueillies.
Distribution normale
Distribution bimodale
Distribution asymétrique négative
Distribution asymétrique positive
Khalil F( TD-TP ) 1999-2000
L’aplatissement (voussure ou curtosis) rend essentiellement compte du nombre d’observations qui se situent au centre de la distribution, par rapport au nombre attendu
dans une distribution dite normale.
S’il y a moins d’observations au niveau du sommet de la distribution que dans une
distribution normale, le sommet est ‘aplati’, la distribution est dite ‘platycurtique’.
S’il y a plus d’observations au niveau du sommet de la distribution que dans une
distribution normale, le sommet est ‘pointu’, la distribution est dite ‘leptocurtique’.
Khalil F( TD-TP ) 1999-2000
CHAPITRE QUATRE
LES CARACTERISTIQUES DE TENDANCE CENTRALE
1. Le mode
Le mode Mo est la valeur de la variable dont l’effectif (relatif ou absolu) est le plus
grand ; c’est la valeur qui se rencontre le plus fréquemment. Exemples de séries statistiques :
Notes {3,3,5,6,7,4,4,4,6,6,6,6,8,8,9,9,9,9,9,9,9,12,12,13,13,14,14,15} : Mo = 9 (il y a 7 fois la note 9)
Notes {2,4,6,8,10,12,14,16,18,20} le mode n’existe pas Notes {3,3,3,3,4,5,6,6,6,7,7,7,7,8,9,10} il y a deux modes : 3 et 7 ; (distribution bimodale)
On parle également de distribution multimodale ou plurimodale
Variables nominales et ordinales
Dans un tableau statistique, le mode est facilement repérable : c’est le Xi pour lequel la fréquence est la plus élevée. Sur le diagramme en barres, c’est la valeur Xi qui correspond à la barre la plus grande. Sur le diagramme en bâtons, c’est la valeur Xi qui
correspond au bâton le plus haut.
Exemple de X1 (école)
Ecole (X1)
X1
ni fi
A 12 24
B 11 22
C 20 40
D 7 14
50 100
Mo = C
Khalil F( TD-TP ) 1999-2000
A (12)
B (11)
C (20)
D (7)
Exemple de X2 (test Longeot)
X2 ni
fi ni ni fi fi
0 (000) 5 10 5 50 10 100
1 (100) 18 36 23 45 46 90
2 (110) 13 26 36 27 72 54
3 (111) 14 28 50 14 100 28
50 100 / / / /
Mo = 1 (ou 100)
Variables d’intervalle
On ne parle plus de mode mais de classe modale. La classe modale est donc celle qui correspond à l’effectif le plus élevé ; sur l’histogramme, c’est le rectangle qui est le plus
grand. La classe modale dépend évidemment du choix des classes. Exemple avec X3 (âge)
X3 ni
fi ni ni fi fi
[6 ; 6.5[ 8 16 8 50 16 100
[6.5 ; 7[ 7 14 15 42 30 84
[7 ; 7.5[ 9 18 24 35 48 70
[7.5 ; 8[ 6 12 30 26 60 52
[8 ; 8.5[ 11 22 41 20 82 40
[8.5 ; 9[ 3 6 44 9 88 18
[9 ; 9.5[ 5 10 49 6 98 12
[9.5 ; 10[ 1 2 50 1 100 2
50 100 / / / /
Classe modale = [8 ; 8,5[ (n = 11)
2. La médiane
Khalil F( TD-TP ) 1999-2000
La médiane est la valeur de la variable qui divise les effectifs en deux parties égales donc telle que 50% des sujets de l’échantillon ont une valeur inférieure à la médiane et
50% des sujets une valeur supérieure. Quand on ordonne la série de mesures, la
médiane est la valeur qui se situe au centre de la série ainsi ordonnée.
Dans un tableau statistique, ce sont les effectifs relatifs ou absolus cumulés qui vont nous permettre de calculer la Mé ; en effet, ces effectifs nous permettent de dire ‘il y a tant de sujets qui se situent au dessus ou en dessous de telle valeur’ et c’est exactement
la signification de la médiane ‘il y a 50% de sujets au dessus et 50% de sujets en dessous de cette valeur’.
On ne peut pas calculer la médiane d’une distribution nominale, cela n’a aucun sens.
2.1. Variables ordinales
Si le nombre de valeurs est impair, la série comporte (2n+1) valeurs et la médiane est
la (n+1) ième valeur ; on peut dire aussi qu’elle a pour rang (N+1)/2 Exemple : 4 5 9 11 15 16 18
La médiane Mé est 11 ; il y a 3 observations avant et 3 observations après 11
Si le nombre de valeurs est pair, la série comporte 2n valeurs et il n’existe pas de
valeur qui sépare en deux sous-ensembles égaux la série ; on parle alors d’un intervalle médian, déterminé par les valeurs n et n+1
Exemple : 4 5 9 11 15 16 18 20 L’intervalle médian est 11-15 Parfois, on admet que c’est la moyenne de ces deux valeurs.
Détermination de la médiane
Dans le tableau statistique, on calcule les fréquences cumulées relatives ou absolues ; on repère la valeur 0,5 (ou 50 si pourcentages) pour les fréquences cumulées relatives ou N/2 pour les fréquences cumulées absolues. Généralement, les valeurs 0,5 ou N/2
apparaissent entre deux lignes du tableau ; la médiane est la valeur de Xi qui correspond
à la ligne du bas. Cela signifie que la médiane dans ce cas ne partage pas exactement l’effectif en deux sous-ensembles égaux.
On peut également observer la médiane sur le graphe des effectifs cumulés. Exemple : nombre de pièces dans un appartement
Khalil F( TD-TP ) 1999-2000
xi ni ni fi fi
1 45 45 30 30
2 60 105 40 70
3 20 125 13.33 83.33
4 10 135 6.66 90
5 9 144 6 96
6 6 150 4 100
150 100
N/2 (c’est-à-dire 75) ou fi = 50 se situe entre xi = 1 et 2 Mé = 2
Ce n’est pas tout à fait exact, car 30% de la population présente une valeur inférieure à 2 et non pas exactement 50%
Exemple sur la représentation graphique des effectifs cumulés croissants
2.2. Variables par intervalle Dans ce cas, on peut toujours trouver une valeur de la médiane divisant la série en deux
sous-ensembles d’égale importance. Pour trouver la classe médiane qui contient la médiane, on effectue le même raisonnement
que dans le cas des variables discrètes.
Khalil F( TD-TP ) 1999-2000
Exemple avec X3 (âge)
X3 ni
fi ni ni fi fi
[6 ; 6.5[ 8 16 8 50 16 100
[6.5 ; 7[ 7 14 15 42 30 84
[7 ; 7.5[ 9 18 24 35 48 70
[7.5 ; 8[ 6 12 30 26 60 52
[8 ; 8.5[ 11 22 41 20 82 40
[8.5 ; 9[ 3 6 44 9 88 18
[9 ; 9.5[ 5 10 49 6 98 12
[9.5 ; 10[ 1 2 50 1 100 2
50 100 / / / /
La classe médiane est [7,5 ;8[ avec une fréquence cumulée de 60% Il reste à déterminer la valeur de Mé dans cette classe.
Méthode approximative : détermination graphique
Détermination par interpolation linéaire Cette méthode suppose une répartition uniforme des individus dans la classe médiane.
1) on extrait la classe médiane, c’est-à-dire la classe correspondant à l’effectif cumulé
croissant qui dépasse N/2 ou 50% ; dans notre exemple, c’est [7,5 ; 8[
Khalil F( TD-TP ) 1999-2000
2) on extrait la partie du polygone statistique des effectifs absolus cumulés croissants correspondant à cette classe ; on travaille uniquement avec sur l’axe des abscisses 7,5
et 8 et sur l’axe des ordonnées 24 et 30. On place 25 (N/2) en ordonnées et on cherche
l’abscisse correspondant.
AGE (X3)
9,759,258,758,257,757,256,756,25
60
50
40
30
20
10
0
Sigma = ,98
Moyenne = 8,51
N = 261,00
Histogramme des effectifs absolus cumulés croissants de la variable Age (X3)
Détermination de la médiane par interpolation linéaire à partir des effectifs absolus
cumulés croissants
On applique Thalès : 5,78
5,7
Me
= 2430
2425
Me – 7,5 = 1/6 0,5 Me = 0,5/6 + 7,5 = 7,6
On peut faire la même chose avec un polygone des effectifs relatifs cumulés décroissants ; cette fois, on place 50 (50% moitié des effectifs) et on cherche l’abscisse
correspondant.
Khalil F( TD-TP ) 1999-2000
On peut faire également la même chose avec un polygone des effectifs cumulés
décroissants (absolus ou relatifs). On place 7,5 et 8 sur l’axe des abscisses, et 26 et 20 sur
l’axe des ordonnées. On place 25 et on cherche l’abscisse correspondant), mais attention à Thalès (sens différent)
AGE (X3)
9,759,258,758,257,757,256,756,25
60
50
40
30
20
10
0
Sigma = ,85
Moyenne = 7,20
N = 189,00
Histogramme des effectifs absolus décroissants de la variable Age (X3)
Détermination de la médiane par interpolation linéaire à partir des effectifs absolus cumulés décroissants
5,78
5,7
Me
= 2620
2625
Me – 7,5 = -1/-6 0,5 Me = 0,5/6 + 7,5 = 7,6
Khalil F( TD-TP ) 1999-2000
La médiane partage l’histogramme en deux surfaces égales.
3. Les quantiles
C’est la même idée que la médiane : on cherche ou on définit une valeur de la variable telle que cette valeur partage la série statistique en n sous-ensembles égaux ; si on veut partager la série en 4 sous-ensembles égaux, on parlera de quartiles, 10 sous-ensembles
égaux de déciles, et 100 sous-ensembles égaux de centiles.
De façon générale, on appelle fractile d’ordre , la valeur (f) telle que % de la
population présente une valeur inférieure à f. (exemple : f0,82 est la valeur telle que 82%
de la population présente une valeur inférieure à f0,82).
3.1. Les quartiles
Ce sont les valeurs qui partagent la série en 4 sous-ensembles de données ; on les note q1, q2 et q3. On les détermine de la même façon que la médiane ; on calcule les effectifs
relatifs ou absolus cumulés croissants, on repère les valeurs 25%, 50% et 75% ou ¼ N, ½ N et ¾ N (q2 est la médiane).
On appelle intervalle interquartile q3 – q1 ; il contient 50% des observations.
25% 25% 25% 25%
Q1 Q2 Q3 ¼ N ½ N ¾ N N
Exemple sur X3 (âge) :
X3 ni
fi ni ni fi fi
[6 ; 6.5[ 8 16 8 50 16 100
[6.5 ; 7[ 7 14 15 42 30 84
[7 ; 7.5[ 9 18 24 35 48 70
[7.5 ; 8[ 6 12 30 26 60 52
[8 ; 8.5[ 11 22 41 20 82 40
[8.5 ; 9[ 3 6 44 9 88 18
[9 ; 9.5[ 5 10 49 6 98 12
[9.5 ; 10[ 1 2 50 1 100 2
50 100 / / / /
Q1 : on cherche 25% dans les fi↑ La classe contenant 25% est [6,5 ; 7[
Khalil F( TD-TP ) 1999-2000
On associe 16% à 6,5 et 30% à 7
82,611630
1625
5,67
5,61
Q
Q
Q3 : on cherche 75% dans les fi↑
La classe contenant 75% est [8 ; 8,5[ On associe 16% à 6,5 et 30% à 7
34,836082
6075
85,8
83
Q
Q
3.2. Les déciles
Ils sont au nombre de 9 : d1, d2, ..., d9. Ils partagent la série en 10 sous-ensembles égaux contenant chacun 10% de la population. L’intervalle d9 – d1 est l’intervalle interdécile et
il contient 80% des observations. d5 est la médiane. 10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
d1 d2 d3 d4 d5 d6 d7 d8 d9
3.3. Les centiles
Ils sont au nombre de 99 et partagent la série en 100 sous-ensembles égaux contenant chacun 1% de la population. L’intervalle intercentile est c99-c1 et il contient 98% de la population. c50 est la médiane, c10 est d1, c25 est q1.
3.4. Exemple de calcul d’un fractile
On veut calculer f0,85 de la série X3 (âge), c’est-à-dire la valeur de X3 (l’âge) telle que 85% de la population ait un âge strictement inférieur à cette valeur.
Classe concernée par l’interpolation linéaire : 8,5 ; 9 abscisses ; ordonnées : 82 et 88
Khalil F( TD-TP ) 1999-2000
75,88288
8285
5,89
5,885,0
85,0
f
f
4. La moyenne
4.1. Définitions
La moyenne arithmétique d’une série statistique Xi est égale au rapport de la somme
des valeurs observées par le nombre d’observations (N). On lit x barre.
x = n
1
n
i 1 xi Exemple : série de notes obtenues par 20 étudiants {9, 12, 13, 5, 3, 8, 14, 17, 9, 12, 11, 15, 18, 9, 8, 13, 2, 5, 9, 18}
x = 20
1
(9 + 12 + 13 + ..... + 9 + 18) = 10,5
On dit qu’une moyenne est pondérée lorsqu’il existe plusieurs observations pour toutes
ou certaines valeurs de xi.
4.2. Cas des variables ordinales
Exemple de la même série de notes mais présentée dans un tableau statistique
xi ni nixi fi fixi
Khalil F( TD-TP ) 1999-2000
2 1 2 0.05 0.1
3 1 3 0.05 0.15
5 2 10 0.1 0.5
8 2 16 0.1 0.8
9 4 36 0.2 1.8
11 1 11 0.05 0.55
12 2 24 0.1 1.2
13 2 26 0.1 1.3
14 1 14 0.05 0.7
15 1 15 0.05 0.75
17 1 17 0.05 0.85
18 2 36 0.1 1.8
20 210 1 10.5
x = npnn
npxpxnxn
.....21
......2211
= 20
3617......1032
= 20
210
= 10.5
x =
ni
nixi
On observe également que la moyenne est égale à la somme du produit des valeurs de la variable par leurs fréquences relatives :
x =
k
i 1 fixi
4.3. Cas d’une variable d’intervalle
On est obligé de définir quelle est la valeur de xi : c’est le centre de la classe.
Exemple de âge (X3)
Khalil F( TD-TP ) 1999-2000
X3 xi ni
nixi fi (%) fi(%)xi fi fixi
[6 ; 6.5[ 6.25 8 50 16 100 0.16 1
[6.5 ; 7[ 6.75 7 47.25 14 94.5 0.14 0.945
[7 ; 7.5[ 7.25 9 65.25 18 130.5 0.18 1.305
[7.5 ; 8[ 7.75 6 46.5 12 93 0.12 0.93
[8 ; 8.5[ 8.25 11 90.75 22 181.5 0.22 1.815
[8.5 ; 9[ 8.75 3 26.25 6 52.5 0.06 0.525
[9 ; 9.5[ 9.25 5 46.25 10 92.5 0.10 0.925
[9.5 ; 10[ 9.75 1 9.75 2 19.5 0.02 0.195
/ 50 382 100 764 1 7.64
x =
ni
nixi
= 50
382
= 7.64 L’âge moyen des enfants est donc de 7.64 ans.
5. Relation entre mode, médiane et moyenne Pour une courbe unimodale, modérément asymétrique, on a la relation suivante :
m - mo = 3 (m - Mé)
Khalil F( TD-TP ) 1999-2000
CHAPITRE CINQ
LES CARACTERISTIQUES DE DISPERSION Les paramètres de tendance centrale sont utiles mais insuffisants pour décrire une
population.
Exemple : on observe les diagrammes en bâtons des deux séries X et Y
(1,5) (2,5) (3,9) (4,5) (5,2) (6,9) (7,4) (8,6) (9,5) x = 4.94 N=50
(1,8) (2,7) (3,4) (4,8) (5,1) (6,2) (7,3) (8,10) (9,7) y = 4,94 N=50 Elles ont la même moyenne mais présentent des distributions différentes ; on est donc amené à mesurer leur dispersion afin de mieux caractériser ces deux séries.
VAR00001
9,008,007,006,005,004,003,002,001,00
Occu
rre
nce
s
10
8
6
4
2
0
VAR00002
9,008,007,006,005,004,003,002,001,00
Occ
urr
en
ces
12
10
8
6
4
2
0
1. Définitions
L’étendue est la différence entre la plus grande valeur et la plus petite valeur prises par la variable ; cette quantité est indépendante de la façon dont sont distribuées les
valeurs dans la série. Exemple : étendue de x = 9 – 1 = 8
étendue de y = 9 – 1 = 8
L’écart absolu moyen est la moyenne des valeurs absolues des écarts à la moyenne.
Khalil F( TD-TP ) 1999-2000
e =
ni
xxini
Exemple : ex = 50
94.49594.486......94.42594.415
= 2.57
ey = 50
94.49794.4810......94.42794.418
= 2.97
La fonction valeur absolue n’étant pas très manipulable en mathématiques, on a préféré la variance.
La variance est la moyenne des carrés des écarts à la moyenne ou écart quadratique
moyen.
VarX =
ni
xxini2
L’écart-type est la racine carrée de la variance : = VarX
Exemple : VarX = 6.60 x = 2.57
VarY = 8.82 y = 2.97
2. Calcul de la variance et de l’écart type suivant la définition
Dans le tableau statistique, on a donc besoin d’une colonne xi - x , d’une colonne (xi -
x )² et d’une colonne ni (xi - x )² en plus de celle nécessaire pour calculer la moyenne.
Exemple : soit 27 enfants dont on relève le QI
Classes xi ni
ni.xi xi - x (xi - x )² ni .(xi - x )²
[65 ; 75[ 70 1 70 -39.26 1541.35 1541.35
[75 ; 85[ 80 2 160 -29.26 856.15 1712.30
[85 ; 95[ 90 3 270 -19.26 370.95 1112.84
[95 ; 105[ 100 6 600 -9.26 85.75 514.49
Khalil F( TD-TP ) 1999-2000
[105 ; 115[ 110 5 550 .74 .55 2.74
[115 ; 125[ 120 4 480 10.74 115.35 461.39
[125 ;135[ 130 3 390 20.74 430.15 1290.44
[135 ; 145[ 140 2 280 30.74 944.95 1889.90
[145 ; 155[ 150 1 150 40.74 1659.75 1659.75
27 2950 / / 10185.20
x = 2950/27 = 109.26
VarX = 10185.20/27 = 377.23
= 19.42
3. Autre méthode de calcul de la variance et de l’écart type
On montre que Var X =
ni
nixi²
-
2
ni
nixi
VarX =
ni
xxini2
(rappel : (a+b)² = a² + 2ab + b²)
=
ni
xnixxininixi ²2²
or
ni
nixi
= x
=
ni
nixi²
- x .2. x+
ni
xni ²
x (et x ²) étant une constante dans l’équation,
=
ni
nixi²
- x .2. x+ x ²ni
ni
=
ni
nixi²
- x .2. x+ x ².1
=
ni
nixi²
- 2 x ² + x ²
=
ni
nixi²
- x ² ou encore =
ni
nixi²
-
2
ni
nixi
Khalil F( TD-TP ) 1999-2000
Exemple : soit 27 enfants dont on relève le QI
classes xi ni
ni.xi ni.xi²
[65 ; 75[ 70 1 70 4900
[75 ; 85[ 80 2 160 12800
[85 ; 95[ 90 3 270 24300
[95 ; 105[ 100 6 600 60000
[105 ; 115[ 110 5 550 60500
[115 ; 125[ 120 4 480 57600
[125 ;135[ 130 3 390 50700
[135 ; 145[ 140 2 280 39200
[145 ; 155[ 150 1 150 22500
27 2950 332500
VarX =
27
332500 2
27
2950
= 377.23
= 19.42
4. Caractéristiques des paramètres de dispersion
Pour une courbe symétrique et unimodale, proche d’une courbe de type courbe de Gauss, l’écart type correspond à la distance qui sépare le point d’inflexion de la courbe
de l’axe de symétrie. Le point d’inflexion est le point d’inversion du sens de la courbure, celui où la tangente d’intérieure devient extérieure.
Khalil F( TD-TP ) 1999-2000
La « preuve des 3 écarts-types » Pour une courbe proche d’une courbe gaussienne et si l’écart-type est correctement
calculé, pratiquement toutes les valeurs de la distribution doivent se trouver entre : m -
3 et m + 3. Exemple précédent :
= 19.42 m = 109.29 m + 3 = 167.55 et m - 3 = 51.03
Top Related