Statistique Descriptive Serie Statistique

173
Statistique descriptive Séries statistiques à une et deux variables Séries chronologiques Indices Une présentation synthétique et illustrée des séries statistiques à une ou deux variables, des séries chronologiques et des indices.

Transcript of Statistique Descriptive Serie Statistique

  • Statistiquedescriptive

    Sries statistiques une et deux variablesSries chronologiquesIndices

    Une prsentation synthtique et illustre des sries statistiques une ou deux variables, des sries chronologiques et des indices.

    Lim-891.qxd copie 1/12/05 9:46 Page 1

    gerbig

  • Fabrice MAZEROLLEest Matre de confrences la Facult dAix-Marseille III. Il enseignegalement la statistique descriptive dans divers tablissementsdenseignement suprieur.

    Gualino diteur, EJA Paris 2006ISBN 2 - 84200 - 891 - X

    Site internet de lauteur : www.mazerolle.fr

    Du mme auteur

    Exercices corrigs de statistique descriptive (coll. Exercices corrigs) 1re dition 2006

    Lim-891.qxd copie 1/12/05 9:46 Page 2

    Dpt lgal : dcembre 2005

  • Fabrice MAZEROLLE

    Statistiquedescriptive

    Sries statistiques une et deux variablesSries chronologiquesIndices

    Une prsentation synthtique et illustre des sries statistiques une ou deux variables,des sries chronologiques et des indices.

    Lim-891.qxd copie 1/12/05 9:46 Page 3

  • Plusieurs sries de livres pour les tudiants des facults dedroit, des sciences politiques, conomiques et de gestionainsi que pour les candidats aux concours de la Fonctionpublique (catgorie A) :

    Manuels Mmentos Les textes fondamentaux Panorama Abrgs illustrs Exercices corrigs

    (collection en partenariat avec LGDJ) AnnaDroit LMD

    (dition annuelle des sujets dexamen) Carrs Rouge Les glossaires QCM et QRC

    Catalogue gnral adress gratuitement sur simple demande :

    Gualino diteurTl. 01 56 54 16 00Fax : 01 56 54 16 49

    e-mail : [email protected] Internet : www.eja.fr

    Lim-891.qxd copie 1/12/05 9:46 Page 4

  • Remerciements

    Je tiens remercier mon collgue Bernard PY pour mavoir,tout au long de la rdaction de ce Mmento,

    fait bnficier de sa grande exprience de la statistique.

    3755_C01XP 21/11/2005 10:50 Page 5

  • 3755_C01XP 21/11/2005 10:50 Page 6

  • conomiques et sociales.

    Aprs un chapitre introductif, dans lequel le vocabulaire des statistiques est expos,

    contient de nombreux exemples permettant dacqurir une pratique de cette matire :

    x Les sries statistiques une dimension : Qu'il s'agisse de la dcomposition du Produit Intrieur Brut d'un pays par secteur d'activit, ou de l'volution du chiffre

    d'affaires d'une entreprise travers le temps, l'tudiant doit pouvoir en matriser la forme

    et la signification : prsentation en tableaux, en graphiques et calcul des caractristiques

    x Les sries statistiques deux dimensions : Le plus souvent, les tableaux et les graphiques prsentent simultanment deux - voire plusieurs - dimensions d'un mme

    phnomne, dans le but d'tudier leur interdpendance. Il existe pour cela des mthodes

    statistiques spcifiques, dont la plus connue est le coefficient de corrlation.

    x Les sries chronologiques : L'volution des phnomnes conomiques et sociaux dans le temps joue un rle si important en conomie que l'tude des sries

    chronologiques mrite un traitement particulier, afin d'exposer en dtail des outils tels

    que la dcomposition d'une srie sous forme dun trend et dune composante

    saisonnire.

    x Les indicesindispensable d'en connatre la construction, la manipulation et les proprits.

    aux tudiants d'AEJ et de sciences conomiques et

    gestion, mais aussi tous les tudiants des formations dont le cursus comprend une

    initiation la statistique descriptive.

    Il peut tre utilement complt par :

    Le livre Exercices Corrigs de Statistique Descriptive, publi dans la collection Fac-

    logiciels des exercices et des techniques statistiques exposs dans cet ouvrage.

    x Un glossaire, en fin douvrage, reprend les principales formules tudies dans le livre.

    Universit, du mme auteur.

    est rgulirement mise jour par des exercices corrigs, ainsi que des prolongements

    L'ouvrage s'adresse en priorit

    dont la rubrique Statistique descriptive

    Ce mmento de Statistique Descriptive prsente de faon synthtique, structure et

    l'ensemble des connaissances ncessaires est dvelopp en quatre parties. Louvrage

    matriser en sciences illustre l'ensemble des connaissances et des techniques

    rsumes d'une srie de chiffres (moyenne, cart-type, mode, mdiane, etc.).

    : Ils sont trs utiliss en sciences sociales, de sorte quil est

    Le site Internet de l'auteur, www.mazerolle.fr

    Prsentation

    3755_C01XP 21/11/2005 10:50 Page 7

  • 3755_C01XP 21/11/2005 10:50 Page 8

  • PrsentationChapitre 1 Vocabulaire de la statistique descriptive 15

    1 Champ de la statistique descriptive 15A Dfinition 15B Statistique descriptive et statistique mathmatique 15

    2 Description dune population statistique 16A Units statistiques, population, chantillons 16B Caractres et variables 16C Modalits ordinales, modalits nominales 18D Valeurs discrtes, valeurs continues 19E Units individuelles et units groupes 19F Effectifs, frquences, pourcentages, ratios, taux et indices 21

    1) Effectifs ou frquences absolues 212) Frquences relatives et pourcentages 213) Ratio, taux et indices 22

    G Tableau rcapitulatif 23

    3 Taux de croissance 24A Dfinition 24B volutions successives 25C Taux de croissance moyen 25D Taux de croissance dun produit 26E Taux de croissance dun rapport 26

    4 Oprateurs somme et produit 27A Loprateur somme 27B Loprateur produit 28

    Sommaire

    3755_C01XP 21/11/2005 10:50 Page 9

    7

  • PARTIE 1 Les sries statistiques une dimension

    Chapitre 2 Tableaux et graphiques 331 Tableaux 33

    A Tableaux de donnes qualitatives 33B Tableaux de donnes quantitatives 36

    1) Variable quantitative discrte, valeurs connues individuellement 362) Variable quantitative discrte, valeurs regroupes 363) Variable quantitative continue, valeurs connues individuellement 374) Variable quantitative continue, donnes groupes 37

    2 Graphiques 38A Importance des graphiques 38B Donnes individuelles 39

    1) La ligne 392) Le graphique tige et feuilles 40

    C Donnes groupes par modalits ou valeurs 411) Diagramme en btons 412) Diagramme en barres 423) Nuage de points dans le cas dune srie unidimensionnelle 43

    D Camembert ou graphique en tarte ? 44E Lhistogramme 45F Lutilisation des graphiques des fins de comparaison 47

    1) Le radar, excellent moyen deffectuer des comparaisons visuelles 472) Comparaisons dans le temps 483) Les graphiques de sries chronologiques 484) Un beau graphique vaut mieux quun long discours 495) Les graphiques dindices 506) Les chelles semi-logarithmiques 51

    Chapitre 3 Les caractristiques de tendance centrale 531 Les moyennes 53

    A La moyenne arithmtique 531) La moyenne arithmtique simple 532) La moyenne arithmtique pondre 543) La moyenne lague 56

    B La moyenne quadratique 571) La moyenne quadratique simple 572) La moyenne quadratique pondre 57

    C La moyenne gomtrique 581) La moyenne gomtrique simple 582) La moyenne gomtrique pondre 58

    G10 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C01XP 21/11/2005 10:50 Page 10

  • D La moyenne harmonique 591) La moyenne harmonique simple 592) La moyenne harmonique pondre 59

    2 La mdiane 60A Calcul de la mdiane : effectif impair et aucune valeur nest rpte 61B Calcul de la mdiane : effectif pair et aucune valeur nest rpte 61C Calcul de la mdiane : effectifs groups par valeurs 62D Calcul de la mdiane : effectifs groups par classes de valeurs 63

    3 Le mode 65A Calcul du mode : srie simple, aucune valeur nest rpte 65B Calcul du mode : effectifs groups par valeurs 65C Calcul du mode : effectifs groups par classes damplitudes gales 65D Calcul du mode : effectifs groups par classes damplitudes ingales 66

    4 Comment caractriser la forme dune distribution laide de la moyenne arithmtique, de la mdiane et du mode 68A Distribution parfaitement symtrique 68B Distribution tale droite 69C Distribution tale gauche 70

    Chapitre 4 Dispersion et concentration 711 Lintervalle de variation 71

    2 Lintervalle interquartile 72

    3 La bote moustache 78A Dfinition 78B Utilit de la bote moustache pour comparer des sries 79C Utilit de la bote moustache pour dterminer la forme

    dune distribution 80

    4 Variance, cart-type et coefficient de variation 81A La variance 81

    1) Dfinition 812) Mode de calcul de la formule (1-a) 823) Mode de calcul de la formule dveloppe 83

    B Lcart-type et le coefficient de variation 841) Lcart-type 842) Le coefficient de variation 85

    G11Sommaire

    3755_C01XP 21/11/2005 10:50 Page 11

  • 5 Les indicateurs de concentration 87A La mdiale 87B La dtermination de la concentration par la mthode graphique 88C Lindice de GINI 90D Lcart mdiale-mdiane rapport lintervalle de variation 92

    PARTIE 2 Les sries statistiques deux dimensions

    Chapitre 5 Les sries statistiques deux dimensions. I : tableaux, graphiques, vocabulaire 97

    1 Tableaux et graphiques 97A Sries quantitatives connues individuellement 97B Sries quantitatives groupes 99C Sries qualitatives 100

    2 Reprsentation abstraite dun tableau de contingence 101

    3 Effectifs marginaux et frquences marginales 103

    4 Moyennes et variances marginales 104A Moyennes marginales 104B Variances marginales 105

    5 Frquences partielles sur effectif total 106

    6 Distributions conditionnelles 106

    7 Moyennes et variances conditionnelles 108A Moyennes conditionnelles 108B Variances conditionnelles 109

    Chapitre 6 Les sries statistiques deux dimensions. II : outils danalyse 111

    1 Sries quantitatives avec observations connues individuellement 111A Liaison linaire, liaison non linaire, absence de liaison 111B La droite de rgression linaire 114

    1) Dfinition 1142) Calcul des coefficients 1153) Utilit de la droite de rgression 117

    C Le coefficient de corrlation 1171) Dfinition et calcul 1172) Coefficient de corrlation et coefficient de dtermination 1183) Corrlation et causalit 118

    G12 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C01XP 21/11/2005 10:50 Page 12

  • 2 Sries quantitatives avec observations groupes 120A Cas des donnes groupes par valeurs

    B Cas des donnes groupes par classes1) Le coefficient de corrlation2) Le test dindpendance 124

    3 Sries qualitatives 125125

    B Le test du Khi-carr de PEARSONS 127

    PARTIE 3 Les sries chronologiques

    Chapitre 7 Les sries chronologiques 1311 Introduction 131

    A Dfinition 131B Priodicit 132C Tendance, variations saisonnires et accidentelles 133D Modle multiplicatif et modle additif 134

    2 Dtermination du trend dune srie chronologique 135A La dtermination du trend par la rgression linaire 135B La dtermination du trend par la mthode des moyennes mobiles 137

    3 Les variations saisonnires 140A Vocabulaire 140B Les tapes du calcul de la srie CVS 141

    1) Dtermination de lquation du trend 1422) Calcul des coefficients saisonniers 1433) Dtermination de la srie CVS 145

    4 Les variations accidentelles 146

    PARTIE 4 Les indices

    Chapitre 8 Les indices 1511 Introduction 151

    A Dfinition et exemples 151B Indice temporel et indice de situation 152C Indice lmentaire et indice synthtique 154

    G13Sommaire

    3755_C01XP 21/11/2005 10:50 Page 13

    A Le coefficient de corrlation de rang de SPEARMAN

    120121121

  • 2 Les indices synthtiques de LASPEYRES, PAASCHE et FISHER 156A Dfinition de la valeur dun panier de biens 156B Les indices de LASPEYRES 156

    1) Lindice de LASPEYRES des prix 1562) Lindice de LASPEYRES des quantits 158

    C Les indices de PAASCHE 1581) Lindice de PAASCHE des prix 1592) Lindice de PAASCHE des quantits 159

    D Les indices de FISHER 1601) Lindice de FISHER des prix 1602) Lindice de FISHER des quantits 161

    3 Lindice des prix la consommation de lINSEE 161

    Glossaire des formules 163Bibliographie 173

    G14 MMENTO STATISTIQUE DESCRIPTIVE

    Avertissement

    Les erreurs ventuelles qui subsisteraient dans cette premire dition sont toutes de mon fait etseront corriges dans les ditions ultrieures.

    3755_C01XP 21/11/2005 10:50 Page 14

  • Il suffit d'allumer son ordinateur ou d'couter les informations la radio pour constater

    que les statistiques sont partout. Ceci rvle que le monde moderne est presque

    discipline relativement rcente, mais qui correspond parfaitement cette orientation du

    monde moderne.

    Ce chapitre introductif est consacr la dfinition de la statistique descriptive ainsi que

    des diffrents termes qui en constituent le vocabulaire de base.

    ensemble de mthodes permettant de dcrire et d'analyser, de faon quantifie, des

    phnomnes reprs par des lments nombreux, de mme nature, susceptibles d'tre

    Deux points importants ressortent de cette dfinition :

    1) Ensemble de mthodes : la statistique descriptive ne contient aucune thorie, mais

    seulement des outils d'investigation et de mesure des donnes chiffres.

    2) Dcrire et analyser, de faon quantifie, des phnomnes reprs par des lments

    nombreux : dcrire, c'est--dire faire des tableaux, des graphiques, calculer des

    moyennes afin de faire ressortir la signification.

    La statistique descriptive appartient cependant un ensemble plus vaste, la

    statistique gnrale, qui se divise en deux branches : statistique descriptive, objet de

    ce mmento, et la statistique mathmatique (ou statistique "infrentielle"), dont l'objet

    est de formuler des lois de comportement partir d'observation souvent incompltes.

    Cette dernire intervient dans les enqutes et les sondages. Elle s'appuie non

    seulement sur la statistique descriptive, mais aussi sur le calcul des probabilits.

    Statistique gnrale

    Statistique mathmatique

    Statistique descriptive

    Schma 1 : Les deux branches de la statistique

    A Dfinition

    B Statistique descriptive et statistique mathmatique

    1 x CHAMP DE LA STATISTIQUE DESCRIPTIVE

    Vocabulaire de la statistique descriptive

    dnombrs et classs.

    comprendre et russir (ditions Economica) : La statistique [descriptive] est un

    Il existe de nombreuses dfinitions (plusieurs centaines), celle que nous donnons ici est

    entirement tourn vers le quantitatif et le mesurable. D'o l'intrt de la statistique,

    celle de Bernard PY,dans son livre Statistique descriptive, nouvelle mthode pour bien

    CHAPITRE 1

    3755_C01XP 21/11/2005 10:50 Page 15

  • Les lments nombreux dont s'occupe la statistique descriptive sont appels des units

    statistiques. Ces units sont regroupes dans une population. Lorsque la population est

    trop importante pour tre connue entirement, on prlve un chantillon. Les relations qui

    existent entre la population, les chantillons et les units statistiques sont rsumes dans

    le schma ci-dessous.

    PopulationEchantillon 2

    Units

    En thorie, on doit soigneusement distinguer la description d'un chantillon et la

    description d'une population. C'est d'ailleurs l'un des objets principaux de la statistique

    mathmatique que de prciser les conditions dans lesquelles un chantillon est

    reprsentatif d'une population. De ce fait, certaines formules de calcul qui sont valables

    pour une population sont lgrement diffrentes quand on les applique un chantillon.

    C'est le cas notamment de la variance (voir le chapitre 3). Cependant, sauf mention

    contraire explicite, nous considrons dans cet ouvrage que les sries tudies

    constituent une population complte et non un chantillon.

    Echantillon 1

    repres par le nom et le prnom des tudiants (on a donc une liste). Si l'on souhaite

    principale laquelle chaque tudiant se rattache, les matires optionnelles qu'il a choisi,

    lge, le poids, la taille, etc.

    Schma 2 : Units statistiques, population, chantillons

    Parmi ces critres, certains sont quantitatifs, comme lge, le poids, la taille. On peut en

    effet effectuer des calculs numriques sur ces critres : poids moyen, taille maximale,

    taille minimale, etc. Dautres critres ne sont pas quantifiables, car on ne peut pas

    effectuer de calculs dessus. Ils sont qualitatifs. Cest le cas du sexe par exemple. On

    Afin de diffrencier les deux type de critres, les critres qualitatifs sont appels des

    chiffres dune variable.

    2 x DESCRIPTION DUNE POPULATION STATISTIQUEA Units statistiques, population, chantillons

    B Caractres et variables

    sexe moyen na pas de sens et ne peut dailleurs pas tre calcule.

    Dans une population, par exemple celle des tudiants dune facult, les units sont

    tudier cette population, on va retenir certains critres dtude comme le sexe, la filire

    diffrentes catgories dun caractre qualitatif et on qualifie de valeurs les diffrents

    peut connatre leffectif masculin et leffectif fminin dune population, mais la notion de

    les caractres et les critres quantitatifs des variables. On dsigne par modalits

    G16 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C01XP 21/11/2005 10:50 Page 16

  • effectif masculin de 370. Traduisons ces informations dans le vocabulaire de la statistique

    descriptive.

    P Effectif total : n = 600Population

    i units statistiques

    X Caractre

    Modalits XF XM

    nF

    nM

    Effectifs associs

    chaque modalit370 hommes, 230 femmes

    Chaque tudiant i = 1, 2, , n

    Le sexe

    Fminin ou Masculin

    Tableau 1 : Exemple dun critre qualitatif

    (*) Il ny a que 9 valeurs, parce que le 10 est rpt 2 fois. Ce qui montre limportance de distinguer les

    valeurs de la variable et leffectif de lchantillon (ou de la population). Leffectif varie de 1 n (avec n=10),

    tandis que les valeurs varient de 1 9 (avec h=9).

    Exemple 2 : soit un chantillon de 10 tudiants ayant pass un examen. Ils ont obtenu les

    notes suivantes (sur 20) : {16, 8, 6, 14, 10, 18, 13, 9, 10, 15}.

    E Effectif de lchantillon : n=10chantillon

    i Units statistiques

    X Variable

    Valeurs (*){x1, x2, , xh}

    Effectifs associs

    chaque valeur{1,1,1,2,1,1,1,1,1}

    Chaque tudiant i = 1, 2, , n

    Notes

    {6,8,9,10,13,14,15,16,18}

    Tableau 2 : Exemple dun critre quantitatif

    {n1, n

    2, , n

    h}

    Leffectif total, n, va se rpartir entre leffectif masculin et leffectif fminin, ce qui nous

    permet dcrire que n = nF

    + nM. Cette galit, nous pouvons lcrire parce que les

    diffrentes modalits dun caractre sont la fois exhaustives et incompatibles.

    Exhaustives, car elles dcrivent toutes les valeurs ou tats possibles dun caractre.

    Incompatibles, car un individu ne peut pas avoir plus dune modalit.

    Exemple 1 : soit une population de 600 tudiants, avec un effectif fminin de 230 et un

    G17Vocabulaire de la statistique descriptive

    3755_C01XP 21/11/2005 10:50 Page 17

  • Les modalits d'un caractre qualitatif, si elles ne peuvent pas tre mesures

    quantitativement, sont parfois susceptibles d'tre classes. Ce sont des modalits

    ordinales.

    Exemple 1 : Un questionnaire de satisfaction demande aux consommateurs d'valuer

    une prestation en cochant lune des six catgories suivantes :

    (a) nulle, (b) mdiocre, (c) moyenne, (d) assez bonne, (e) trs bonne, (f) excellente

    Il s'agit de modalits ordinales puisqu'elles peuvent tre hirarchises : une prestation

    excellente est meilleure qu'une prestation bonne, etc. La diffrence avec des valeurs

    quantitatives est qu'on ne peut dire, par exemple, si une prestation juge excellente est

    deux fois ou quatre fois meilleure qu'une prestation dcrite comme moyenne. On peut

    effectuer un classement, non une quantification.

    Remarque : certaines modalits ordinales peuvent nanmoins tre transformes

    valeurs quantitatives. Ce sont en fait des valeurs quantitatives qui prennent l'apparence

    de modalits qualitatives ordinales.

    Exemple 2 : Des chemises sont classes par taille : XS, S, M, L, XL, XXL, XXXL. Il

    s'agit de modalits faussement ordinales. En ralit il existe un tableau de

    correspondance qui explicitera quelle taille en cm chacune de ces catgories

    Les modalits d'un caractre qualitatif qui ne peuvent pas tre classes ou hirarchises

    sont dites nominales.

    Exemple 3 : On demande un chantillon de personnes ce qu'voque pour elles un

    parfum. Plus prcisment, elles doivent cocher une des cases suivantes :

    (a) aventure, (b) sensualit, (c) confort, (d) nostalgie

    Il est clair qu'aucune comparaison ni hirarchisation ne peuvent tre tablies entre ces

    modalits. Elles sont nominales.

    Remarque : Certaines modalits purement nominales sont parfois codes avec des

    chiffres. Par exemple, le sexe des individus d'une population sera cod par "1" pour les

    hommes et par "2" pour les femmes. Il s'agit bien l d'une tentative de quantification

    d'une variable purement nominale. On parle alors de variables pseudo-numriques. On

    peut en effet de cette faon calculer une moyenne, qui sera en fait la proportion des

    hommes dans la population ou dans l'chantillon.

    C Modalits ordinales, modalits nominales

    correspond.

    G18 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C01XP 21/11/2005 10:50 Page 18

  • Une variable quantitative peut-tre discrte ou continue. Lorsque le nombre de valeurs

    possibles est fini (exemple : le nombre denfants, le nombre de pices dun logement, etc.),

    la variable est discrte. Lorsque le nombre de valeurs possibles de la variable est infini

    (exemple : la taille, le poids ou le revenu des mnages), la variable est continue.

    Les units dune population, que le critre soit qualitatif ou quantitatif (discret ou continu),

    peuvent tre prsentes individuellement (cest gnralement le cas lorsque les donnes

    sont saisies) ou regroupes. Le regroupement peut tre effectu par modalits, par

    valeurs ou par classes de modalits ou de valeurs.

    consommateurs d'valuer une prestation en cochant lune des six catgories suivantes :

    (a) nulle, (b) mdiocre, (c) moyenne, (d) assez bonne, (e) trs bonne, (f) excellente

    On prsenter les donnes individuellement (tableau 3), groupes par modalits (tableau 4)

    ou par classes de modalits (tableau 5).

    Identificateur(*) 1 2 3 4 5 6 7 8 9 10

    valuation a e e c e f a f e b

    Modalits a b c d e f

    Effectif 2 1 1 0 4 2

    ClassesDe nulle assez bonne

    (a b c d)

    De trs bonne excellente

    (e f)

    Effectif 4 6

    Tableau 3 : Donnes prsentes individuellement

    Tableau 4 : Donnes groupes par modalits

    Tableau 5 : Donnes groupes par classes de modalits

    D Valeurs discrtes, valeurs continues

    E Units individuelles et units groupes

    Exemple 1 : Un questionnaire de satisfaction demande un chantillon de 10

    (*) Nom de la personne ou numro si lon veut prserver lanonymat.

    G19Vocabulaire de la statistique descriptive

    3755_C01XP 21/11/2005 10:50 Page 19

  • Exemple 2 : On a mesur 20 personnes et les rsultats sont (en cm) :

    {148, 165, 145, 173, 148, 145, 152, 180, 135, 170, 170, 170, 142, 148, 165, 175, 180, 180, 180, 180}

    Il s'agit d'un variable continue (la taille), mais dont les valeurs sont ici connues

    individuellement. On peut aussi effectuer un regroupement par taille car certaines tailles,

    comme 170 ou 180, apparaissent plusieurs fois (tableau 6).

    Taille 135 142 145 148 152 165 170 173 175 180

    Effectifs 1 1 2 3 1 2 3 1 1 5

    Il est galement possible d'effectuer un regroupement par classes de valeurs. On choisira,

    titre d'exemple, un regroupement par classes d'amplitudes gales (tableau 7), puis un

    regroupement par classes d'amplitudes ingales (tableau 8). On dsigne par ai,

    lamplitude dune classe. Dans le tableau 7, lamplitude de classe est la mme pour toutes

    Classes Effectifs

    [130-140[ 1

    [140-150[ 6

    [150-160[ 1

    [160-170[ 2

    [170-180] 10

    Classes Effectifs

    [130-150[ 7

    [150-170[ 3

    [170-180] 10

    Lorsque les units statistiques sont groupes par classes, on calcule un centre de classe,

    dsign par ci, qui est gal la moyenne des extrmits de classes (voir le tableau 9 pour

    Tableau 6 : Donnes groupes par valeurs

    Tableau 7 : Groupement par classes

    (amplitudes gales)

    Tableau 8 : Donnes groupes par valeurs

    (amplitudes ingales)

    Classes Centres de

    classe (ci)

    [130-150[ (130+150)/2 = 140

    [150-170[ (150+170)/2 = 160

    [170-180] (170+180)/2 = 175

    Tableau 9 : Calcul des centres de classe

    des donnes du tableau 8

    les classes (10 cm) alors quelle est de 20 cm, 20 cm et 10 cm dans le tableau 8.

    le calcul des centres de classe du tableau 8).

    G20 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C01XP 21/11/2005 10:50 Page 20

  • Exemple 3 : On a questionn 100 mnages sur le nombre d'ampoules lectriques utilises

    dans leur domicile. Dans le premier tableau, les donnes sont regroupes par nombre

    d'ampoules. Dans le second tableau, elles sont regroupes par classes.

    Nombre

    d'ampoules2 3 4 5 6 7 8 9 11 12 13 15

    3 2Effectifs 5 8 8 10 18 16 10 9 6 5

    Classes Effectifs

    [2-5[ 21

    [5-10[ 63

    [10-15[ 16

    Une fois les units statistiques dune population rpertories, celles-ci sont prsentes

    dans des tableaux (voir le chapitre 2), de diverses manires : effectifs ou frquences

    absolues, frquences relatives, pourcentages, ratios, indices et taux. Il convient de

    dfinir ces termes avec prcision :

    Tableau 10 : Regroupement par nombre d'ampoules

    Tableau 11 : Regroupement par classes

    Il sagit de la rpartition brute des donnes. Lorsque les donnes sont prsentes

    individuellement, chaque donne a la mme frquence unitaire dapparition, leur effectif

    ou frquence absolue est gal 1. Lorsque les donnes sont regroupes par valeurs

    ou modalits, les effectifs ou frquences absolues correspondent au nombre de

    donnes qui ont la valeur ou modalit, ou encore qui sont groupes dans une classe

    donne.

    Symboliquement, les effectifs ou frquences absolues scrivent ni. Et la somme des

    effectifs est gale n. Ainsi, dans le cas du tableau 11, les effectifs ou frquences

    absolues dont respectivement gaux n1=21, n2=63 et n3=16. De plus, on a :

    1 2 321 63 16 100 n n n n

    La frquence relative est gale la frquence absolue divise par leffectif total :

    i

    i

    nf

    n

    (1)

    (2)

    F Effectifs, frquences, pourcentages, ratios, taux et indices

    1) Effectifs ou frquences absolues

    2) Frquences relatives et pourcentages

    G21Vocabulaire de la statistique descriptive

    3755_C01XP 21/11/2005 10:50 Page 21

  • On a donc :

    1 21 2

    1 2

    ...... ... 1

    h nh

    n n n nn n nf f f

    n n n n n

    Classes

    Effectifs ou

    frquences

    absolues

    Frquences

    relatives Pourcentages

    0,21 21

    63

    16

    100

    0,63

    0,16

    Total 100 1

    [2-5[ 21

    [5-10[ 63

    [10-15] 16

    Tableau 12 : Rpartition des mnages en fonction du nombre

    dampoules leur domicile

    Le tableau 12 reprend lexemple de la rpartition des mnages en fonction du nombre

    dampoules utilises leur domicile, en ajoutant la colonne des frquences relatives ct

    de celle des frquence absolues. La dernire ligne correspond aux totaux.

    Le pourcentage des donnes qui correspondent une modalit, une valeur ou une

    classe sobtient en multipliant la frquence relative correspondante par 100. Cest--

    dire:

    Pourcentage de la valeur (modalit ou classe) i = fix 100

    Les colonnes 2 (frquences absolues) et 4 (pourcentages) contiennent les mmes valeurs

    car leffectif total est gal 100. Si celui-ci tait diffrent de 100, les valeurs contenues

    dans les deux colonnes seraient diffrentes.

    Un ratio est une fraction qui divise deux quantits. Les frquences relatives sont des

    ratios puisquelles divisent deux quantits. Plus gnralement, les ratios sont trs utiliss

    en statistiques.

    Exemple 1 : Soit la srie de pices dfectueuses produites par 10 machines au cours

    dune semaine donne.

    {8, 16, 9, 33, 14, 5, 3, 7, 10, 7}

    Le ratio du nombre de pices dfectueuses le plus lev au nombre de pices

    dfectueuses le plus faible est 33/3 = 11. La machine numro 4 a donc produit 11 fois plus

    de pices dfectueuses que la machine numro 7.

    (4)

    (5)

    3) Ratio, taux et indices

    G22 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C01XP 21/11/2005 10:50 Page 22

  • Un taux est le ratio dune quantit par unit (de temps, de surface, de poids, etc.)

    Exemple 2 : Soit la srie de pices dfectueuses produites par 10 machines au cours

    dune semaine donne.

    {8, 16, 9, 33, 14, 5, 3, 7, 10, 7}

    Ces chiffres sont des taux car ils sont exprims dans lunit semaine . Cette unit est

    1 . On dit par consquent 8 pices par semaine, 16 pices par semaine, etc.

    Un indice est le ratio dune quantit une autre quantit qui sert de rfrence, multipli

    par 100.

    Exemple 3 : Soit la srie de pices dfectueuses produites par 10 machines au cours

    dune semaine donne de lexemple 1. Divisons chacune des valeurs de la srie par la

    valeur la plus faible et multiplions ensuite chaque valeur par 100. Le rsultat est une srie

    dindices, la base 100 tant la machine numro 7.

    { 266,7 ; 533,3 ; 300 ; 1100 ; 466,7 ; 166,7 ; 100 ; 233,3 ; 333,3 ; 233,3 }

    Le Schma 3 ci-dessous rcapitule les diffrentes sortes de donnes que lon

    rencontre en statistique, en partant de la distinction fondamentale entre donnes

    qualitatives et donnes quantitatives.

    Donnes

    Qualitatives Quantitatives

    Modalits

    ordinales

    Modalits

    nominales

    Valeurs

    discrtes

    Valeurs

    continues

    Donnes individuelles

    Donnes groupes

    par modalits

    Donnes individuelles

    Donnes groupes

    par classes de modalits

    Donnes groupes

    par modalits

    Donnes groupes

    par classes de modalits

    Donnes individuelles

    Donnes groupes

    par valeurs

    Donnes groupes

    par classes de valeurs

    Donnes individuelles

    Donnes groupes

    par valeurs

    Donnes groupes

    par classes de valeurs

    Schma 3 : Diffrentes sortes de donnes statistiques

    G Tableau rcapitulatif

    G23Vocabulaire de la statistique descriptive

    3755_C01XP 21/11/2005 10:50 Page 23

  • Le taux de croissance est trs utilis en statistique et, plus gnralement, en conomie. Il

    se dfinit ainsi :

    Valeur d'arriveTaux de croissance = - 1

    Valeur de dpart

    Soit g = taux de croissance, V0

    = valeur de dpart et Vt=valeur d'arrive. On a :

    0

    0 0

    1 t tV V Vg

    V V

    Le rapport Vt/V

    0est appel multiplicateur. Ds lors, on peut crire :

    g = multiplicateur - 1

    Ou encore :

    multiplicateur = 1 + g

    Prenons un exemple :

    Vt

    = 150

    V0

    = 100

    1501 0,5

    100g

    Le taux de croissance, exprim en pourcentage, est gal 0,5 x 100 = 50%.

    Ne pas confondre le taux de croissance, qui est une variation relative, et la variation

    t 0

    est gale 150 - 100 = 50. En d'autres termes :

    0

    0 0

    1variation absolue

    valeur de dpart

    t tV V VgV V

    (3)

    (5)

    (6)

    (7)

    3 x TAUX DE CROISSANCEA Dfinition

    1) Ne pas confondre le taux de croissance, qui est une variation relative, avec la

    Remarque :

    absolue qui est V V . Ici, la variation absolue est gale 150-100 = 50.

    variation absolue, qui est gale V V . Dans l'exemple prcdent, la variation absolue t 0

    G24 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C01XP 21/11/2005 10:50 Page 24

  • 2) En matire de taux de croissance, il n'y a pas de symtrie entre les hausses et les

    baisses :

    Lorsque je passe de 100 150, le taux de croissance, g est gal (150/100) 1 = 0,5,

    comme on l'a vu prcdemment. Mais si maintenant on applique une baisse de 50%

    150, on obtient 150(1-0,5) = 75. On ne retrouve pas la valeur de dpart. Le graphique ci-

    dessous illustre ce point.

    75

    100

    150

    0 1 2

    +50%

    -50%

    Soient g1, g

    2,, g

    tdes taux de croissance successifs. Le taux de croissance global sur

    la priode 1,,t est :

    1 21 1 .... 1 1ng g g g

    Exemple : soit une hausse de 5% suivie dune hausse de 2%, puis dune baisse de

    3%. Quel est le taux de croissance global (sur les 3 priodes) ?

    1 0,05 1 0,02 1 0,03 1 0,03887g

    Soient g1, g

    2,, g

    tdes taux de croissance successifs. Le taux de croissance moyen sur

    la priode 1,,t est :

    1 1tg g

    C'est--dire :

    1

    1 1tg g

    Exemple : soit une grandeur qui a augment successivement de g1 = 10%, g

    2 = 20% et

    g3

    = 40% sur 3 ans. Son taux daccroissement global est :

    g= (1+0,1)(1+0,2)(1+0,4)-1=0,848

    Figure 1 : Une hausse de 50% suivie dune baisse de 50%

    (8)

    (9)

    (9-1)

    B volutions successives

    C Taux de croissance moyen

    G25Vocabulaire de la statistique descriptive

    3755_C01XP 21/11/2005 10:50 Page 25

  • Et son taux de croissance moyen sur les trois priodes :

    11

    331 1 1,848 1g g

    Soient deux grandeurs la date t :

    01t vV g V 01t uU g U et

    Et son taux de croissance est :

    La grandeur qui reprsente leur produit est :

    01 1t t t v uW V U g g W u

    0

    1 1 1 1t

    w v u

    Wg g g

    W

    Exemple : Soit un commerant qui augmente le prix d'un produit de 4%. la suite de

    cette augmentation, la quantit vendue baisse de 3%. Le taux de croissance de la recette

    totale est alors donne par :

    (1 + 0,04)(1 - 0,03) 1 = (1,04 x 0,97) 1 = + 0,0088

    Soit une hausse de 0,88% de la recette totale.

    Soient deux grandeurs la date t :

    0)1( VgV

    vt

    0)1( UgU

    ut et

    La grandeur qui reprsente leur rapport est :

    0

    (1 )

    (1 )

    t v

    t

    t u

    V gZ Z

    U g

    (10)

    (11)

    (12)

    (13)

    (14)

    (15)

    D Taux de croissance d'un produit

    E Taux de croissance d'un rapport

    G26 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C01XP 21/11/2005 10:50 Page 26

  • Et son taux de croissance est :

    (1 )1

    (1 )

    v

    z

    u

    gg

    g

    Exemple : soit un commerant qui augmente le prix d'un produit de 4%. la suite de

    cette augmentation, il constate que sa recette totale augmente de 0,88%. tonn, il

    calcule le taux de croissance de la quantit vendue :

    (1 + 0,0088)/(1 + 0,04) - 1= 0,97 1 = - 0,03

    Il constate ainsi que la quantit vendue a baiss de 3%. Il comprend alors que si la

    recette totale a augment en dpit de la baisse de la quantit vendue, c'est parce que la

    baisse de la quantit vendue (3%) a t moins importante que l'augmentation du prix

    (4%) et s'endort content.

    L'expression de gauche se lit ainsi "somme des xi

    pour i allant de 1 4". Plus

    gnralement, pour une somme de n lments, on crit :

    Sigma oprateur somme1 2 3 4

    produit de ces 4 valeurs est donn par l'expression :

    4

    1 2 3 4

    1

    i

    i

    x x x x x

    1 2 4

    1

    ...

    n

    i

    i

    x x x x

    xi

    yi

    1 2

    -3 3

    -4 4

    2 5

    4

    1

    i

    i

    x

    4

    1

    i

    i

    y

    4

    2

    1

    i

    i

    x

    4

    1

    i i

    i

    x y

    4

    2

    1

    i i

    i

    x y

    Pour exprimer une somme d'lments de faon compacte, on utilise l'oprateur

    somme, symbolis par la lettre grecque majuscule "Sigma".

    (16)

    4 x OPRATEURS SOMME ET PRODUITA Loprateur somme

    Exemple 2 : soit le tableau de valeurs suivant. Calculons les expressions :

    Exemple 1 : soit quatre valeurs d'une variable x, indices par i : x , x , x , x . Le

    G27Vocabulaire de la statistique descriptive

    3755_C01XP 21/11/2005 10:50 Page 27

  • 1 2 1 3 2

    -3 3 9 0 27

    -4 4 16 0 64

    2 5 4 7 20

    - 4

    ix

    iy

    2

    ix i ix y

    2

    i ix y

    4

    1

    14i

    i

    y

    4

    2

    1

    30i

    i

    x

    4

    1

    10i i

    i

    x y

    4

    1

    1 3 4 2 4i

    i

    x

    4

    2

    1

    113i i

    i

    x y

    1 2 3 4

    Pour exprimer un produit d'lment de faon compacte, on utilise l'oprateur produit,

    symbolis par la lettre grecque majuscule Pi :

    Pi oprateur produit

    4

    1 2 3 4

    1

    i

    i

    x x x x x

    u u uL'expression de gauche se lit ainsi "produit des x

    ipour i allant de 1 4". Plus

    gnralement, pour un produit de n lments, on crit :

    1 2 4

    1

    ...

    n

    i

    i

    x x x x

    u u u

    Exemple 2 : soit le tableau de valeurs suivant. Calculons les expressions :

    xi

    yi

    1 2

    -3 3

    -4 4

    2 5

    4

    1

    i

    i

    x

    4

    2

    1

    i

    i

    x

    4

    1

    i

    i

    y

    4

    1

    i i

    i

    x y

    4

    2

    1

    i i

    i

    x y

    D'o le tableau :

    B L'oprateur produit

    produit de ces 4 valeurs est donne par l'expression :

    Exemple 1 : soit quatre valeurs d'une variable x, indices par i : x , x , x , x . Le

    G28 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C01XP 21/11/2005 10:50 Page 28

  • 1 2 1 3 2

    -3 3 9 0 27

    -4 4 16 0 64

    2 5 4 7 20

    24

    ix

    iy

    2

    ix i ix y

    2

    i ix y

    4

    1

    120i

    i

    y

    4

    1

    0i i

    i

    x y

    4

    1

    1 3 4 2 24i

    i

    x

    u u u

    4

    2

    1

    576i

    i

    y

    4

    2

    1

    69120i i

    i

    x y

    D'o le tableau :

    G29Vocabulaire de la statistique descriptive

    3755_C01XP 21/11/2005 10:50 Page 29

  • 3755_C01XP 21/11/2005 10:50 Page 30

  • 11PARTIELes sries statistiques

    une dimension

    3755_C02XP 21/11/2005 10:51 Page 31

  • 3755_C02XP 21/11/2005 10:51 Page 32

  • Un tableau statistique est juste une liste de chiffres relative au caractre de la population

    que l'on souhaite tudier, prsente de faon la plus comprhensible possible. Les

    donnes peuvent tre prsentes individuellement, sous forme d'effectifs, de frquences

    ou de pourcentages et encore de bien d'autres faons.

    Tableaux et graphiques constituent les deux moyens principaux de prsentation des

    donnes statistiques. tant donn l'abondance des prsentations tabulaires et

    graphiques, nous n'tudierons ici que les principales.

    Cette section propose d'tudier quelques exemples de tableaux-types, afin de

    familiariser le lecteur avec les modes de prsentation les plus frquents. L'analyse des

    tableaux deux ou plusieurs caractres est renvoye la seconde partie de l'ouvrage.

    qualitatif. Il a sept modalits, listes dans la premire colonne. La seconde colonne

    zones. La dernire ligne, en caractres gras, indique le total mondial.

    Zones gographiques (1) Effectifs en millions

    Asie 302,2

    Europe 259,6

    Amrique du Nord 221,4

    Amrique du Sud/Carabes 56,2

    Moyen-Orient 19,3

    Ocanie/Australie 16,2

    Afrique 13,4

    Total 883,3

    Source : www.internetworldstats.com/stats

    Note : Pour connatre la liste des pays inclus dans chaque zone, voir la source des donnes.

    Tableau 1 : Utilisateurs d'Internet par zones gographiques

    (Effectifs en mars 2005)

    Tableaux et graphiques

    1 x TABLEAUX

    A Tableaux de donnes qualitatives

    Le tableau (1) ci-dessous indique la rpartition par continent des utilisateurs d'Internet

    indique les effectifs, c'est--dire ici le nombre d'utilisateurs d'internet dans chacune des

    en 2003. Le caractre tudi la rpartition continentale des utilisateurs d'Internet est

    CHAPITRE 2

    3755_C02XP 21/11/2005 10:51 Page 33

  • Remarquons que les donnes ont t classes, non par ordre alphabtique des zones

    (ce qui est normalement le cas), mais par ordre croissant du nombre d'utilisateurs, ceci

    Ce tableau peut tre complt de plusieurs faons, afin d'en faciliter l'analyse.

    Premirement, on peut prsenter les chiffres en pourcentages, dans une seconde

    colonne, afin de mieux apprcier la part de chaque zone dans le total des utilisateurs.

    C'est ce qui a t fait dans le tableau ci-dessous (colonne 3).

    Deuximement, la colonne (4) prsente la somme cumule des pourcentages, de

    concentration des utilisateurs. On voit ainsi que les 3 premires zones (Asie, Europe et

    Amrique du Nord) totalisent 88,7% des utilisateurs, les quatre autres zones (Amrique

    100 - 88,7 = 11,3% des utilisateurs.

    Zones gographiques (1)Effectifs

    en millionsPourcentages

    302,2 34,02

    29,22

    24,92

    6,33

    2,17

    1,82

    1,51

    100

    259,6

    221,4

    56,2

    19,3

    16,2

    13,4

    883,3

    Pourcentages

    cumuls

    Asie 34,02

    62,24

    88,17

    94,49

    96,67

    98,49

    100

    Europe

    Amrique du Nord

    Amrique du Sud/Carabes

    Moyen-Orient

    Ocanie/Australie

    Afrique

    Total

    Source : www.internetworldstats.com/stats

    On prendra soin de toujours indiquer la source des donnes, afin que l'utilisateur du

    tableau puisse ventuellement s'y rfrer. Il est galement important d'ajouter toute note

    utile pour la comprhension des donnes. Dans l'exemple des zones gographiques, il

    peut tre ncessaire soit d'numrer les pays qui figurent dans les zones, soit de rfrer

    la source ( condition qu'elle le fasse, ce qui est le cas ici, mais il faut le vrifier).

    Note : Pour connatre la liste des pays inclus dans chaque zone, voir la source des donnes.

    Troisimement, il est souvent ncessaire de prsenter des donnes complmentaires,

    quand elles sont disponibles, pour faciliter la comprhension des donnes principales.

    Ici, par exemple, on peut souhaiter connatre les populations des zones concernes,

    ainsi que la population mondiale, afin de rapporter le nombre d'utilisateurs d'internet un

    indicateur des utilisateurs potentiels.

    afin de faire apparatre les zones o l'utilisation d'Internet est la plus rpandue.

    du sud/carabes, Moyen-Orient et Ocanie/Australie) ne reprsentent quant elles que

    faon mettre en vidence la contribution additionnelle de chaque zone ainsi que la

    Tableau 2 : Utilisateurs d'Internet par zones gographiques

    (Effectifs, pourcentages et pourcentages cumuls en mars 2005)

    G34 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C02XP 21/11/2005 10:51 Page 34

  • en pourcentage de la

    population de chaque zone, et la population mondiale de chaque zone en pourcentage de

    la population mondiale totale. Le tableau fournit galement, sur la dernire ligne, le

    multipliant les pourcentages par les totaux de la colonne correspondante.

    Par exemple, si l'on veut retrouver le nombre d'utilisateurs d'internet en Asie, il suffit

    d'effectuer l'opration suivante :

    Zones gographiques (1)

    Nombre dutilisateurs

    en % de la population

    de chaque zone

    Population de chaque zone

    en % de la population mondiale

    Asie 34,02

    29,22

    24,92

    6,33

    2,17

    1,82

    1,51

    888,3

    Europe

    9,61

    11,48

    51,58

    8,59

    4,07

    0,52

    14,14

    Amrique du Nord

    Amrique du Sud/Carabes

    Moyen-Orient

    Ocanie/Australie

    Afrique

    Total (en millions) 6411

    Source : www.internetworldstats.com/stats

    Note : Pour connatre la liste des pays inclus dans chaque zone, voir la source des donnes.

    Cette prsentation des donnes d'utilisateurs d'internet et de la population mondiale, ainsi

    que des pourcentages qui en dcoulent, permet par exemple de faire apparatre que le

    classement par zones des pourcentages d'utilisateurs d'internet n'est pas identique celui

    du classement par zones des pourcentages de la population mondiale. Par exemple,

    l'Afrique, qui constitue le 3me groupe en termes de pourcentage de population, se trouve

    en dernire position pour ce qui est des utilisateurs d'internet. Inversement, l'Amrique du

    de corrlation entre deux variables, ici le

    pourcentage d'utilisateurs d'internet et de la population totale, sera tudi dans la seconde

    partie de ce mmento.

    Nombre d'utilisateurs d'internet en Asie = (34,02/100) * 888,3 = 302,2

    De mme, si l'on veut retrouver la population d'Asie, il suffit d'effectuer l'opration suivante:

    Tableau 3 : Utilisateurs d'Internet et population exprims pour chaque zone

    gographique en pourcentage des totaux respectifs (Mars 2005)

    Population d' Asie = (9,61/100) * 6411 = 3612

    nombre total d'utilisateurs d'Internet, ce qui permet de retrouver les donnes brutes en

    Le tableau ci-dessous donne le nombre d'utilisateurs d'Internet

    d'Internet

    rang des utilisateurs d'Internet. Le degr

    Nord, qui est au dernier rang en termes de pourcentage de population, est au troisime

    G35Tableaux et graphiques

    3755_C02XP 21/11/2005 10:51 Page 35

  • Exemple : on interroge 100 mnages sur le nombre de pices de leur logement. La

    variable nombre de pices est quantitative et discrte (les valeurs sont

    dnombrables). En outre, les valeurs, n'ayant pas t groupes, sont connues

    individuellement. On obtient le tableau ci-dessous, o xireprsente le nombre de pices

    et niles effectifs correspondants :

    xi

    Effectifs (ni)

    1 5

    2 30

    3 40

    4 20

    5 5

    Exemple : on interroge 100 mnages sur le nombre de pices de leur logement. La

    variable nombre de pices est quantitative et discrte (les valeurs sont

    dnombrables). Cette fois, les valeurs ont t groupes. On obtient le tableau ci-

    dessous :

    (xi) Effectifs (n

    i)

    [1-3[ 35

    [3-5] 65

    Lorsque les donnes sont groupes, il faut porter attention aux crochets (les signes

    dans la classe. Par exemple, dans le tableau ci-dessus, le groupe [1-3[ inclut les

    mnages dont le logement na quune seule pice (cest le signe qui marque

    La valeur 3 ayant t exclue du groupe [1-3[, elle sera ncessairement incluse dans

    le groupe [3-5]. Cela correspond la proprit voque dans le chapitre 1, daprs

    laquelle les modalits dun caractre (ici les valeurs dune variable) sont exhaustives et

    incompatibles.

    Tableau 4 : Nombre de pices du logement (xi)Tableau 4 : Nombre de pices du logement (xi)

    Tableau 5 : Nombre de pices du logement (xi)

    Groupement par classes

    B Tableaux de donnes quantitatives

    1) Variable quantitative discrte, valeurs connues individuellement

    2) Variable quantitative discrte, valeurs regroupes

    [

    linclusion, mais exclut les mnages qui ont 3 pices (cest le signe [ ).

    [ et ] ) car ce sont eux qui indiquent si les valeurs limites sont incluses ou non

    G36 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C02XP 21/11/2005 10:51 Page 36

  • xi

    ni

    16 5

    17 25

    18 45

    19 20

    20 15

    21 8

    22 4

    Exemple 1 : on dispose dun chantillon de 122 rponses dtudiants la question

    quel ge avez-vous obtenu votre bac ? . Cette fois, les donnes sont prsentes par

    groupe dge.

    Exemple : on dispose dun chantillon de 122 rponses dtudiants la question

    quel ge avez-vous obtenu votre bac ? . Bien quil sagisse dune variable quantitative

    continue, les donnes sont prsentes par ge et non par groupe dge. On a donc le

    tableau ci-aprs :

    xi

    ni

    [16-18[ 30

    [18-20[ 80

    [20-22] 12

    i

    Groupement par valeurs

    i

    Groupement par classes

    3) Variable quantitative continue, valeurs connues individuellement

    4) Variable quantitative continue, donnes groupes

    Tableau 6 : ge dobtention du bac (x )

    Tableau 7 : ge dobtention du bac (x )

    G37Tableaux et graphiques

    3755_C02XP 21/11/2005 10:51 Page 37

  • Srie 1 Srie 2 Srie 3 Srie 4

    X1

    Y1

    X2

    Y2

    X3

    Y3

    X4

    Y4

    10 8,04 10 9,14 10 7,46 8 6,58

    8 6,95 8 8,14 8 6,77 8 5,76

    13 7,58 13 8,74 13 12,74 8 7,71

    9 8,81 9 8,77 9 7,11 8 8,84

    11 8,33 11 9,26 11 7,81 8 8,47

    14 9,96 14 8,10 14 8,84 8 7,04

    6 7,24 6 6,13 6 6,08 8 5,25

    4 4,26 4 3,10 4 5,39 19 12,50

    12 10,84 12 9,13 12 8,15 8 5,56

    7 4,82 7 7,26 7 6,42 8 7,91

    5 5,68 5 4,74 5 5,73 8 6,89

    Si lon calcule les moyennes arithmtiques simples de ces deux sries (voir le chapitre 3

    pour la dfinition de la moyenne arithmtique simple), on constate que la moyenne de X1,

    X2, X

    3et X

    4est gale 9, tandis que la moyenne de Y

    1, Y

    2, Y

    3, Y

    4est gale 7,5.

    Tableau 6 : Sries ayant des moyennes identiques

    (9 pour X et 7,5 pour Y)

    Certes, il sagit dune curiosit, mais celle-ci illustre parfaitement que pour dcrire une

    srie de chiffres (ici deux sries de chiffres), il ne suffit parfois pas de calculer des

    indicateurs numriques. Dans cet exemple, lusage dun indicateur simple tel que la

    moyenne dissimule en fait une trs grande diversit.

    La figure 1 ci-aprs montre en fait les nuages de point associs chacune des sries

    {X1,Y

    1} , {X

    2,Y

    2} , {X

    3,Y

    3} et {X

    4,Y

    4}.

    Source : Anscombe, Francis J. (1973) Graphs in statistical analysis.

    Il est parfois indispensable de recourir la prsentation graphique des donnes. Le

    parfaitement ce point.

    2 x GRAPHIQUESA Importance des graphiques

    tableau 6 ci-dessous, connu sous lappellation de quartet dAnscombe, illustre

    American Statistician, 27, 1721.

    G38 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C02XP 21/11/2005 10:51 Page 38

  • La prsentation des donnes statistiques sous forme de graphiques joue un rle

    essentiel pour permettre un auditoire ou des lecteurs de suivre une explication. Ne

    dit-on pas quun beau graphique vaut mieux quun long discours. On dit dailleurs que

    Michael DELL est arriv un jour une assemble gnrale dactionnaires avec pour tout

    document le graphique qui montrait lvolution spectaculaire du cours de laction des

    entreprises DELL au cours des 5 dernires annes

    La diversit des prsentations graphiques ne connat dautres limites que celles de

    limagination. Nous nous bornerons dans les pages qui suivent passer en revue les

    graphiques les plus connus et les mieux adapts aux donnes quil sagit de reprsenter.

    Lorsque lon veut reprsenter graphiquement toutes les units statistiques dune

    population un caractre ou une variable, on dispose de deux graphiques : la ligne et le

    graphique dit tige et feuilles (de langlais stem and leaf ).

    Figure 1 : Sries ayant des moyennes identiques

    mais les nuages de points rvlent des formes extrmement diffrentes

    Exemple 1 : Soit la srie de chiffres :

    {8, 2, 3, 7, 4}

    o aucune unit na la mme valeur.

    B Donnes individuelles

    1) La ligne

    G39Tableaux et graphiques

    3755_C02XP 21/11/2005 10:51 Page 39

  • On obtient alors la reprsentation graphique suivante :

    2 3 4 7 8

    {8, 2, 3, 7, 4, 7, 2}

    En revanche, si certaines donnes sont rptes, comme dans lexemple ci-dessous, il

    faut passer une reprsentation des donnes sous forme groupe, ce qui est lobjet de

    la partie C de cette sous-section 2.

    2 3 4 7 8

    nombreuses et connues individuellement et non rptes.

    Figure 3 : Reprsentation graphique quand les units statistiques sont peu

    nombreuses et connues individuellement mais rptes.

    Remarques :

    1) la reprsentation en ligne horizontale, on peut parfois prfrer une reprsentation

    en ligne verticale.

    2) Cette reprsentation en ligne peut tre raffine, pour donner naissance un

    graphique analytique, dit bote moustaches (de langlais Box and Whiskers ),

    que nous aborderons dans le chapitre 4, car sa comprhension ncessite lacquisition

    de notions telles que la mdiane et les quartiles.

    Ce graphique trs original consiste empiler des units en conservant leur identification

    (un numro, un nom, etc.). De cette faon, aucune donne initiale nest absente du

    graphique et chacune peut facilement tre repre.

    Exemple 2 : Soit la srie de chiffre o le 7 et le 2 sont rpts 2 fois :

    Figure 2 : Reprsentation graphique en ligne quand les units statistiques sont peu

    2) Le graphique tige et feuilles

    G40 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C02XP 21/11/2005 10:51 Page 40

  • Exemple 1 : Soit 20 personnes, repres par un numro de 1 20, qui des notes

    Notes = {{0, 12}, {0, 14}, {1, 7}, {1, 9}, {1, 13}, {1, 18}, {2, 4}, {2, 8}, { 2, 11}, {2, 15}, {2,

    16}, {3, 17}, {3, 12}, {4, 5}, {4, 6}, {4, 20}, {5, 3}, {5, 19}}

    Dans chaque couple de donnes, le premier chiffre correspond la note (de 0 5), cest

    la tige et le second sert identifier la personne par un numro allant de 1 20, cest

    les feuilles . La reprsentation tiges et feuilles donne la figure 4.

    0

    12

    14

    1

    07

    09

    13

    18

    2

    02

    04

    3

    05

    06

    2008

    01

    15

    4

    03

    19

    Personnes identifies

    par leur numro de 1 20

    Notes de 0 5

    Que les donnes soient regroupes par modalit, comme cest le cas pour les

    groupements qualitatifs, ou par valeurs, comme cest le cas pour les groupements

    quantitatifs, on dispose de nombreuses reprsentations graphiques. Nous limiterons

    notre prsentation aux plus connues, savoir : le diagramme en btons, le diagramme

    Cest peut-tre la reprsentation la plus simple qui soit. En ralit, le diagramme en

    btons sinspire directement de la prsentation tige et feuilles, mais le contenu en

    information est moins riche.

    Figure 4 : Diagramme tige et feuilles

    {{A, 4}, {B, 4}, {C, 1}, {D,1}}

    Dans chaque couple de donnes, le premier chiffre correspond au produit (A,B,C,D) et

    le second correspond au nombre de personnes qui ont choisi ce produit. La figure 5 (a)

    illustre le rsultat.

    Exemple 1 : On interroge 11 personnes sur leurs prfrences concernant les 4 produits

    A,B,C,D. Chaque personne doit choisir seulement un produit. On obtient les rsultats

    groups suivants :

    C Donnes groupes par modalits ou valeurs

    1) Diagramme en btons

    allant de 0 5 ont t attribues.

    en barres et le nuage de points, de langlais scatter plot .

    G41Tableaux et graphiques

    3755_C02XP 21/11/2005 10:51 Page 41

  • Figure 5 : Diagrammes en btons

    Si le regroupement se fait par valeur, on a par exemple les couples :

    Le diagramme en barres repose sur le mme principe que le diagramme en btons,

    sauf quau lieu de btons, on a des barres rectangulaires de base identique et

    identiquement espaces les unes des autres. La taille de la base, ainsi que celle de

    lespacement nont pas de signification particulire. Lespacement nest pas obligatoire.

    La figure 6 reprsente les mmes donnes que la figure 5, mais ces donnes sont

    exprimes en pourcentage.

    Figure 6 : Diagramme en barres verticales

    ModalitsA B C D

    Modalits

    Pou

    rcen

    tages

    Valeurs

    (a) Modalits =

    Produits A,B,C,D

    1 2 3 4

    {{1, 4}, {2, 4}, {3, 1}, {4, 1}}

    O le premier chiffre de chaque couple correspond par exemple au nombre denfants.

    On obtient alors le graphique de la figure 5(b).

    (b) Valeurs

    = nombre denfants 0,1,2,4

    Pou

    rcen

    tages

    Valeurs

    (b) Valeurs

    = nombre denfants 0,1,2,4

    (a) Modalits =

    Produits A,B,C,D

    2) Diagramme en barres

    G42 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C02XP 21/11/2005 10:51 Page 42

  • Le diagramme en barre est souvent prsent de faon horizontale. Ainsi, le graphique

    de la figure 6 peut-il tre prsent ainsi :

    Pourcentages

    Modalit

    s

    Pourcentages

    (a) Modalits =

    Produits A,B,C,D

    (b) Valeurs

    = nombre denfants 0,1,2,3

    0

    1

    2

    Va

    leu

    rs

    3

    0

    1

    2

    3

    (a) Nuage de points (b) Nuage de

    Points relis

    relis nombre denfants par foyer

    0 31 20 31 2

    Figure 7 : Diagramme en barres horizontales

    Pour des raisons pdagogiques, la figure 2 de ce chapitre a prsent des graphiques

    sous forme de nuages de points concernant des variables bidimensionnelles. Il y avait

    deux sries, et chaque point avait pour coordonne un lment de chaque srie. Mais le

    nuage de points peut aussi tre employ pour reprsenter graphiquement une simple

    srie de chiffres. Les donnes des figures 5 7 peuvent galement tre reprsentes

    par un nuage de points ou par une ligne joignant ces points (voir la figure 8, qui reprend

    les donnes prcdentes dans lhypothse quantitative.)

    Figure 8 : Nuage de points, relis et non

    3) Nuage de points dans le cas dune srie unidimensionnelle

    G43Tableaux et graphiques

    3755_C02XP 21/11/2005 10:51 Page 43

  • Les anglo-saxons lappellent Pie Chart cest--dire, littralement graphique en

    tarte . En France, on lappelle le camembert. Ce graphique universel convient toutes

    les donnes, ds linstant o il sagit dexprimer des parts ou des pourcentages.

    Exemple :

    EntrepriseChiffre

    daffaires

    Part de

    march

    A 50 31,25

    B 70 43,75

    C 10 6,25

    D 30 18,75

    Total 160 100

    La part de march (colonne 3) nest en fait quun pourcentage. Chaque ligne de la

    colonne 2 est divise par la dernire ligne (total) et multiplie par 100.

    Notons quil sagit dun caractre qualitatif, les modalits tant les quatre entreprises.

    Pour faire le graphique en camembert, il reste calculer la part que le chiffre daffaires

    de chacune de ces entreprises reprsente dans 360 (voir le tableau 8 ci-dessous).

    Tableau 7 : Chiffre daffaires en millions deuros de

    quatre entreprises qui contrlent un march

    EntreprisePart de

    marchDegrs

    A 31,25

    43,75

    6,25

    18,75

    100

    (31,25 *360) / 100 = 112,5

    B (43,75 *360) / 100 = 157,5

    C (6,25 *360) / 100 = 22,5

    D (6,25 *360) / 100 = 22,5

    Total 360

    Tableau 8 : Chiffre daffaires en millions deuros de

    quatre entreprises qui contrlent un march

    D Camembert ou graphique en tarte ?

    entreprises du march dun produit (pour simplifier, on suppose que ces entreprises

    contrlent la totalit du march) :

    Soit les chiffres daffaires en millions deuros des quatre principales

    G44 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C02XP 21/11/2005 10:51 Page 44

  • La dernire colonne du tableau 7 va nous permettre de dessiner le camembert, puis de

    couper les parts . Il suffit pour cela de tracer un cercle, puis au moyen dun

    rapporteur, de dterminer les angles correspondant chaque part. On obtient alors le

    rsultat voulu. La figure ci-dessous illustre 2 variantes du mme graphique. Dans la

    seconde variante, lentreprise qui a la part de march la plus leve est dtache du

    lot.

    (6,25%)

    C

    (6,25%)

    C

    Figure 9 : Le camembert ou pie chart

    Le camembert peut aussi servir reprsenter des variables quantitatives, y compris des

    variables quantitatives groupes par classes.

    Lhistogramme convient particulirement aux variables quantitatives quand celles-ci

    sont regroupes par classes. Parfois les classes ont des amplitudes gales. Cest le cas

    le plus vident. Parfois, cependant, les amplitudes des classes sont diffrentes. Il faut

    alors oprer une correction en suivant la mthode indique ci-aprs.

    Classe de revenu ni

    fi

    [0;1500[ 20 0,2

    0,4

    0,3

    0,1

    [1500;3000[ 40

    [3000;4500[ 30

    [4500;6000[ 10

    Tableau 9 : Rpartition

    dun chantillon de 100

    mnages par classe de

    revenu mensuel

    (amplitude de classe =

    E Lhistogramme

    1 500 euros)

    dfinit des classes damplitudes gales 1 500 euros.

    Exemple 1 : Soit 100 mnages distribus selon leur revenu mensuel en euros. On

    G45Tableaux et graphiques

    3755_C02XP 21/11/2005 10:51 Page 45

  • Lhistogramme peut-tre construit partir des effectifs (les ni) ou partir des frquences

    (et dailleurs aussi en prenant les pourcentages). Contrairement au diagramme en

    barre, avec lequel il ne faut pas le confondre, les rectangles qui composent

    lhistogramme ont une base qui est dfinie par lamplitude de la classe quils

    reprsentent et, de plus, ils sont colls les uns aux autres.

    Figure 10 : Histogramme correspondant aux

    donnes du tableau 9

    0

    0,1

    0,2

    0,3

    0,4

    Exemple 2 : Supposons que lon regroupe les donnes de lexemple 1 en classes

    damplitudes ingales ([0-1500[;[1500-4500[,[4500-6000[).

    Il faut dans ce cas effectuer une correction pour tenir compte des diffrences

    damplitude. Il convient en fait de diviser la frquence de chaque classe par lamplitude

    correspondante. On obtient ainsi lamplitude corrige (hi).

    Classe de revenuAmplitude de classe

    (ai)

    ni

    fi

    hi=f

    i/a

    i

    1500

    3000

    0,2

    1500

    0,7

    0,00013

    0,00023

    0,000070,1

    [0;1500[ 20

    [1500;4500[ 70

    [4500;6000[ 10

    Tableau 10 : Calcul de lamplitude corrige

    Sur lhistogramme de la figure 11, on aura donc lamplitude corrige en abscisse et des

    classes dingales amplitudes en ordonne.

    G46 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C02XP 21/11/2005 10:51 Page 46

  • 0,00007

    0,00013

    0,00023

    Figure 10 : Histogramme avec amplitudes ingales

    (voir le tableau 10 pour les calculs)

    Cest dans les possibilits de comparaisons quils offrent que les graphiques sont

    particulirement utiles : comparaisons dans le temps, comparaisons spatiales, etc.

    Figure 11 : Le graphique en radar pour reprsenter et comparer les parts

    de march des entreprises du tableau 7

    La figure 11 utilise le graphique dit en radar afin de comparer la rpartition relle des

    parts de march des 4 entreprises A, B, C et D avec une rpartition galitaire o

    chacune aurait 25% du march (cette rpartition galitaire est reprsente par le

    losange en pointill). Les parts de march relles sont indiques sur chaque axe. On

    voit ainsi immdiatement que A et B ont une part de march suprieure la rpartition

    galitaire et B et C une part de march infrieure. On peut partir de l calculer

    combien il faut retrancher A et B (et combien par consquent il faut redistribuer C

    et D) pour revenir une rpartition galitaire).

    A

    B

    C

    D

    31,25%

    43,75%

    6,25%

    18,75%

    F Lutilisation des graphiques des fins de comparaisons

    1) Le radar, excellent moyen deffectuer des comparaisons visuelles

    G47Tableaux et graphiques

    3755_C02XP 21/11/2005 10:51 Page 47

  • Il est facile de voir que le graphique en radar permet aussi de comparer les parts de

    points du temps. On aboutirait ainsi une toile daraigne dont la complexit irait

    cependant grandissante avec le nombre dannes. Il est sage de se limiter une

    comparaison de deux priodes.

    Toutefois, le radar nest pas le seul moyen deffectuer des comparaisons temporelles,

    loin de l. La figure 12, ci-dessous illustre une faon trs simple (et malheureusement

    trs raliste) de comparer deux situations loignes dans le temps.

    Figure 12 : Une faon trs simple

    de reprsenter lvolution du

    dveloppement humain sur une

    dcennie pour quatre pays peu

    dvelopps. Ces quatre pays sont

    les seuls pour lesquels lindice du

    dveloppement humain a rgress

    au cours de la dcennie 1990.

    Source : PNUD, Rapport sur le

    mthode de calcul de lindicateur du

    dveloppement humain, voir le chapitre 7

    de ce mmento.

    Pour les comparaisons dans le temps, rien ne remplace cependant la srie

    chronologique. Typiquement, les annes sont en abscisse et la valeur qui volue dans

    le temps est en ordonne.

    Les graphiques de sries chronologiques sont parmi les plus frquents. Selon Edward

    R. TUFTE(1), qui a procd un tirage alatoire de 4000 graphiques dans 15

    magazines et journaux entre 1974 et 1980, il apparat que plus de 75% dentre eux sont

    des graphiques de sries chronologiques.

    Le graphique de la figure 13 ci-aprs reprsente lvolution de la population mondiale

    telle quelle a t reconstitue (pour les donnes les plus loignes) et projete (pour

    les donnes futures) par les dmographes de la division de la population de lONU.

    (1) Edward R. TUFTE, The Visual Display of Quantitative Information, Graphics Press, LLC, 2001, page 25

    2) Comparaisons dans le temps

    3) Les graphiques de sries chronologiques

    march des quatre entreprises A,B,C et D du tableau 7 en deux, voire trois ou quatre

    dveloppement humain 2003, p. 40. Sur la

    G48 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C02XP 21/11/2005 10:51 Page 48

  • p. 155.

    Figure 13 : volution de la population mondiale de 1750 2150 (projection)

    Rien ne vaut un graphique lorsquon veut mettre en valeur une comparaison

    saisissante. La figure 14, par exemple, illustre de faon clatante linefficacit (pour ne

    pas dire plus) de la rpartition des aides dans le monde. On y voit que les subventions

    annuelles de lUnion Europenne par vache (et par an), sont presque deux fois

    suprieures au revenu moyen par habitant (et par an) en Afrique subsaharienne. Ce

    nest pas les agriculteurs qui sen plaindront.

    Figure 14 : Un beau graphique vaut mieux quun long discours

    Source : PNUD, Rapport sur le dveloppement humain 2003,

    4) Un beau graphique vaut parfois mieux quun long discours

    G49Tableaux et graphiques

    3755_C02XP 21/11/2005 10:51 Page 49

  • Les indices se prtent galement particulirement bien aux comparaisons sous forme

    graphique. Sans entrer dans le dtail de leur tude (que nous rservons au chapitre 7),

    donnons-en une dfinition simple et illustrons-la par un exemple.

    Un indice est un rapport de grandeurs exprimes dans la mme unit, ce qui en fait un

    nombre sans dimension. Gnralement, ce rapport est multipli par 100. Lorsque lon

    divise tous les lments dune srie chronologique par lun dentre eux (et que lon

    multiplie par 100) on transforme la srie chronologique en indice. Ceci facilite les

    comparaisons avec une annes de rfrence, laquelle aura alors pour valeur 100.

    Exemple : Soit la srie chronologique suivante qui indique le nombre davions dun

    certain modle, vendus par une grosse firme aronautique.

    Annes 1997 1998 1999 2000 2001 2002 2003 2004 2005

    Ventes 10 20 35 40 75 80 30 60 115

    La reprsentation graphique de base est celle dune sri chronologique. Toutefois, si

    on divise tous les chiffres par ceux de lanne 1997, anne de base (et que lon

    multiplie par 100) on obtient une srie indice. La figure ci-dessous reprsente, outre la

    indice ne modifie que lchelle de lordonne, non la forme de la courbe.

    Figure 15 : Une srie chronologique transforme en sries indices

    Tableau 11 : Ventes annuelles dun certain modle davion

    Indic

    es

    Vente

    s

    Indic

    es

    Indic

    es

    (a) Srie non indice (b) Srie indice

    1997=100

    (c) Srie indice

    2000=100

    (d) Srie indice

    2005=100

    5) Les graphiques dindices

    srie initiale, trois choix dindice : 1997, 2000 et 2005. noter que le passage un

    G50 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C02XP 21/11/2005 10:51 Page 50

  • Les chelles arithmtiques ne sont pas toujours les plus adaptes la reprsentation

    graphique des caractres continus. Dans lexemple suivant, les entreprises A et B ont

    augment leur production dans des proportions diffrentes et pourtant le graphique

    donne limpression que la progression est identique en raison du paralllisme des

    progressions.

    0

    100

    200

    300

    400

    500

    600

    700

    800

    900

    1000

    1 2

    Entreprise B

    400

    500

    200

    300

    +25%

    Entreprise A

    +50%

    ordonnes. Cela consiste prendre le logarithme base 10 des valeurs en ordonnes.

    On obtient alors deux droites qui ne sont plus parallles. La droite A est plus pentue, ce

    qui traduit une plus forte progression.

    10 100 200 300 400 500

    log 10=1 log 100 =2 log 200 =2,3 log 300 =

    2,477

    log 400

    =2,602

    log 500

    =2,698

    Figure 16 : Sur une chelle arithmtique les progressions parallles

    semblent identiques

    Tableau 12 : Quelques exemples de conversions de chiffres en

    logarithme dcimal (de base 10)

    6) Les chelles semi-logarithmiques

    Pour remdier cela, on peut prendre une chelle semi-logarithmique pour laxe des

    G51Tableaux et graphiques

    3755_C02XP 21/11/2005 10:51 Page 51

  • 110

    100

    1000

    1 2

    B

    A

    Figure 17 : Sur une chelle logarithmique les diffrences de vitesse de

    progression se traduisent par des pentes diffrentes

    100

    200

    300

    400

    500

    G52 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C02XP 21/11/2005 10:51 Page 52

  • Quelles soient non groupes ou au contraires groupes par valeurs ou par classes,

    les variables quantitatives peuvent tre utilement rsumes par des caractristiques

    privilgient les valeurs principales de la distribution, au dtriment par exemple de ceux

    qui caractrisent la dispersion ou la concentration des valeurs dune srie.

    Exemple : Soit la srie de chiffres {8, 5, 9, 13, 25}. La moyenne arithmtique de cette

    srie de chiffres se calcule ainsi :

    Ces valeurs centrales sont les moyennes, la mdiane et le mode. Nous exposerons leur

    mode de calcul et leur signification en distinguant pour chacune delles le cas des

    donnes non groupes et le cas des donnes regroupes (soit par valeurs, soit par

    classes).

    8 5 9 13 25 6012

    5 5x

    Comme nous lavons indiqu dans le chapitre 1, nous ne distinguerons pas la moyenne de

    la population et la moyenne de lchantillon. Par consquent, nous traitons ici la srie de

    chiffres sans nous proccuper de savoir sil sagit dune population ou dun chantillon.

    Signification de la moyenne : Construisons un tableau avec pour premire colonne la

    srie de chiffres et pour seconde colonne lcart de chacun des chiffres la moyenne que

    nous venons de calculer ( ) :12x

    8 -4

    5 -7

    9 -3

    13 1

    25 1

    ix

    ix x

    Tableau 1 : La somme des carts

    la moyenne est nulle

    5

    1

    0i

    i

    x x

    Les caractristiques de tendance centrale

    1 x LES MOYENNESA La moyenne arithmtique

    1) La moyenne arithmtique simple

    dites de tendance centrale . Ces nombres rsums sont ainsi appels car ils

    CHAPITRE 3

    3755_C03XP 21/11/2005 10:52 Page 53

  • Quand on soustrait la moyenne arithmtique chacun des chiffres de la srie, on observe

    la proprit suivante :

    1) La somme des carts la moyenne est nulle :

    (-4)+(-7)+(-3)+(+1)+(+13)=0

    la somme des carts ngatifs, au signe prs.

    -4 -7 -3 1 13

    -14 +14

    Moyenne arithmtique : 12

    Formule gnrale de la moyenne arithmtique simple :1 2 n

    srie de chiffres. La formule de la moyenne arithmtique de cette srie est donne par :

    1

    1n

    i

    i

    x xn

    Schma 1 : En valeur absolue, la somme des carts ngatifs (panneau de gauche)

    est gale la somme des carts positifs (panneau de droite)

    (1)

    Exemple 1 : Soit la srie de chiffres {8, 13, 5, 8, 5, 9, 13, 25, 13, 9}. Certains chiffres,

    comme le 8, le 9 ou le 13 sont rpts. On peut simplifier la prsentation en regroupant

    premires. En effet, on a par exemple :

    15x

    12n

    1 12 5 10n x u

    28x

    22n

    2 22 8 16n x u

    Et ainsi de suite (voir le tableau 2).

    2) La moyenne arithmtique pondre

    Soit {x , x , .,x } une

    les donnes par valeurs (voir le tableau 2). La troisime ligne est le produit des deux

    2) Ou, ce qui revient au mme, mais est plus imag, la somme des carts positifs est gale

    G54 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C03XP 21/11/2005 10:52 Page 54

  • 5 8 9 13 25

    2 2 2 3 1

    10 16 18 39 25

    ix

    in

    i in x

    Tableau 2 : Calcul de la moyenne arithmtique pondre

    5

    1

    108i i

    i

    n x

    La moyenne pondre se calcule alors en faisant la somme pondre cest--dire la

    somme des et en divisant par n. Elle est gale :i in x

    (5 2) (8 2) (9 2) (13 2) (25 1) 10810,8

    10 10x

    u u u u u

    Formule gnrale de la moyenne arithmtique pondre :1 2 h

    srie de chiffres et {n1, n

    2, .,n

    h} les effectifs correspondants. La formule de la moyenne

    arithmtique pondre de cette srie est donne par :

    1

    1h

    i i

    i

    x n xn

    Exemple 2 : Soit la srie de chiffres {8,13,5,8,5,9,13,25,13,9,35,44,54,28}. Supposons

    que lon regroupe les valeurs en 3 catgories comme dans le tableau 3 ci-dessous.

    Dans ce cas, il faut calculer le centre de chaque classe, ci, cest--dire la somme des

    extrmits de classe divise par 2 et appliquer la formule de la moyenne pondre.

    Classes

    [5-13[ 6 9 54

    [13-28[ 3 7,5 22,5

    [28-54[ 5 41 205

    ic

    in

    i in c

    (2)

    Tableau 3 : Calcul de la moyenne arithmtique

    quand les valeurs sont groupes par classes

    3

    1

    281,5i i

    i

    n c

    Soit {x , x , .,x } une

    G55Les caractristiques de tendance centrale

    3755_C03XP 21/11/2005 10:52 Page 55

  • On applique donc la formule (2), mais en remplaant xi par c

    i:

    1

    1h

    i i

    i

    x n cn

    (3)

    Dans notre exemple, on a donc :

    (6 9) (3 7,5) (5 41) 54 22,5 205 281,520,11

    14 14 14x

    u u u #

    Exemple : Soit la srie de notes dun lve au cours de lanne {12, 13, 11, 14, 2}. Si

    lon calcule la moyenne arithmtique simple on obtient :

    12 13 11 14 2 5210,4

    5 5x

    Par contre, si on retire le 2 et que lon recalcule la moyenne lague sur 4 notes, on

    obtient :

    12 13 11 14 5012,5

    4 4x

    Dans ce cas, on a retir le 2 , qui est considr comme un accident, mais qui, si on le

    maintient dans la srie, fait fortement baisser la moyenne. Dans certains cas, on retire

    les valeurs extrmes et on calcule la moyenne uniquement sur un intervalle de valeurs

    lagu, conformment au schma 2 ci-dessous. Le principe est identique quand les

    donnes sont groupes par valeurs ou par classes.

    Intervalle lagu

    211,12,13,14

    Schma 2 : La moyenne lague

    On a exclu

    arbitrairement

    3) La moyenne lague

    le 2

    G56 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C03XP 21/11/2005 10:52 Page 56

  • Exemple : Soit la srie de chiffres {-4, -2, 0, 2, 4}. Si lon calcule la moyenne

    arithmtique simple on obtient zro.

    Parfois, on souhaite obtenir une caractristique de tendance centrale ayant une valeur

    positive l o le calcul de la moyenne arithmtique simple aurait donn zro. On calcule

    alors la moyenne quadratique simple en additionnant le carr de toutes les valeurs de

    la srie et en prenant la racine carre du total. Autrement dit, dans notre exemple :

    2 2 2 2 2( 4) ( 2) (0) (2) (4) 16 4 0 4 16 40

    8 2,835 5 5

    Q #

    Formule gnrale de la moyenne quadratique simple : Soient {x1, x

    2, .,x

    n} une

    srie de chiffres. La formule de la moyenne quadratique simple de cette srie est

    donne par :

    2

    1

    1n

    i

    i

    Q xn

    (4)

    Exemple : Soit le tableau 4 ci-dessous :

    25 10

    8 16

    4 25

    12 20

    ix

    in

    1 2 h 1 2 h

    La formule de la moyenne quadratique pondre de cette srie est donne par :

    21

    1h

    i i

    i

    Q n xn

    (5)

    Tableau 4 : Calcul de la moyenne quadratique pondre

    Il suffit de rajouter deux colonnes, une pour

    ix

    2

    i

    x2

    iin xet une pour (voir le tableau 5)

    B La moyenne quadratique

    1) La moyenne quadratique simple

    2) La moyenne quadratique pondre

    Soit {x , x , .,x } une srie de chiffres et {n , n , .,n } les effectifs correspondants.

    G57Les caractristiques de tendance centrale

    3755_C03XP 21/11/2005 10:52 Page 57

  • 25 10 625

    64

    16

    144

    8 16

    6250

    1024

    4004 25

    12 20 2880

    Tableau 5 : Calcul de la moyenne quadratique pondre

    ix

    in 2

    i

    x2

    iin x

    4

    2

    1

    10554ii

    i

    n x

    En appliquant la formule (5) on obtient :

    21

    1 1055412,1921

    71

    h

    i i

    i

    Q n xn

    #

    Lorsque les valeurs sont regroupes en classes, il faut calculer les centres de classes et

    appliquer ensuite la formule (5) en remplaant xipar c

    i.

    Exemple : Soit la srie de chiffres {8, 5, 9, 13, 25}. La moyenne gomtrique de cette

    srie est gale :

    1 2 n

    simple de cette srie est donne par :

    1

    1

    n n

    i

    i

    G x

    (6)

    > @1

    558 5 9 13 25 117000 10,32G u u u u #

    1 2 h 1 2 h

    La formule de la moyenne gomtrique pondre de cette srie est donne par :

    1

    1

    i

    h nn

    i

    i

    G x

    (7)

    C La moyenne gomtrique

    1) La moyenne gomtrique simple

    2) La moyenne gomtrique pondre

    Soit {x , x , .,x } une srie de chiffres. La formule de la moyenne gomtrique

    Soit {x , x , .,x } une srie de chiffres et {n , n , .,n } les effectifs correspondants.

    G58 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C03XP 21/11/2005 10:52 Page 58

  • Pour calculer la moyenne gomtrique pondre, on peut passer par les logarithmes

    npriens (ln) :

    > @

    > @

    1

    1

    10 16 25 20 71

    1

    2,1100704

    25 8 4 12

    1ln 10ln25 16ln8 25ln4 20ln12

    71

    1ln 32,1888 32,2711 34,6574 49,6981

    71

    149,815ln 2,1100704

    71

    8,2488

    i

    h nn

    i

    i

    G x

    G

    G

    G

    G e

    u u u

    #

    1 2 n

    simple de cette srie est donne par :

    1

    1n

    i i

    nH

    x

    (8)

    Exemple : Soit la srie de chiffres {8, 5, 9, 13, 25}. La moyenne harmonique de cette

    srie est gale :

    1

    5 59,04

    1 1 1 1 11 0,5530342

    8 5 9 13 25

    n

    i i

    nH

    x

    #

    1 2 h 1 2 h

    La formule de la moyenne harmonique pondre de cette srie est donne par :

    1

    h

    i

    i i

    nH

    n

    x

    (9)

    D La moyenne harmonique

    1) La moyenne harmonique simple

    2) La moyenne harmonique pondre

    Exemple : Soit les chiffres du tableau 4

    Soit {x , x , ., x } une srie de chiffres. La formule de la moyenne harmonique

    Soit {x , x , .,x } une srie de chiffres et {n , n , .,n } les effectifs correspondants.

    G59Les caractristiques de tendance centrale

    3755_C03XP 21/11/2005 10:52 Page 59

  • pondre, on applique la formule (9).

    1

    71 71 716,882

    10 16 25 20 0,4 2 6,25 1,66667 10,3167

    25 8 4 12

    h

    i

    i i

    nH

    n

    x

    Exemple 2 : Une petite usine abrite 2 machines. La premire machine a produit 500

    pices la vitesse de 100 pices par heure. Une seconde machine a produit 300 pices

    la vitesse de 60 pices par heure. Calculer la vitesse moyenne (exprime en nombre

    de pices par heure) de production dans l'usine.

    Vitesse moyenne = nombre total de pices produites/nombre d'heures de production. La

    premire machine a produit 500 pices en (500/100) heures (5 heures) La seconde

    machine a produit 300 pices en (300/60) heures (5 heures). La vitesse moyenne est

    donc donne par :

    800 800vitesse moyenne = 80 pices/heure

    500 300 10

    100 60

    1

    1

    n

    x

    2

    2

    n

    x

    n

    La mdiane dune srie est la valeur qui partage cette srie, pralablement classe, en

    deux sries aux effectifs gaux. Dans la premire srie, on trouve les valeurs infrieures

    la mdiane. Dans la seconde srie on trouve les valeurs suprieures la mdiane.

    La mdiane ne se calcule que pour les donnes quantitatives et son mode de calcul

    dpend du type de donnes. On distinguera quatre cas :

    2 x LA MDIANE

    les sries non groupes dont leffectif est impair et o aucune valeur nest rpte,

    les sries groupes par valeurs,

    les sries groupes par classes de valeurs.

    les sries non groupes dont leffectif est pair et o aucune valeur nest rpte,

    Exemple 1 : Soit les chiffres du tableau 4. Pour calculer la moyenne harmonique

    G60 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C03XP 21/11/2005 10:52 Page 60

  • Cest le cas idal, celui qui permet le mieux de comprendre cest quest la mdiane.

    Exemple : Soit la srie de 5 chiffres suivants : {8 ,5 9, 13 , 25}

    Pour trouver la mdiane, il faut :

    a) Classer la srie par ordre croissant des valeurs

    b) Localiser la valeur qui partage leffectif total en deux sous effectifs gaux en appliquant

    la formule (n+1)/2, cest--dire ici (5+1)/2=3. La troisime valeur de la srie est le 9.

    {5 ,8, 9, 13 , 25}

    { 5 8 9 13 25 }

    mdiane

    Sous-effectif des valeurs

    infrieures la mdiane

    Sous-effectif des valeurs

    suprieures la mdiane

    On vrifie quil y autant de valeurs infrieures la mdiane quil y a de valeurs

    suprieures la mdiane. Leffectif total est bien partag en deux parties gales.

    Quand leffectif est pair, la mdiane nest pas une valeur de la srie. Il faut la calculer.

    Exemple : Soit la srie des 8 chiffres suivants : {13,1,9,10,2,4,12,7}

    Pour trouver la mdiane, il faut :

    a) Classer la srie par ordre croissant des valeurs

    b) Appliquer la formule (n+1)/2, cest--dire ici (8+1)/2=4,5. Ceci nous indique que

    lintervalle mdian est constitu par les 4me et la 5me valeurs. La mdiane est donc

    gale la moyenne arithmtique simple de ces deux valeurs :

    {1,2,4,7,9,10,12,13}

    Me=(7+9)/2=8

    { 1 2 4 7 8 9 10 12 13 }

    Mdiane

    Sous-effectif des valeurs

    infrieures la mdiane

    Sous-effectif des valeurs

    suprieures la mdiane

    On vrifie quil y autant de valeurs infrieures la mdiane quil y a de valeurs

    suprieures la mdiane. Leffectif total est bien partag en deux parties gales.

    A Calcul de la mdiane : effectif impair et aucune valeur nest rpte

    B Calcul de la mdiane : effectif pair et aucune valeur nest rpte

    G61Les caractristiques de tendance centrale

    3755_C03XP 21/11/2005 10:52 Page 61

  • Dans ce cas, la procdure ne permet pas toujours de partager leffectif total en deux

    parties gales.

    Exemple : Dans le tableau 6 ci-dessous, les valeurs de la variable X ont dj t classes

    La troisime colonne est celle des frquences (fi) et la quatrime est celle des frquences

    cumules F(x). La cinquime colonne, spare du tableau, est celle des effectifs cumuls

    N(x).

    0,066 0,066

    0,167

    0,3

    0,433

    0,6

    0,7

    0,9

    0,933

    1

    0,1

    0,133

    0,133

    0,167

    0,1

    0,2

    0,033

    0,067

    2 2

    8 3

    9 4

    10 4

    11 5

    12 3

    13 6

    15 1

    18 2

    ix

    in

    2

    5

    9

    13

    18

    21

    27

    28

    30

    if ( )F x ( )N x

    Pour dterminer la mdiane, on repre 0,5 dans la colonne des frquences cumules

    F(x) ou bien n/2 dans la colonne des effectifs cumuls N(x). On choisit ensuite la valeur

    F(x) gale ou immdiatement suprieure 0,5 (ou la valeur N(x) gale ou

    immdiatement suprieure n/2) et lon suit le sens des flches comme indiqu sur le

    tableau 6. Dans notre exemple, il ny a pas de valeur F(x) gale 0,5, la valeur

    immdiatement suprieure 0,5 est 0,6 (et la valeur immdiatement suprieure

    n/2=30/2=15 est 18). Par consquent, en suivant les flches, on remonte la valeur qui

    correspond la mdiane, soit 11. On remarque alors que la mdiane ne spare pas

    leffectif en deux parties gales. En effet, il y a 13 valeurs qui sont infrieures 11 (soit

    43,3% de leffectif) et 12 valeurs qui sont suprieures 11 (soit 40% de leffectif). En

    outre, que faire des 5 valeurs qui sont exactement gales 11 (16,6% de leffectif total).

    Faut-il les compter dans leffectif des valeurs infrieures la mdiane ou dans leffectif

    des valeurs suprieures la mdiane ? Il ny a pas de rponse cette question, chacun

    fait comme il lentend (1).

    Tableau 6 : Calcul de la mdiane quand les donnes sont groupes par valeurs

    n/2=150,5

    Mdiane =11

    (1) La mthode de calcul de la mdiane propose ici est celle dcrite par Bernard PY, dans son ouvrage

    Statistiques descriptives, ditions Economica, page 76.

    C Calcul de la mdiane : effectifs groups par valeurs

    G62 MMENTO STATISTIQUE DESCRIPTIVE

    3755_C03XP 21/11/2005 10:52 Page 62

  • Dtermination graphique. La figure 1 ci-dessous illustre la dtermination de la mdiane

    partir partir de N(xi), la courbe cumulative des effectifs. Cette courbe en escalier a

    pour ordonne les effectifs dont la valeur est strictement infrieure xi. Par exemple,

    leffectif des valeurs strictement infrieures 11 est gal 13. De mme, leffectif des

    valeurs strictement infrieures 12 est gal 18.

    n/2=30/2=15

    N(xi)

    xi

    Figure 1 : Dtermination graphique de la mdiane

    partir de la courbe cumulative des effectifs

    Pour trouver la mdiane, il faut localiser n/2=30/2=15 sur laxe des ordonnes, puis tracer

    une flche horizontale jusquau point M. Une fois au point M, il faut tracer une flche

    verticale en direction de labscisse. On lit alors la valeur de la mdiane qui, dans notre

    exemple, est gale 11.

    M

    Mdiane