STATISTIQUE DESCRIPTIVE Vocabulaire de base - …irag-guinee.org/doc/Statistique descriptive.pdf ·...

22
BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 1 STATISTIQUE DESCRIPTIVE 1. Vocabulaire de base On divise généralement l'étude de la statistique générale en deux parties : - La statistique descriptive, qui est un ensemble de méthodes permettant de décrire les unités statistiques qui composent une population. On ne fait pas de comparaisons et on s'intéresse en général à un seul groupe, échantillon ou population. - Statistique inférentielle, partie de la statistique qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations, mais extrapole les constatations faites à un ensemble plus vaste, permet de tester des hypothèses sur cet ensemble, et de prendre des décisions le concernant. La statistique inférentielle intervient dans les enquêtes et les sondages. Elle s'appuie sur la statistique descriptive, mais aussi sur le calcul des probabilités. - Population La population désigne un ensemble d'unités statistiques. Les unités statistiques, aussi appelées individus, sont les entités abstraites qui représentent des personnes, des animaux ou des objets. La statistique sert à décrire l'ensemble des unités statistiques qui composent la population. - Echantillon Lorsque l'on veut connaître certaines caractéristiques d'une population, on dit qu'on enquête sur la population. Une enquête peut être réalisée auprès de toute la population ou sur un échantillon. Un recensement est une enquête réalisée auprès de toute la population. Un sondage est une enquête réalisée sur un échantillon. La population cible est l'ensemble de tous les objets que l'on étudie. Lorsque la population est trop importante, on étudie un échantillon, c'est-à-dire un sous- ensemble, beaucoup plus petit, de la population. L'échantillon doit être bien choisi pour pouvoir représenter la population.

Transcript of STATISTIQUE DESCRIPTIVE Vocabulaire de base - …irag-guinee.org/doc/Statistique descriptive.pdf ·...

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 1

STATISTIQUE DESCRIPTIVE

1. Vocabulaire de base

On divise généralement l'étude de la statistique générale en deux parties : - La statistique descriptive, qui est un ensemble de méthodes permettant de décrire les unités

statistiques qui composent une population. On ne fait pas de comparaisons et on s'intéresse en général à un seul groupe, échantillon ou population.

- Statistique inférentielle, partie de la statistique qui, contrairement à la statistique

descriptive, ne se contente pas de décrire des observations, mais extrapole les constatations faites à un ensemble plus vaste, permet de tester des hypothèses sur cet ensemble, et de prendre des décisions le concernant. La statistique inférentielle intervient dans les enquêtes et les sondages. Elle s'appuie sur la statistique descriptive, mais aussi sur le calcul des probabilités.

- Population La population désigne un ensemble d'unités statistiques. Les unités statistiques, aussi appelées individus, sont les entités abstraites qui représentent des personnes, des animaux ou des objets. La statistique sert à décrire l'ensemble des unités statistiques qui composent la population. - Echantillon Lorsque l'on veut connaître certaines caractéristiques d'une population, on dit qu'on enquête sur la population. Une enquête peut être réalisée auprès de toute la population ou sur un échantillon. Un recensement est une enquête réalisée auprès de toute la population. Un sondage est une enquête réalisée sur un échantillon. La population cible est l'ensemble de tous les objets que l'on étudie. Lorsque la population est trop importante, on étudie un échantillon, c'est-à-dire un sous-ensemble, beaucoup plus petit, de la population. L'échantillon doit être bien choisi pour pouvoir représenter la population.

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 2

- Individu ou une unité statistique

Est un objet de cette population. - Variables ou caractères statistiques Un individu donné de la population peut être étudié selon certaines propriétés. Ces propriétés sont appelées caractères ou variables statistiques. Exemple : une étude sur les chercheurs de l’IRAG peut porter sur différentes variables : leur âge, leur sexe, leur spécialité, leur niveau universitaire, etc. On appelle caractère statistique simple toute application : X : P → R avec P un ensemble fini appelé population ; tout élément ω de P s’appelle un individu. Le caractère désigne une grandeur ou un attribut, observable sur un individu et susceptible de varier prenant ainsi différents états appelés modalités. On appelle modalité toute valeur : xi ∈ X (P) telle que : X (P) = {x1 , x2 , x3 ,….., xi ,…., xk} avec k nombre de modalités différentes de X Seuls les caractères quantitatifs ont valeurs dans R, les caractères qualitatifs s’y ramenant par un codage. Exemple : Lors des recensements, les caractères étudiés sont l’âge, le sexe, la qualification professionnelle, etc. Le caractère « sexe » présente deux modalités alors que pour la qualification professionnelle, le nombre de modalités va dépendre de la précision recherchée. - Variable qualitative

Une variable qualitative est une variable qui ne prend pas de valeur numérique. Exemple : sexe, nationalité. Chaque variable qualitative a plusieurs modalités. Exemple : pour la variable état matrimonial, les modalités sont célibataire, marié, veuf, divorcé. Une variable qualitative ordinale prend des valeurs qui sont ordonnées, hiérarchisées. On peut classer les modalités les unes par rapport aux autres mais on ne peut pas dire à partir de cet ordre de "combien" est la différence entre deux modalités. Exemple : les réponses à un sondage, du type "pas du tout", "un peu", "assez", "beaucoup". - Variable quantitative Une variable quantitative est une variable qui est de la forme d'une variable numérique. En général il résulte d’un comptage ou dénombrement. Exemple : âge, moyenne de l'année, le nombre de portée d’une truie etc. Un caractère quantitatif discret peut résulter de la transformation d’un caractère nominal (ex. comptage des individus porteurs ou non d’un caractère).

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 3

Une variable quantitative discrète peut prendre des valeurs dénombrables. Exemple : le nombre d'enfants d'un ménage tandis qu'une variable quantitative continue peut prendre toutes les valeurs à l'intérieur d'un intervalle. En général il résulte d’une mesure. Exemple : la taille. En réalité le nombre de valeurs possibles pour un caractère donné dépend de la précision de la mesure. On peut considérer comme continu un caractère discret qui peut prendre un grand nombre de valeurs. Exemple : le nombre de globules blancs ou rouges par ml de sang, le nombre de nucléotides A dans une très longue séquence d’ADN (plusieurs Mégabases). Les variables quantitatives peuvent être regroupées en classes (intervalles). Exemple : le nombre d'enfant d'un ménage peut être regroupé en 4 classes, [0 ;1],[2 ;3],[4 ;5], plus de 5 enfants. La taille d'un échantillon d'étudiants en CP peut être classée en moins d'un mètre, [1 ;1.20] mètre, plus de 1.20 mètre. Pour une classe, on peut parler de son amplitude : soit [a ;b[ une classe d'une variable quantitative, on dit que b est l'amplitude de cette classe. - Effectif et fréquence L'effectif (ou taille) d'une valeur donnée d'une variable est l'ensemble d'individus présentant cette valeur. L'effectif total est la somme de tous les effectifs d'une variable. La fréquence d'une valeur donnée est le rapport de l'effectif correspondant à l'effectif total. La fréquence totale est toujours égale à 1. Exemple : une étude sur l'état matrimonial des salariés de la société X.

- Population : salariés de la société X - Unité statistique (individu) : chaque salarié de la société X - Variable (caractère) étudiée : état matrimonial avec 4 modalités : célibataire, marié,

veuf, divorcé. - Effectif : l'effectif de la modalité célibataire = n1, marié = n2, veuf = n3, divorcé = n4. - Effectif total : N = n1 + n2 + n3 + n4. - Fréquence : Fréquence de la modalité :

,

- Fréquence totale = N/N = 1. - Effectifs cumulés croissants et décroissants Quand les modalités ou les classes d'une variable sont rangées dans l'ordre croissant (décroissant), les effectifs cumulés croissants (ou décroissants) d'une valeur s'obtient en ajoutant à chaque effectif, les effectifs des valeurs qui la précédent. Les fréquences cumulées s'obtiennent en divisant les effectifs cumulés par l'effectif total.

Exemple d'effectif cumulé : notes d'une population de 21 étudiants.

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 4

- Série statistique Une séries statistique est la suite des observations d'une (voire plusieurs) variable, relevées sur les individus d'une population. Exemple : les notes des étudiants présentées sur le tableau de 21 étudiants

2. Représentation graphiques des données Il existe plusieurs niveaux de description statistique : la présentation brute des données, des présentations par tableaux numériques, des représentations graphiques et des résumés numériques fournis par un petit nombre de paramètres caractéristiques. 2.1. Séries statistiques Une série statistique correspond aux différentes modalités d’un caractère sur un échantillon d’individus appartenant à une population donnée. Le nombre d’individus qui constituent l’échantillon étudié s’appelle la taille de l’échantillon. Exemple : Afin d’étudier la structure de la population de gélinottes huppées (Bonasa umbellus) abattues par les chasseurs canadiens, une étude du dimorphisme sexuel de cette espèce a été entreprise. Parmi les caractères mesurés figure la longueur de la rectrice centrale (plume de la queue). Les résultats observés exprimés en millimètres sur un échantillon de 50 mâles juvéniles sont notés dans la série ci-dessus :

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 5

2.2. Tableaux statistiques Le tableau de distribution de fréquences est un mode synthétique de présentation des données. Sa constitution est immédiate dans le cas d’un caractère discret mais nécessite en revanche une transformation des données dans le cas d’un caractère continu. 2.3. Fréquences absolues, relatives et cumulées A chaque modalité du caractère X, peut correspondre un ou plusieurs individus dans l'échantillon de taille n. On appelle effectif de la modalité xi, le nombre ni où ni est le nombre d’individu ω tel que :

X(ω) = xi

Remarque : Parfois on peut rencontrer le terme de fréquence absolue pour les effectifs. On appelle fréquence de la modalité xi, le nombre fi tel que : fi = ni/n Remarque : Parfois on peut rencontrer le terme de fréquence relative pour les fréquences. Le pourcentage est une fréquence exprimée en pour cent. Il est égal à 100 fi. L’emploi des fréquences ou fréquences relatives s’avère utile pour comparer deux distributions de fréquences établies à partir d’échantillons de taille différente. On appelle fréquences cumulées ou fréquences relatives cumulées en xi, le nombre fi cum tel que :

On peut noter que n =

taille de l’échantillon et que la somme des fréquences est égale à 1

2.4. Caractères quantitatifs discrets Dans le cas d’un caractère quantitatif discret, l’établissement de la distribution des données observées associées avec leurs fréquences est immédiat.

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 6

Exemple : La cécidomyie du hêtre provoque sur les feuilles de cet arbre des galles dont la distribution de fréquences observées est la suivante :

La taille de l’échantillon étudié est n =375 feuilles 2.5. Caractères quantitatifs continues Dans le cas d'un caractère quantitatif continu, l’établissement du tableau de fréquences implique d’effectuer au préalable une répartition en classes des données. Cela nécessite de définir le nombre de classes attendu et donc l’amplitude associée à chaque classe ou intervalle de classe. En règle générale, on choisit des classes de même amplitude. Pour que la distribution en fréquence est un sens, il faut que chaque classe comprenne un nombre suffisant de valeurs (ni). Diverses formules empiriques permettent d’établir le nombre de classes pour un échantillon de taille n. La règle de STURGE : Nombre de classes = 1+ (3,3 log n) La règle de YULE : Nombre de classes = 2,5 L'intervalle entre chaque classe est obtenu ensuite de la manière suivante : Intervalle de classe = (X max - X min) / Nombre de classes avec X max et X min, respectivement la plus grande et la plus petite valeur de X dans la série statistique. A partir de X min on obtient les limites de classes ou bornes de classes par addition successive de l’intervalle de classe. En règle général, on tente de faire coïncider l’indice de classe ou valeur centrale de la classe avec un nombre entier ou ayant peu de décimales. Exemple : Dans le cadre de l’étude de la population de gélinottes huppées (Bonasa umbellus), les valeurs de la longueur de la rectrice principale peuvent être réparties de la façon suivante :

- Définition du nombre de classes :

Les deux valeurs sont très peu différentes.

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 7

- Définition de l’intervalle de classe : IC = (174-140)/6,6 = 5,15 mm que l’on arrondit à 5 mm par commodité. 2.3. Représentations graphiques 2.3.1. Introduction Parlant de l’importance des graphiques, Théodore MITCHELL indique que «L’information graphique est à l’œil ce que la poésie est au langage » Pour VINCI (1452-1519) « Il existe trois catégories de personnes : celles qui voient, celles qui voient quand on leur montre, celles qui ne voient jamais ». Les diagrammes et les graphiques sont des représentations visuelles simplifiées, mais néanmoins rigoureuses, de chiffres, de concepts, de catégories, d’images, etc. Bien que certains diagrammes représentent aussi des chiffres, c’est principalement au graphique que cette fonction incombe. Plus précisément, en statistique descriptive, le graphique sert à représenter visuellement des informations sur les dimensions d’une population d’unités statistiques. Le graphique statistique combine dans des proportions variées des points, des lignes, un système de coordonnées généralement cartésiennes, des chiffres, des symboles, des mots, des formes et des couleurs. Les représentations graphiques ont l’avantage de renseigner immédiatement sur l’allure générale de la distribution. Elles facilitent l’interprétation des données recueillies. 2.3.2. Utilité des graphiques et des diagrammes Un beau graphique vaut mieux qu’un long discours dit-on. Les graphiques sont des outils qui servent notamment à :

- Renforcer l’efficacité de la communication d’un message - Faciliter la prise de décision

2.3.2.1. Renforcer l’efficacité de la communication d’un message Nous sommes quotidiennement bombardés d’informations visuelles, que ce soit par l’intermédiaire des journaux (gratuits ou pas), d’internet, des téléphones portables, des panneaux publicitaires géants ou non, numériques ou en papier. Or nous ne pouvons en absorber qu’une partie limitée. De plus, une partie de cette information est complexe et requiert un degré non négligeable d’attention et de concentration pour être comprise et exploitée utilement. Les annonceurs et autres diffuseurs d’informations sont conscients de ce défi et c’est pourquoi ils redoublent de créativité et d’imagination pour forcer notre attention et tenter de la captiver suffisamment longtemps pour qu’elle se transforme « magiquement », à notre insu, en concentration, cela pour qu’au bout du compte nous retenions cette information et l’utilisions dans le sens souhaité (achat de produits, certes, mais aussi adoption de certains comportements dans le cas des politiques de santé publique ou de développement durable, entres autres). Pour ce faire, quand l’information doit prendre la forme de données chiffrées, ils font appel à des infographistes. En effet, l’utilisation des graphiques pour transmettre un message s’avère très efficace. Mais le statisticien se doit de rappeler qu’il faut néanmoins respecter certaines

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 8

règles et ne pas laisser l’esthétique empiéter sur l’exactitude, fut-ce au nom de l’efficacité du message. 2.3.2.2. Faciliter la prise de décision Dans cette partie, nous donnons plusieurs exemples de l’utilisation des graphiques et des diagrammes en tant qu’outil facilitant la prise de décision. Ainsi :

- Le diagramme de GANTT permet d’avoir une représentation visuelle de la planification des différentes tâches d’un projet dans le temps.

- Le graphique à échelle verticale double permet d’apprécier l’existence d’une covariation entre deux phénomènes.

- Le graphique à échelle logarithmique permet d’avoir une idée plus juste des phénomènes en évolution.

- Le graphique de PARETO est utilisé dans les processus de contrôle de qualité. - Etc.

2.3.3. Qualités d’un bon graphique Selon Edward TUFTE, l’excellence en matière de graphiques statistiques consiste à communiquer avec clarté, précision et efficacité des idées complexes. Ensuite, il énumère neuf caractéristiques d’un « excellent graphique ». Ainsi, un excellent graphique devrait-il avoir tout ou partie des qualités suivantes :

- Montrer les données - Attirer l’attention du lecteur ou de l’auditoire sur l’idée essentielle que le graphique

vise à mettre en évidence plutôt que sur les qualités esthétiques du graphique lui-même

- Eviter de déformer le message contenu dans les chiffres - Présenter un grand nombre de chiffres dans un espace restreint - Donner de la cohérence à de vastes ensembles de données - Faciliter les comparaisons visuelles entre différents chiffres - Révéler les chiffres à différents niveaux de détails, allant de la vision d’ensemble à

une structure plus fine - Servir un objectif clair : décrire des données, explorer des données, ou simplement les

tabuler ou leur donner un aspect esthétique - Etre étroitement corrélé avec la description purement statistique ou verbale des

données.

Illustrons quelques unes de ces qualités par le Quartet d’ANSCOMBE Les graphiques révèlent des informations sur la forme des séries et/ou des distributions que les tableaux et les statistiques résumées ne peuvent pas toujours montrer. Une illustration extrême en est le quartet d’ANSCOMBE, nommé ainsi après la publication d’un article sur ce thème par le statisticien anglais Francis ANSCOMBE (1918-2001).

Dans le tableau ci-après les quatre paires de séries différentes de 11 chiffres ont toutes les mêmes statistiques résumées. La moyenne de la variable X est égale à 9 et son écart-type est 1,94 pour les 4 séries. La moyenne des Y est égale à 7,5 et son écart-type à 1,94 pour les 4 séries. Sans les quatre graphiques ci-après, on pourrait déduire de façon erronée que comme les 4 paires de séries ont la même moyenne et la même dispersion (en outre, elles ont le même coefficient de

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 9

corrélation et la même droite de régression Y = 3 + 0,5 X [sur le calcul de la droite de régression voir le chapitre 6]), elles sont très semblables. Or, les 4 graphiques dits « en nuages de points » qui leurs sont associés montrent qu’elles ont des formes très différentes. Et ceci confirme l’adage qui dit que « un beau graphique vaut mieux qu’un long discours » !

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 10

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 11

2.3.4. Les échelles graphiques

Beaucoup de graphiques à deux dimensions se présentent sous la forme suivante dite d’un « système de coordonnées cartésiennes » :

Il est important de toujours bien stipuler l’unité dans laquelle l’échelle est mesurée.

2.3.4.1. Echelles numériques Une échelle numérique est une échelle qui mesure des valeurs qui peuvent varier de moins l’infini à plus l’infini. Ci-après, un graphique avec une échelle numérique sur l’axe horizontal et une échelle numérique sur l’axe vertical.

- Sur l’axe horizontal, l’unité de mesure numérique est l’année. Les valeurs s’échelonnent entre 1995 et 2008. Si l’on doit dessiner ce graphique à la main sur une feuille de papier, on prendra soin de définir la distance que l’on souhaite consacrer à une année (par exemple : 1 an = 1 cm). Si c’est un logiciel qui réalise le graphique, cette opération devient inutile car les dimensions du graphique seront choisies par défaut.

- Sur l’axe vertical, l’unité de mesure numérique est le déficit commercial d’un pays,

mesuré en millions de dollars. Il varie de -150 millions à + 400 millions. Si l’on doit dessiner ce graphique à la main sur une feuille de papier, on prendra soin de définir la distance que l’on souhaite consacrer à 100 millions de dollars (par exemple : 100 millions de dollars = 1 cm). Si c’est un logiciel qui réalise le graphique, cette opération devient inutile car les dimensions du graphique seront choisies par défaut.

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 12

Il est important de toujours bien stipuler sur chaque axe l’unité dans laquelle l’échelle de l’axe considérée est mesurée (ici l’unité est l’année pour l’axe horizontal et les millions de dollars pour l’axe horizontal). En revanche, on peut se dispenser d’indiquer la relation entre la dimension de l’échelle (en centimètres) et la dimension de la variable mesurée sur l’échelle (millions de dollars, temps, etc.). 2.3.4.2. Echelles de catégories Une échelle de catégories est une échelle sur laquelle sont portées des catégories. Il peut s’agir :

- de catégories numériques (échelle quantitative) - de catégories non numériques dites « nominales » (échelle qualitative)

Exemple d’utilisation d’une échelle avec catégories numériques sur l’axe horizontal

Il existe d’autres échelles qu’il convient d’utiliser au cas par cas.

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 13

2.3.5. Présentation de quelques graphiques classiques Rappelons qu’une bonne représentation graphique est très utile pour comprendre les observations d'une étude statistique. Cette présente quelques graphiques classiques pour représenter les effectifs observés dans une étude statistiques. 2.3.5.1. Variables qualitatives Un diagramme est une représentation visuelle simplifiée et structurée de concepts, d’idées, de constructions, des relations, de l'anatomie et aussi (et c’est en cela qu’il nous intéresse ici) de données statistiques. Il est employé dans tous les aspects des activités humaines pour visualiser et clarifier. Un diagramme permet aussi de décrire des phénomènes, de mettre en évidence des corrélations en certains facteurs ou de représenter des parties d’un ensemble.

A. Diagramme en barre Dans ce diagramme, les modalités de la variable sont placées sur une droite horizontale et les effectifs (ou les fréquences) sont placés sur un axe vertical. La hauteur de la barre est proportionnelle à l'effectif. Les barres ont une certaine épaisseur pour qu'il n'y ait pas de confusion avec les diagrammes en bâtons réservés à des variables quantitatives discrètes.

Exemple de diagramme en barre

B. Diagramme circulaire ou camembert L'effectif total est représenté par un disque. Chaque modalité est représentée par un secteur circulaire dont la surface (pratiquement : l'angle au centre) est proportionnelle à l'effectif correspondant. L'angle de chaque modalité se calcule par :

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 14

Exemple de diagramme circulaire

2.3.5.2. Variables quantitatives A. Diagramme en bâtons Les valeurs discrètes xi prises par les variables sont placées sur l'axe des abscisses, et les effectifs (ou les fréquences) sur l'axe des ordonnées. La hauteur du bâton est proportionnelle à l'effectif.

Exemple de diagramme en bâtons

B. Histogramme On utilise l'histogramme pour les variables classées. C'est un ensemble de rectangles. Chaque rectangle est associé à une classe et il a une surface proportionnelle à l'effectif (ou fréquence) de cette classe.

- Amplitudes égaux : Si les classes ont la même amplitude, on reporte en ordonnée l'effectif (ou fréquence) des classe.

- Amplitudes diverses : si les amplitudes sont différentes, on reporte en ordonnée la densité di (effectif divisé par l'amplitude de la classe) pour que la surface de chaque rectangle soit proportionnelle à l'effectif (ou fréquence).

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 15

Exemples d'histogrammes. A gauche : des classes de même amplitude et à droite : des classes de différentes amplitudes C. Diagramme

Un graphique est aussi une représentation visuelle simplifiée, mais il représente principalement, voire exclusivement des chiffres. Il existe donc une relation entre diagramme et graphique, que nous pouvons d’ailleurs illustrer par le diagramme de VENN ci-après (lequel est un diagramme non statistique !).

D. Pictogramme

Le pictogramme est un dessin généralement en couleur, conçu par un graphiste, qui essaie de traduire non seulement des données quantitatives, mais également des informations d’ordre commercial ou esthétique. Dans l’exemple suivant, 4 figurines qui représentent des bouteilles d’eau et la « corpulence » de chaque bouteille correspond aux ventes de la marque fictive « eau de qualité ». En réalité, il s’agit au départ d’un graphique en colonne qui a été redessiné pour remplacer les colonnes par des bouteilles. Ce qui compte ici, c’est la hauteur de la

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 16

bouteille. La plus haute et la plus grosse montre que les ventes ont été particulièrement importantes au troisième semestre. Remarquons qu’il s’agit d’un pictogramme qui traduit principalement une information statistique. Certains pictogrammes ne traduisent que des informations diverses, non statistiques.

Un pictogramme qui représente des données chiffrées

E. Cartogramme

Les cartogrammes sont désormais très fréquemment utilisés pour représenter toutes sortes d’informations, de la météorologie, aux résultats électoraux, en passant naturellement par des informations économiques.

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 17

C. Diagramme de GANTT

Le diagramme de GANTT, du nom de l’ingénieur américain Henry Laurence GANTT (1861-1919) qui l’a popularisé, est un outil remarquable de gestion de projets. Il sert à visualiser dans le temps les différentes étapes qui composent un projet. Il existe des logiciels spécifiques qui permettent de produire ce diagramme, mais il est aussi possible d’utiliser EXCEL 2007 pour le tracer12. Nous allons partir d’un exemple simple sous forme d’un tableau décrivant la durée des différentes étapes de la réalisation d’un mémoire et nous transformerons ce tableau en diagramme de Gantt. Ci-après, le tableau qui va servir à faire le diagramme :

Tableau chronologique des tâches à effectuer pour réaliser un mémoire

Sur ce tableau figurent successivement : - Dans la première colonne, l’énumération des tâches - Dans la seconde colonne la date de début de chaque tâche - Dans la troisième colonne la durée de chaque étape en jours - Dans la dernière colonne, la date d’achèvement de chaque tâche

Voici maintenant le diagramme tel qu’il apparaît une fois terminé.

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 18

Diagramme de GANTT pour la réalisation d’un mémoire

D. Graphiques usuels À l’ère du numérique et des télécommunications, les graphiques sont partout. Ces représentations visuelles colorées, aux formes très diverses sont plus agréables à regarder que les tableaux et permettent souvent de mieux faire passer un message au premier coup d’œil. Il est également très facile, grâce aux logiciels tels que EXCEL 2007 de Microsoft de donner une « profondeur » aux différents graphiques, afin qu’ils apparaissent comme ayant trois dimensions (Il est aussi possible dans EXCEL 2007, de représenter réellement 3 dimensions pour certains graphiques en barres ou pour les graphiques dits « de surface »). Il ne faut cependant pas abuser de la possibilité qui nous est donnée aujourd’hui de réaliser des graphiques complexes. Car cette complexité peut finir par rendre le graphique difficilement compréhensible. Mieux vaut s’en tenir aux principales représentations graphiques connues et appréciées de tous : diagrammes en colonne, diagramme en barres, lignes, « camemberts », etc.… Il existe une grande quantité de graphiques, tous plus imaginatifs les uns que les autres. Ainsi, à titre d’exemple, la figure ci-après montre les 73 possibilités de graphiques simples, regroupées en 11 catégories, qui peuvent être réalisés avec le logiciel EXCEL 2007. Mais en réalité, il est possible d’en faire beaucoup plus, soit en combinant ces formes de base, soit en utilisant certaines astuces. Les 73 représentations graphiques de base dans EXCEL 2007, regroupées dans 11 catégories communes.

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 19

E. Présentation d’autres types de graphiques

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 20

Mesures de liaison linéaire : La Covariance et la Corrélation

Coefficients de corrélations importants

Coefficients de corrélations faibles

Diagrammes d’EXCEL

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 21

L’assistant du tableur EXCEL propose un certain nombre de graphiques, parmi lesquels des histogrammes (qui sont en réalité des diagrammes en bâtons) et des graphiques circulaires (figure 1.1) :

Parmi les histogrammes, on choisit un des formats suivants (figure 2.1):

Parmi les histogrammes, on choisit un des formats suivants (figure 2.1):

BEAVOGUI, S (2012). Statistique descriptive. Atelier d’initiation à la biométrie. IRAG. Page 22

La variété offerte dans le choix du diagramme a pour réciproque le danger de sélectionner un

type de schéma ne convenant pas aux données étudiées. Ceux qui proposent une eprésentation

de valeurs négatives (types 1, 2, 4, 6, 7 et 8) sont à éviter en statistique et conviennent pour

représenter des résultats financiers par exemple.

Les diagrammes circulaires peuvent être créés sous forme d’ellipses donnant une

représentation dans l’espace (3D) pour améliorer l’esthétique ( figure 3.1) :

2.4. Indicateurs numériques Le dernier niveau de description statistique est le résumé numérique d’une distribution statistique par des indicateurs numériques ou paramètres caractéristiques. Remarque : Ces derniers représentent une transition entre la statistique purement descriptive et l’estimation des paramètres qui caractérisent les distributions de probabilité. Les indicateurs numériques ont été abordés dans la session 3 qui traite de l’Inférence statistique.