Dispersion

32
Les caractéristiques des distributions à un caractère Tendance centrale, dispersion, disparité et concentration.

Transcript of Dispersion

Page 1: Dispersion

Les caractéristiques des distributions à un caractère

Tendance centrale, dispersion, disparité et concentration.

Page 2: Dispersion

Les indicateurs de tendance centrale Les moyennes

On peut calculer 2 types de moyennes :

La moyenne arithmétique (ou moyenne simple). Il s’agit d’une moyenne calculée de telle sorte que chaque variable de la population étudiée a le même poids dans le calcul.

La moyenne pondérée tient compte du poids qu’a chaque valeur. On va pondérer chaque valeur d’un coefficient.

La médiane

C’est la valeur d’une série statistique qui divise en 2 groupes égaux la population étudiée.

Le mode

C’est la valeur d’une série statistique qui est la plus fréquente.

Page 3: Dispersion

Tendance centrale et caractéristique de forme

Une distribution est symétrique si les observations, repérées par leurs fréquences sont également dispersées de part et d’autres de la valeur centrale. Une distribution est symétrique si mode, moyenne et médiane sont confondues.

Les indicateurs de tendance centrale nous renseignent sur l’ordre de grandeur de la série statistique et sur sa forme.

Page 4: Dispersion

Tendance centrale et caractéristique de forme

Une courbe non symétrique est dite oblique: l’obliquité se repère du côté de la décroissance la plus forte de la courbe des fréquences.

Page 5: Dispersion

Limite des indicateurs de tendance centrale

Exemple:

2 élèves ont les notes de SES suivantes:Elève 1 : 2;2;2;2;10;10;10;10;10;18;18;18;18Elève 2 : 9;9;9;9;10;10;10;10;10;11;11;11;11

Ces 2 élèves ont la même moyenne, le même mode et la même médiane. Ainsi, les indicateurs de tendance centrale ne montrent pas les irrégularités des notes.

Il parait donc utile de mettre en relief ces écarts. La notion de dispersion va donc compléter l’information sur les séries statistiques.

Page 6: Dispersion

La dispersion On appelle dispersion statistique, la

tendance qu'ont les valeurs de la distribution d'un caractère à s'étaler, à se disperser, de part et d'autre d'une valeur centrale. Exemple : analyser les inégalités de revenus en

France, c’est-à-dire les écarts plus ou moins importants par rapport à la moyenne

On distingue la dispersion absolue (mesurée dans l'unité de mesure du caractère), et la dispersion relative (mesurée par un nombre sans dimension).

Page 7: Dispersion

Les mesures de la dispersion absolue

Les paramètres de dispersion absolue indiquent de combien les valeurs d'une distribution s'écartent en général de la valeur centrale de référence.

Les mesures de la dispersion absolue s’expriment dans l’unité de mesure de la variable considérée. Exemples: Pour le nombre d'habitants en 2006, il

s’agira du nombre d'habitants Pour la part des cadres dans le total de la

population active occupée, il s’agira de % de personnes actives occupant un emploi de cadre.

Les trois paramètres de dispersion absolue les plus courants sont l'étendue, l'écart type et l'intervalle inter quantile

Ville Nombre

d'habitants

Part des cadres dans population active occupée

Paris 2181374 41,04 Marseille 839043 16,02 Lyon 472304 26,49 Toulouse 437715 24,48 Nice 347060 14,95 Nantes 282853 22,19 Strasbourg 272975 20,61 Montpellier 251634 20,11 Bordeaux 232260 22,95 Lille 226014 22,68 Rennes 209613 21,69 Reims 183837 14,51 Le Havre 182580 9,78 Saint-Étienne 177480 12,88 Toulon 167816 11,44 Grenoble 156107 25,74 Angers 152337 16,47 Dijon 151504 17,91 Brest 144548 14,64 Nîmes 144092 13,43

Moyenne 360657 19,50 Médiane 209613 17.91

Source : INSEE, recensement 2006.

Page 8: Dispersion

L’étendue ou amplitude

L'étendue ou amplitude d'une distribution est égale à la différence entre la plus grande et la plus petite valeur de la distribution :

Etendue de X = Xmax –Xmin

Ainsi, pour le nombre d’habitants des plus grandes villes françaises, l’étendue de la série est de 2037282 habitants.

L’amplitude pour la part des cadres dans la population active occupée de ces mêmes villes est de 31,26 points.

Page 9: Dispersion

La mesure de la dispersion statistique et les valeurs centrales

A l’exception de l’amplitude, les paramètres de dispersion statistique caractérisent l’écart des valeurs de la distribution statistique de part et d'autre d'une valeur centrale de référence. Il peut s’agir de la moyenne ou de la médiane.

Page 10: Dispersion

Mesures de la dispersion autour de la moyenne

La variance de X, notée σ² est une mesure globale de la variation d'un caractère de part et d'autre de la moyenne arithmétique. Elle exprime la dispersion dans une unité de l’ordre du carré de l’unité de mesure du caractère.

Pour obtenir un paramètre de dispersion absolue, on calcule la racine carrée de la variance

L'écart type, noté σ est la racine carré de la moyenne des carrés des écarts à la moyenne, c'est à dire la racine carrée de la variance.

Page 11: Dispersion

La signification probabiliste de l’écart-type L’écart-type σ a l'avantage d'avoir une

signification probabiliste. La théorie des probabilités permet en effet d'estimer la chance qu'a une valeur d'être éloignée de la moyenne de plus d'un certain nombre d'écart-types.

Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilités de trouver les valeurs a une distance donnée de la moyenne μ sont les suivantes : 68,3% des valeurs sont entre μ-σ

et μ+σ

95,5% des valeurs sont entre μ-2σet μ+2σ

99,7 % des valeurs sont entre μ-3σet μ+3σ

Page 12: Dispersion

Mesures de la dispersion autour de la médiane

Les quantiles sont les valeurs du caractère qui définissent les bornes d'une partition en classes d'effectifs égaux.

Nombre de parties

2 4 5 10 20 100

Nombre de quantiles

1 3 4 9 19 99

Nom du quantile

Médiane Quartile Quintile Décile Vingtile Centile

Page 13: Dispersion

Les écarts et les rapports interquantiles

L'intervalle interquartile (Xq3-Xq1) est l'étendue de la distribution sur laquelle se trouvent concentrée au moins la moitié des éléments dont les valeurs de X sont les plus proches de la médiane. On exclut alors de la distribution les 25% des valeurs les plus faibles et les 25 % des valeurs les plus fortes de X.

L'intervalle interdécile (Xd9-Xd1) est l'étendue de la distribution sur laquelle se trouvent concentrés 80% des éléments dont les valeurs de X sont les moins différentes de la médiane. On exclut alors de la distribution les 10 % des valeurs les plus faibles et les 10% des valeurs les plus fortes.

Page 14: Dispersion

Les mesures de la dispersion relative Eliminer l’effet de l’unité de

mesure du caractère pour pouvoir comparer les degrés de dispersion de deux caractères

Deux mesures usuelles de la dispersion relative à partir de:

l’intervalle interquantile: l’intervalle interquantile

relatif (IIQR) le rapport interquantile

l’écart-type: le coefficient de variation

(CV)

Page 15: Dispersion

Exemple : la distribution des niveaux de vie en France

Lecture : en 2006, en France, 10 % des individus ont un niveau de vie inférieur à 9723 euros.

Le plus pauvre des 10 % les plus riches avait un niveau de vie 3.4 fois plus élevé que le plus riche des 10 % les plus pauvres.

(en euros 2006) 2004 2006

1er décile (D1) 9 357 9 723

2ème décile (D2) 11 474 12 089

3ème décile (D3) 13 098 13 958

4ème décile (D4) 14 713 15 755

Médiane (D5) 16 318 17 597

6ème décile (D6) 18 278 19 683

7ème décile (D7) 20 571 22 240

8ème décile (D8) 23 676 25 799

9ème décile (D9) 29 357 33 193

Rapport interdécile (D9/D1)

3,14 3,41

Sources : Insee-DGI, enquêtes Revenus fiscaux 2002 à 2005, Insee-DGFiP-Cnaf-Cnav-CCMSA, enquêtes Revenus fiscaux et sociaux 2005 et 2006.

Page 16: Dispersion

Avantage et limitesdes quantiles

Les quantiles permettent d’éliminer les problèmes liés aux valeurs extrêmes exceptionnelles.

Les indicateurs de dispersion utilisant les quantiles ignorent : Ce qui se passe entre les valeurs limites des

quantiles extrêmes. Ce qui se passe au-delà des valeurs limites

des quantiles extrêmes.

Page 17: Dispersion

La boîte à moustaches En mathématiques, les élèves ont l’habitude de représenter les séries

statistiques à l’aide d’un graphique appelé « boîte à moustaches ».

Page 18: Dispersion

Les diagrammes en boîte

Page 19: Dispersion

La mesure de la disparité

La disparité consiste à mesurer l’écart entre les valeurs centrales qui caractérisent une ou plusieurs populations statistiques.

Exemple : comparer les revenus entre la France et les EU, analyser les disparités régionales, entre PCS, entre sexes,… en termes de chômage, de revenus…)

Page 20: Dispersion

Exemple : la distribution des niveaux de vie moyen en France

Lecture :

En 2006, le niveau de vie des 10% de la population les plus pauvres était en moyenne de 7494 €.

Entre 2004 et 2006, le niveau de vie moyen des français a augmenté de 10.4%.

Les inégalités ont elles aussi augmenté, le rapport du niveau de vie moyen des 10% de la population les plus riches sur celui des 10% les plus pauvres passant de 5,63 à 6,75.

On peut d’ailleurs noter que cette évolution s’explique par la stagnation des niveaux de vie moyen des 10% les plus pauvres et par une augmentation près de 20% du niveau de vie moyen du dixième de la population le plus aisé.

Dixième de la population ordonné par niveau de vie croissant

2004 2006

1er 7 492 7 494

2ème 10 474 10 968

3ème 12 301 13 030

4ème 13 920 14 866

5ème 15 492 16 661

6ème 17 259 18 621

7ème 19 407 20 879

8ème 21 990 23 893

9ème 26 112 29 074

10ème 42 176 50 552

Ensemble 18 661 20 603

Rapport (B)/(A) 5,63 6,75

Page 21: Dispersion

Disparité versus dispersion Dans des sociétés comme la nôtre, le rapport

des revenus moyens des deux dixièmes extrêmes est en général un meilleur indicateur des inégalités que le rapport interdécile.

Exemple: Une amélioration des revenus des 5% les plus

pauvres. Une hausse des revenus des 1% les plus riches.

Dans les 2 cas ci-dessus, le rapport interdécile reste inchangé.

Page 22: Dispersion

La concentration La concentration permet de visualiser les

conséquences de la dispersion.

Elle concerne les variables continues ne pouvant prendre que des valeurs positives.

Nous limiterons notre méthode de détermination de la concentration à la méthode graphique.

Page 23: Dispersion

La courbe de Lorenz (1905)

La courbe de Lorenz permet de visualiser la concentration.

Cette courbe se construit dans un repère orthonormé : Les valeurs de la fréquence cumulée de la

population en abscisses. Les valeurs de la fréquence cumulée des

revenus ou du patrimoine.

Page 24: Dispersion

Des exemples de courbes de Lorenz

Plus la courbe de Lorenz s’éloigne de la droite d’équirépartition (cette surface est appelée surface de concentration), plus la concentration (les inégalités) est forte.

Sur la représentation ci-contre, on peut s’apercevoir que le Portugal a une distribution des revenus plus inégalitaire que la France

Source : Eurostats, 2004.

Page 25: Dispersion

Le coefficient de Gini

Cet indice est égal au rapport de deux surfaces : Au numérateur, on trouve la surface comprise entre

la droite d’équirépartition et la courbe de Lorenz, appelée surface de concentration.

Au dénominateur, la surface du triangle compris entre la droite d’équirépartition et l’axe des abscisses.

Page 26: Dispersion

Comparaison de coefficient de Gini Le coefficient de

Gini est un nombre compris entre 0 et 1.

Plus il est grand (plus la surface de concentration est grande), plus la répartition est inégalitaire.

Le coefficient de Gini de la France est de 0,27 et celui du Portugal est de 0,37.

Page 27: Dispersion

Une critique de Gini par Chauvel

La pertinence des mesures offertes par le coefficient de Gini est discutable car il s’agit d’une mesure unidimensionnelle de l’inégalité.

Exemple de Chauvel.

Page 28: Dispersion

Les strobiloïdes Pour résoudre ce

problème, il faut utiliser une loi de Champernowne.

Cette fonction de répartition se dérive, ce qui permet d'obtenir la densité de la répartition.

α est un indicateur de densité et donc d’homogénéité de la classe

moyenne. Plus α est grand, plus la courbe est asymétrique.

échelle de revenu dont l'unité est lerevenu médian

Page 29: Dispersion

Les strobiloïdes La courbe représentative

de cette fonction est appelée strobiloïde, elle prend ce nom en l'honneur de Henri Mendras, et de la toupie (στροβιλοσ) de sa Seconde révolution française (Mendras, 1994), qui mettait en évidence le fait que la société ne se scinde pas en deux, et que l'architecture sociale échappe largement à une logique univoque de domination.

Revenu médianisé

Part de la population

Page 30: Dispersion

L’avantage des strobiloïdes En superposant 2 strobiloïdes, on peut avoir

une lecture immédiate des conséquences d’un partage du revenu disponible dans la population, en termes de qui est gagnant et qui est perdant.

Ainsi, Chauvel propose des simulations de déformation de la courbe française de répartition des revenus vers des modèles de répartition d’autres pays.

Page 31: Dispersion

Déformation de la courbe française vers le modèle américain

Principales conséquences sur la répartition du revenu disponible : Baisse de 36% du premier

décile. Baisse de 14 % du premier

quartile. Hausse du dernier quartile de

8 %.

Prélever une part substantielle du revenu disponible des plus pauvres (moins de prestations sociales) ne dégage en définitive que des sommes fort modestes et ne conduit qu’à un enrichissement très limité des plus riches.

Revenu médianisé

Part de la population

Page 32: Dispersion

Déformation de la courbe française vers le modèle suédois

Principales conséquences sur la répartition du revenu disponible : Accroissement de 13 % du

premier décile. Hausse du premier quartile de

18%. Hausse du revenu médian de

12 % Baisse de 11% pour le dernier

décile. Baisse de 18 % pour le dernier

vingtile.

Cette évolution profiterait donc surtout au bas de la classe moyenne. On conserverait à l’identique la pauvreté relative, c’est-à-dire la distance entre les pauvres et les gens moyens.

Revenu médianisé

Part de la population