Thierry Dhorne

25
Statistique exploratoire Thierry Dhorne 3 mars 2016

Transcript of Thierry Dhorne

Page 1: Thierry Dhorne

Statistique exploratoire

Thierry Dhorne

3 mars 2016

Page 2: Thierry Dhorne

Méthode d’analyse

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 2 / 25

✉ on travaille d’abord variable par variable

statistique univariée✉ puis on s’intéresse aux variables deux à deux

pour étudier les liens

statistique bivariée✉ enfin on analyse le tableau globalement

pour faire une synthèse

statistique multivariée

⋆ pas étudiée dans ce cours

Page 3: Thierry Dhorne

Exploration univariée d’une variablequalitative

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

❖ Présentation desdonnées

❖ Étude exploratoire

❖ Analyse critique

❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert

Explorationunivariée d’unevariable quantitativeentière

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 3 / 25

Page 4: Thierry Dhorne

Présentation des données

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

❖ Présentation desdonnées

❖ Étude exploratoire

❖ Analyse critique

❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert

Explorationunivariée d’unevariable quantitativeentière

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 4 / 25

✉ population ou un échantillon d’effectif n sur laquelle estdéfinie une variable qualitative Y à I modalités yi

Exemple :Population : les étudiants d’une classe d’effectif 45.Sexe :

F HF HF HF F F F HF H H H H H H H H H HF

H HF H H HF F H H H H HF H H H HF H H H

Y = sexe ; variable qualitative de modalité yi : masculin /féminin où i = 1,2 (car 2 modalités)

Page 5: Thierry Dhorne

Étude exploratoire

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

❖ Présentation desdonnées

❖ Étude exploratoire

❖ Analyse critique

❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert

Explorationunivariée d’unevariable quantitativeentière

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 5 / 25

✉ information synthétique des données

tableau des effectifs ou des fréquences (absolues ourelatives)

yi ni fi

y1 = Homme 31 68.9 %y2 = Femme 14 31.1 %

total 45 100 %

Page 6: Thierry Dhorne

Analyse critique

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

❖ Présentation desdonnées

❖ Étude exploratoire

❖ Analyse critique

❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert

Explorationunivariée d’unevariable quantitativeentière

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 6 / 25

comparer par rapport à la fréquence dans la populationglobale des jeunes Français pour les mêmes classes d’âge

yi ni fi

y1 = Homme 2404787 50.5 %y2 = Femme 2355020 49.5 %

total 4759807 100 %

Page 7: Thierry Dhorne

Restitution graphiqueDiagramme en barres ou en colonnes

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

❖ Présentation desdonnées

❖ Étude exploratoire

❖ Analyse critique

❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert

Explorationunivariée d’unevariable quantitativeentière

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 7 / 25

M F

05

1015

2025

30

M F

0500

000100

0000

150000

0200

0000

Diagramme en barres de la variable sexe :

– à gauche population étudiante– à droite population de référence

Page 8: Thierry Dhorne

Restitution graphiqueDiagramme en secteurs ou camembert

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

❖ Présentation desdonnées

❖ Étude exploratoire

❖ Analyse critique

❖ RestitutiongraphiqueDiagramme enbarres ou encolonnes❖ RestitutiongraphiqueDiagramme ensecteurs oucamembert

Explorationunivariée d’unevariable quantitativeentière

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 8 / 25

M

F

M

F

Diagramme en secteurs de la variable sexe :

– à gauche population étudiante– à droite population de référence

Page 9: Thierry Dhorne

Exploration univariée d’une variablequantitative entière

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 9 / 25

Page 10: Thierry Dhorne

Présentation des données

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 10 / 25

✉ population d’effectif N sur laquelle est définie une variablequantitative discrète Z à c modalités zi .

Exemple :Population : les étudiants d’une classe d’effectif N=45.Nombre de bonnes réponses au QCM de statistique :7 6 5 5 6 4 8 3 4 5 4 4 9 5 3 8 7 6 5 8 8 8 6 9 7 7 8 7 6 10 2 89 5 6 6 10 8 7 7 5 6 4 8 7

Z = nombre de bonnes réponses ; variable quantitativediscrète de modalités zi : 2/3/4/5/6/7/8/9/10. Où i = 1,2,. . .,9

Page 11: Thierry Dhorne

Étude exploratoire

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 11 / 25

✉ tableau de distribution statistique ou tableau de donnéesgroupées ou tri à plat

la distribution statistique associe à chaque valeur de lavariable Z , l’effectif et/ou la fréquence d’individus présentantcette valeur

valeur effectif fréquence effectif cumulé fréquence cumulée2 1 2.22 1 2.223 2 4.44 3 6.674 5 11.11 8 17.785 7 15.56 15 33.336 8 17.78 23 51.117 8 17.78 31 68.898 9 20.00 40 88.899 3 6.67 43 95.5610 2 4.44 45 100.00

Page 12: Thierry Dhorne

Étude exploratoire

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 12 / 25

⋆ les effectifs sont parfois appelés fréquences absolues,dans ce cas on appelle les fréquences « fréquencesrelatives » pour éviter toute confusion

Page 13: Thierry Dhorne

Étude graphiqueDiagramme en bâtons

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 13 / 25

outil le plus adapté pour visualiser une série statistiqueentière✉ pour chaque valeur de la variable on représente un bâton

dont la hauteur est la fréquence absolue ou relative (oumoins souvent la fréquence cumulée).

nbrep

Freque

ncy

2 4 6 8 10

02

46

8

Diagramme en bâtons du nombre de bonnes réponses - Effectifs

Page 14: Thierry Dhorne

Étude graphiqueFonction de répartition empirique

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 14 / 25

✉ On peut aussi visualiser la fonction de répartitionempirique encore appelée courbe cumulative des fréquences

Fonction de répartition empirique

Fn(x) =nombre d′éléments dans l′échantillon≤ x

n

Page 15: Thierry Dhorne

Étude graphiqueFonction de répartition empirique

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 15 / 25

2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

Fn(x

)

Page 16: Thierry Dhorne

Résumé numérique

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 16 / 25

✉ caractéristiques de tendance centrale✉ autres indicateurs de position✉ caractéristiques de dispersion✉ caractéristiques de forme

Page 17: Thierry Dhorne

Caractéristiques de tendance centrale

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 17 / 25

✉ pour caractériser le cœur (centre) de distribution

la notion de cœur est intuitive mais non rigoureuse

il existe donc plusieurs indicateurs

– le mode– la médiane– la moyenne

Page 18: Thierry Dhorne

Mode

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 18 / 25

✉ c’est la valeur la plus fréquente (s’il n’y en a qu’une)

le mode n’est donc pas toujours défini

mais il est facile repérer visuellement

et parfois difficile à calculer

⋆ ne pas confondre mode et maximum (le mode correspondau maximum en ordonnée)✉ il peut exister des modes locaux (valeurs plus fréquentes

localement)

dans ce cas on parle de série multimodale (bimodale,trimodale,...)

Page 19: Thierry Dhorne

Médiane

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 19 / 25

✉ c’est la valeur qui coupe l’échantillon ordonné en deuxparties égales

c’est-à-dire qui correspond à l’indice moyen pour la sérieordonnée

c’est un indicateur assez difficile à calculer (il faut trier lasérie)

Médiane

Soit la série statistique : {x1, x2, . . . , xr , . . . , xn}

On considère la série ordonnée :{x(1), x(2), . . . , x(s), . . . , x(n)}

La médiane vaut :

– si n = 2p +1, x(p+1)

– si n = 2p, x(p)+x(p+1)

2

Page 20: Thierry Dhorne

Fonction de répartition empirique et médiane

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 20 / 25

✉ On peut visualiser la médiane sur la fonction de répartitionempirique

0.00.2

0.40.6

0.81.0

Fn(x)

Page 21: Thierry Dhorne

Moyenne

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 21 / 25

✉ c’est l’indicateur le plus classiquement utilisé

très facile à calculer

il correspond au barycentre (point d’équilibre de la série)

Moyenne

x̄ =

1

n

n∑

r=1

xr =

∑Ii=1

ni xi∑I

i=1ni

Page 22: Thierry Dhorne

Autres indicateurs de position

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 22 / 25

✉ on utilise d’autres indicateurs de position pour identifierdes positions non centrales de la série

proportions particulières

extrémités

....

Page 23: Thierry Dhorne

Autres indicateurs de positionValeurs extrêmes

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 23 / 25

✉ il s’agit tout simplement

– du minimum– du maximum

de la série

Page 24: Thierry Dhorne

Autres indicateurs de positionQuartiles

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 24 / 25

✉ on généralise la médiane qui coupe en deux la série

aux quartiles qui coupent en quatre

il y a donc 3 quartiles

⋆ dont le deuxième est la médiane✉ on considère donc le premier et le dernier (troisième

quartile)

le calcul exact des quartiles se fait par interpolation linéaire

Page 25: Thierry Dhorne

Autres indicateurs de positionDéciles

❖ Méthoded’analyse

Explorationunivariée d’unevariable qualitative

Explorationunivariée d’unevariable quantitativeentière❖ Présentation desdonnées

❖ Étude exploratoire

❖ Diagramme enbâtons❖ Fonction derépartition empirique

❖ Résuménumérique

❖ Tendance centrale

❖ Mode

❖ Médiane

❖ Moyenne

❖ Autres indicateursde position

❖ Valeurs extrêmes

❖ Quartiles

❖ Déciles

T. Dhorne - www.dhorne.education | EMIA - Saint-Cyr Coëtquidan | 2015-2016 | 25 / 25

✉ on « coupe » la série en 10✉ on s’intéresse essentiellement aux déciles extrêmes

premier et dernier décile

pour avoir une idée de l’extension de la série