Download - Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

Transcript
Page 1: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 1

Graphisme en statistique : quelques bases …

Page 2: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 2

Motivation et buts du cours

MotivationLe graphique est un élément clef de la communication des résultats d’uneanalyse statistique. La plupart des observations que l’on peut faire sur des

séries de données peuvent en général être illustrées sur la base degraphiques et les “clients” de la statistique sont de plus en plus

demandeurs de ce type de résultat.

Buts du cours• Présenter les différents types de graphiques statistique de base les plus

courament utilisés.• Montrer comment les utiliser, les combiner et les mettre en oeuvre dans

différents software (S-Plus et SPSS).• Quelques exemples de graphiques dynamiques (treillis graphs, XYZ…)• Donner quelques recommandations dans la réalisation de graphiques

statistiques.• Donner quelques exemples d’horreurs produites par les logiciels…

clem
Text Box
Page 3: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 3

Graphiques de base

Il existe quelques graphiques génériques qui combinésastucieusement forment des outils puissants de présentation

de données et de résultats d’analyses statistique.

• Graphique temporel• Graphe X-Y• Diagramme en points, histogramme, box plot• Diagramme en barre à 2 ou 3 dimensions, diagramme en tarte• Surfaces de réponse, courbes de niveaux• QQ plot, PP plot, PQ plot• Graphe d’autocorrélation

clem
Text Box
Page 4: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 4

Les données

environ.txtEtude de la qualité de l’eau d’une rivière canadienne.Trois variables sont mesurées 1 fois par semaine durant 3 ans.Les variables :• Semaine : no de la semaine• temp : la température de l’eau,• DO : quantité d’oxygène dissoud dans l’eau• secchi : clarté de l’eau• saison : saison de la mesure

Memoire.txtComparaison de cinq méthodes de mémorisation d’une liste de mots. 50

sujets sont regroupés en 5 groupes. Chacun est confronté à la liste de motsavec un méthode donnée.

Variables :• methode : type de méthode de mémorisation utilisée (…)• mots : nombre de mots retenus.

Page 5: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 5

Les données (suite)

stress.txtEnquête sur le lien entre stress, cigarette et mode de transport dans une

entreprise. 144 personnes interrogées.Variables :• stress : niveau de stress (peu, moyen, beaucoup),• trajet : mode de transport domicile-travail (piedvelo, transpcom, voiture),• fumeur : type de fumeur (non, peu, beaucoup)• cigarettes : nombre moyen de cigarettes fumées par jour

pubsplus.txtEtude de la relation entre la publicité faite pour une chaine de magasin et le

chiffre d’affaire dans les 3 région de Belgique (78 magasins).Variables• Region : region du pays (1=bxl, 2=wal, 3=fl)• Regiont : region sous forme texte• Pub : montant (en Euro) utilisé pour la campagne publicitaire• Ventes : ventes (en Euros) durant le mois après la campagne publicitaire

Page 6: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 6

Représentation de la distribution d’UNE variable quantitative

Une variablequantitative

Le choix dépenddu nombre dedonnées

Bon pour n<15 Presque toujours OK OK pour n>50

••

•••

10

00

30

00

50

00

••

•••

10

00

30

00

50

00

10

00

30

00

50

00

••

•••••••••••••••

10

00

30

00

50

00

••

•••••••••••••••

10

00

30

00

50

00

10

00

30

00

50

00

10

00

30

00

50

00

••

••••••••••••••••

••

••••

••

•••

•••••

••

••

•••

••

••

••••••••••••••••

••

••••

••

•••

•••••••

••

•••

••

10

00

30

00

50

00

10

00

30

00

50

00

Dot plot Box plot Histogramme

Page 7: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 7

SECCHI

2.001.88

1.751.63

1.501.38

1.251.13

1.00.88

.75.63

.50.38

Histogramme de la variable Secchi

Données environ.txt

Eff

ectif

40

30

20

10

0

Std. Dev = .35

Mean = .93

N = 148.00

Histogramme : définition et recommandations

Permet de visualiser la forme dela distribution statistique d’unevariable quantitative.

Sa forme peut varier très fort quandon modifie les limites et le nombre declasses.

Prendre un nombre de classes prochede la racine carrée de n

Ne pas utiliser quand n<50

Classes

Nb d’observations par classeou fréquence relative

Page 8: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 8

Box plot : définition et construction

median

Percentile 75

Percentile 25

Maximum (sans outliers)

Minimum (sans outliers)

Outlier (observation < percentile 25 - 1.5 IQR)

010

0020

0030

0040

0050

00

*

••

•••••

•••

••

••••

••••

•••

••

••••

••

••••

••

•••

••

1.5 iqr

Ecart interquartile

1.5 iqr

Le box plot donne une idée de la distribution d’une variable même quand lenombre de données est faible. Il permet de repérer des valeurs aberrantes.

Méthode : ordonner les données et les couper en 4 groupes de 25% d’observations.

25%

25%

25%

25%

Page 9: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 9

QQ plot pour vérifier la normalité de données

Un QQ plot consiste à comparer les données observées aux données que l’ondevrait avoir si elles suivaient « parfaitement » une distribution normale.

Les valeurs observées et « idéales » sont comparées sur un graphe X-Y quidoit montrer une tendance linéaire en cas de normalité.

1/4 1/4 1/4 1/4

x1 x2 x3 x4

observations

z1 z2 z3 z4

Quantiles de la distribution normale

QQ Plot

Ligne de référence

Page 10: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 10

QQ plots typiques

Attention à ce qui est mis en X et Y, cela dépend du software !

Le qqplot peut s’utiliser pour comparer deux distributions quelconques !

Page 11: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 11

Diagramme temporel ou «time sequence plot»

Un diagramme temporel est une représentation graphique d’une série dedonnées quantitatives en fonction de l’ordre dans lequel elles ont été

récoltées. Il permet de visualiser la valeur centrale et la variabilité desdonnées ainsi que des tendances ou cycles.

Données environ.txt

Evolution de la température de la rivière

WEEK

************978981736557494133251791

TEM

P

40

30

20

10

0

Environ.txt

Page 12: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 12

Comparaison des tendances de plusieurs variables

5 30 55 80 105 130 155

7

9

11

13

15

DO

0

10

20

30

TE

MP

DOTEMP

Semaine5 30 55 80 105 130 155

0

10

20

30

DOSECCHITEMP

SemaineEnviron.txt Environ.txt

Page 13: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 13

Graphique d’autocorrélation

Le graphique d ’autocorrélation présente les autocorrélationsd ’ordre 1 à k pour une série de données. C’est un outil qui

permet de vérifier l’indépendance entre les observations de lasérie. Le même type de graphique se réalise pour les

autocorrélations partielles.

Lag

AC

F

0 5 10 15 20

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

Environ.txt, variable temp

Page 14: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 14

UNE variable qualitative : Diagramme en barre et en tarte

peu

moy

bea

Le diagramme en barre ou en tarte (moinsutile) permet de présenter les fréquencesdes niveaux d ’une variable catégorielle.

Attention !!!• Eviter de l ’utiliser pour des variables

quantitatives.• Mettre les niveaux dans l’ordre logique• Se méfier absolument des diagrammes en

barre avec l ’axe des Y ne commencant pas à 0Stress

beaucoupmoyenpeu

Cou

nt

60

55

50

45

40

35

30

25

20

15

10

5

0

Stress

beaucoupmoyenpeu

Cou

nt

60

55

50

45

40

stress.txt, variable stress

Page 15: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 15

DEUX variables quantitatives : graphe X-Y

La graphe XY (ou scatter diagram) permet de visualiser larelation entre deux variables quantitatives

Température

403020100

Oxy

gène

Dis

soud

16

14

12

10

8

6

Environ.txt, variables temp et DO

Page 16: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 16

Une variable quantitative et une qualitative

Adjectifs Rimes addition image intentionMéthode de mémorisation

0

5

10

15

20

Nom

bre

de m

ots

rete

nus

0 5 10 15 20

mots

Adjectifs

Rimes

addition

image

intention

met

hode

Environ.txt, Variable DO par saison

memoire.txt, Variable mots par methode

39393934N =

WinterSummerSpringfall

95%

CI D

O

13.0

12.5

12.0

11.5

11.0

10.5

10.0

9.5

9.08.5

Valeurs centrales et barres d’erreur

Graphe en points par catégoriesBox plot par catégories

Spring Summer fall WinterSEASON

7

9

11

13

15

DO

Graphe en points par catégories

Page 17: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 17

peu

moyenbeaucoup

Stress

Pies show counts

pied_velo

transp_com

voiture

peu

moyenbeaucoup

Stress

B a r s s h o w c o u n t s

pied_velo transp_com voiture

Trajet domicile-bureau

0

25

50

75

Co

un

t

Deux variables qualitatives

stress.txt, Variables trajet et stress

Page 18: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 18

Trois variables quantitatives

Graphe X-Y-Z

Environ.txt, Variable DO, Temp, Secchi

Scatter matrix

DO

0.0

0.5

1.0

1.5

2.0

5 7 9 11 13 15

0.0 0.5 1.0 1.5 2.0

SECCHI

5

7

9

11

13

15

TEMP

0

10

20

30

0 10 20 30

Page 19: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 19

Deux variables quantitatives, une qualitative

0 10 20 30 40 50pub

100

200

300

400

vent

es

Wal

Wal

Wal

Wal

Wal

Bxl

Bxl

Bxl

Wal

Wal

Bxl

Wal

BxlWal

Wal

Wal

Wal

Wal

Wal

Wal

Bxl

Wal

Wal

Wal

Wal

Bxl

WalBxl

Wal

Bxl

Bxl

Wal

Bxl

WalBxl

Bxl

Bxl

Bxl

Bxl

Bx lWal

Bx l

WalWal

Wal

WalFlFl

Fl

Fl Fl

FlFl

Fl

Fl

Fl

Fl FlFl

Fl

Fl

Fl

FlFl

Fl

Fl

Fl

Fl

Fl

Fl FlFl

Fl

Fl

Fl

Fl

0 10 20 30 40 50Publicité

100

200

300

400

vent

es

BxlFlWal

pubsplus.txt, Variables ventes et pub par region

10 30 50

pub

200

400

200

400

200

400

vent

esregiont: Bxl

regiont: Fl

regiont: Wal

Graphique en « treilli »

Page 20: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 20

Trois variables qualitatives

pas peu beaucoup

Fumeur

pied_velo

transp_com

voiture

Tra

jet

do

mic

ile-b

ure

au

paspeu

beaucoup

Fumeur

peumoyen

beaucoup

Stress

Bars show counts

pied_velo transp_com voiture

Trajet domicile-bureau

0

10

20

30

Co

un

t

stress.txt, Variables trajet, fumeur et stress

Page 21: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 21

Trois variables quantitatives et une qualitative

DO

0.5

1.0

1.5

2.0

7 9 11 13 15

0.5 1.0 1.5 2.0

SECCHI

7

9

11

13

15

TEMP

0

10

20

30

0 10 20 30

Environ.txt, Variable DO, Temp, Secchi par saison

Page 22: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 22

Visualisation dynamique 3D (brush and spin)

Page 23: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 23

Courbes de niveau et surfaces de réponse.

0.0 2.5 5.0 7.5 10.0 12.5

ADD1

0

2

4

6

8

10

AD

D2

16.1

19.1 22.2

25.2

28.3

31.3

34.3

37.4

37.4

Courbes de niveau

Les graphiques en courbes de niveaux (contour plot) ou surfacede réponse permettent de représenter une fonction z=f(x,y).Il sont utiles pour représenter par exemple l’équation d’un

modèle estimé ou un fonction à optimiser (ex. fonction devraissemblance ou des moindres carrés…)

Page 24: Graphisme en statistique - step.ipgp.jussieu.frstep.ipgp.jussieu.fr/images/b/bb/Graphisme.pdf · © B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique

© B. Govaerts - Institut de Statistique - UCL STAT2430 – Graphisme en statistique Page 24

Recommandations pour la réalisation de « bons » graphiques

• Dans la présentation d’une série de données essayer de présenter chaqueobservation individuelle au moins une fois (pas uniquement des résumés)

• Mettre tous les résultats importants d’un travail statistique sous forme graphique.• Ne pas trop remplir un graphique, les données doivent être l’information la plus

visible.• Choisir des limites pour les axes les plus proches possibles des intervalles de

variation des données mais inclure le 0 quand c’est nécessaire (comptage).• Choisir des échelles pour les axes qui permettent de visualiser au mieux les données

(ex. Log.). Mettre dans ce cas si possible l’échelle réelle sur les axes.• Quand deux graphiques doivent être comparés, utiliser les mêmes échelles.• Utiliser un ligne ou des référence (ex. Moyenne) si utile. Entourer le graphe par un

rectangle.• Méfiance des graphiques 3D, ils sont difficile à interpréter.• Libellez clairement les axes (avec les unités des variables), donner un titre, mettre

une légende pour les symboles et couleurs.• Attention aux couleurs, elle disparaissent à la reproduction...• Expliquer clairement ce que sont les barres d ’erreurs quand il y en a• La préparation d’un graphique est un travail itératif qui prend du temps et vient

avec l’expérience...