Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction...

31
IPLOTS Brit Anne-Cécile Dufeil Elodie Emzivat Audrey

Transcript of Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction...

Page 1: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

IPLOTS

Brit Anne-Cécile

Dufeil Elodie

Emzivat Audrey

Page 2: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

INTRODUCTION Les représentations de données sur R :

La fonction plot: fonction générique de R qui permet de représenter tous les types de données

Exemple : plot(maxO3~T15, data=ozone)

15 20 25 30 35

40

60

80

10

01

20

14

01

60

T15

ma

xO3

2

Page 3: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

INTRODUCTION Les représentations de données sur R :

La fonction plot: fonction générique de R qui permet de représenter tous les types de données

Est Nord Ouest Sud

40

60

80

10

01

20

14

01

60

Exemple : boxplot(maxO3~vent, data=ozone)

3

Page 4: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

INTRODUCTION Les représentations de données sur R :

La fonction plot: fonction générique de R qui permet de représenter tous les types de données.

Avec cette fonction, on peut : Modifier la taille et la forme des points Ajouter des lignes au graphique, des symboles,

des légendes …

Il existe d’autres packages avec des fonctions pour représenter les données : iplots : permet de créer des graphiques interactifs.

4

Page 5: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

SOMMAIRE

Présentation du package iplots Les graphiques et les différentes options Application sur un jeu de données Conclusion

5

Page 6: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

Quand ? En 2003, au 3e congrès international

‘Distributed Statistical Computing’ (DSC 2003)

puis en 2006 à la conférence useR!2006, pour la version 2.0

Où ? RoSuDa, Université d’Augsburg en Allemagne

(Dept. Of Computer Oriented Statistics and Data Analysis)

Qui ? Simon Urbanek

Martin Theus

Tobias Wichtrey

Alex Gouberman

• Création

6

I. PRÉSENTATION GÉNÉRALE DU PACKAGE

Page 7: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

7

I. PRÉSENTATION GÉNÉRALE DU PACKAGE

• Fonctionnement général

iplots fournit des graphes interactifs liés entre eux

Tous les graphes issus d’une même jeu de données sont automatiquement liés

Un groupe identifié par une couleur dans un graphe est mis en évidence par la même couleur dans tous les autres graphes

Page 8: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

iplots fournit des graphes interactifs liés entre eux

Tous les graphes issus d’une même jeu de données sont automatiquement liés

Un groupe identifié par une couleur dans un graphe est mis en évidence par la même couleur dans tous les autres graphes

• Fonctionnement général

8

I. PRÉSENTATION GÉNÉRALE DU PACKAGE

Page 9: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

II - LES GRAPHIQUES ET

LES DIFFÉRENTES

OPTIONS

Page 10: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

REPRÉSENTATION D’UNE VARIABLE QUANTITATIVE

Histogramme : > ihist(association)

De nombreuses actions sont possibles en utilisant le clique-bouton, pour une utilisation simplifiée

10

Page 11: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

REPRÉSENTATION D’UNE VARIABLE QUANTITATIVE

Estimateur à noyau : > iplot(density(sand[,"association"]))

11

Page 12: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

REPRÉSENTATION D’UNE VARIABLE QUALITATIVEDiagramme en barres (compte les effectifs pour chaque modalité)

>ibar(Sexe)

12

Page 13: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

REPRÉSENTATION DE DEUX VARIABLES QUALITATIVES

Représentation d’un nuage de points :

>iplot(appetance,attrait)

13

Page 14: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

VARIABLE QUANTITATIVE EN FONCTION D’UNE VARIABLE QUALITATIVE

Graphique avec une boîte à moustache par modalité de la variable qualitative >ibox(Sepal.length,species)

14

Page 15: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

Graphique qui permet de voir toutes les associations des modalités de plusieurs variables qualitatives.>ipcp(Produit,association)#Interactive parallel coordinates plot

REPRÉSENTATION DE VARIABLES QUANTITATIVES ET QUALITATIVES

15

Page 16: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

REPRÉSENTATION DE DEUX VARIABLES

16

Page 17: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

REPRÉSENTATION DE PLUSIEURS VARIABLES QUALITATIVES

On observe l’association de 2 variables qualitatives, à chaque intersection, on trouve les individus qui possèdent les 2 modalités. Imosaic(Produit,achat)

Observation des données Données attendues

17

Page 18: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

En sélectionnant Multiple barcharts on peut obtenir un graphique avec à la fois les résultats attendus et observés

>Multiple barcharts

REPRÉSENTATION DE PLUSIEURS VARIABLES

18

Page 19: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

Comment modifier les graphiques ? iplot.opt() iplot.opt(..., plot=iplot.cur()) Arguments : … paramètres à modifier, plot : graphique qui va subir les

modifications

Que peut-on modifier ?• title : titre du graphique (attention le titre n’apparaît pas sur le graphique)• xlim, ylim : limites des axes• col : couleur • ptDiam : diamètre des points• anchor ou binw : modification de la longueur et la largeur d’un

histogramme• Trier les variables qualitatives en fonction de leur effectif (histogramme)

Voir l’aide de la fonction iplot.opt()

Remarque : la plupart des modifications peuvent être effectuées à partir de l’onglet « View »

GESTION COURANTE DES GRAPHIQUES

19

Page 20: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

Changer la forme de l'histogramme >ihist(association)>iplot.opt(anchor=1, binw=1,title= "histogramme association sandwich")

Exemples :

Modifier la taille des points >iplot(appetance,attrait)>iplot.opt(ptDiam=10)

GESTION COURANTE DES GRAPHIQUES

20

Page 21: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

Plusieurs façons de procéder :

Sélectionner l’onglet« View », puis « Set Colors  CB» ou « Rainbow»

Appliquer une couleur par produit de manière permanente >ibar(Produit)>iset.col(Produit) #iset.brush(Produit)>iplot.opt(title="essai fonction ") Autre façon d’attribuer une couleur à chaque produit>ibar(Produit)>iplot.opt(col=unclass(Produit),title="Analyse sensorielle sandwich")

GESTION COURANTE DES GRAPHIQUES : AJOUTER DE LA

COULEUR

21

Page 22: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

Interaction entre les graphiques Appel des graphiques à l’aide de l’onglet « Windows »

GESTION COURANTE DES GRAPHIQUES : AJOUTER DE LA COULEUR

22

Page 23: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

Plusieurs façons de procéder : Peut aussi se faire à l’aide de la souris en sélectionnant simplement ce

qui nous intéresse

Sélectionner les notes supérieures à 5 (attention, ne pas oublier d’enlever les couleurs )>iset.select(association >= 5)

Elements concernant la sélection Quel est le pourcentage d'éléments sélectionnés?

>sum(sign(iset.selected()))/length(association)

0,8819 : il y a 88% des notes concernant la variable association qui sont > à 5

Tous les graphiques associés à cette sélection vont l’afficher

GESTION COURANTE DES GRAPHIQUES : SELECTIONNER

23

Page 24: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

24

Page 25: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

AJOUT D’INFORMATION SUR UN GRAPHIQUE : IOBJECTS

iabline colorier les lignes

Créer le scatterplot et y ajouter une droite> iplot(association, attrait)Droite de régression> z <- lm(association ~ attrait, data = sand)> iabline(z,col="blue")

ilines

Créer le scatterplot et y ajouter une droite> iplot(association,attrait)Utiliser la fonction lowess> m<- lowess(attrait, association)> ilines(m,col=blue)

25

Page 26: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

AUTRES FONCTIONS :

iplot.cur() Donne l’indice du graphique sur lequel on travaille

iplot.data()

Donne les données du graphique

iplot.list() Donne la liste de tous les graphiques

iplot.off() Ferme les graphiques qui sont ouverts

iplot.opt() Change les paramètres du graphique correspondant

iplot.prev()

Donne l’indice du tableau précédent

iplot.set() Sélectionne le graphique sur lequel on souhaite travailler

26

Page 27: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

III -APPLICATION SUR UN JEU DE

DONNÉES

Page 28: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

APPLICATION : SANDWISHCharger les packages : rJava puis Iplots

Attach (sand) : The database is attached to the R search path. This means that the database is searched by R when evaluating a variable, so objects in the database can be accessed by simply giving their names.

Importation du jeu de donnée>sand=read.table("sand.txt",header=T, dec=".", sep="\t")>summary(sand)

Recoder les variables>sand[,"Produit"]=as.factor(sand[,"Produit"])>sand[,"Juge"]=as.factor(sand[,"Juge"])>sand[,"Seance"]=as.factor(sand[,"Seance"])>sand[,"Ordre"]=as.factor(sand[,"Ordre"])>summary(sand)>names(sand)

Préciser que les variables sont dans la base de donnée R, ensuite il suffit de les appeler en donnant leurs noms

>attach(sand)

28

Page 29: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

CONCLUSION

Page 30: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

CONCLUSION

L’intérêt de ce package:

• Outil intéressant pour l’aide à la compréhension des jeux de données

• Complément aux graphes classiques, support visuel intéressant

• Facilité d’utilisation• Variables qualitatives faciles à visualiser

Mais …

• Visualisation des variables quantitatives moins évidente• Certaines fonctions ne fonctionnent pas• Attention aux données manquantes• Exportation des graphiques compliquée

30

Page 31: Brit Anne-Cécile Dufeil Elodie Emzivat Audrey. Les représentations de données sur R : La fonction plot: fonction générique de R qui permet de représenter.

BIBLIOGRAPHIE Article dans r-bloggers consacré au package avec

quelques exemples : http://www.r-bloggers.com/interactive-graphics-with-the-iplots-package-from-%E2%80%9Cr-in-action%E2%80%9D/

Site consacré au package iplots, comprenant des exemples et les derniers ajouts :

http://www.rosuda.org/iplots/

Proceedings of the 3rd International Workshop on Distributed Statistical Computing

http://www.ci.tuwien.ac.at/Conferences/DSC-2003/Proceedings/UrbanekTheus.pdf

Présentation du package iplots 2.0 par ses créateurs:

http://www.rosuda.org/iplots/pdfs/iPlots.pdf 31