Traitement et visualisation de données...

64
Université Paris-Est Marne-la-Vallée 29/09/2016 Traitement et visualisation de données ouvertes Philippe Gambette

Transcript of Traitement et visualisation de données...

Page 1: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Université Paris-Est Marne-la-Vallée29/09/2016

Traitement et visualisationde données ouvertes

Philippe Gambette

Page 2: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Plan

Source: Design vector designed by Freepik

L’ère des données

Traitement etvisualisationdes données

Quelques outilspratiques

Page 3: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

La révolution des données

Source : http://3.bp.blogspot.com/-Z8EYq8M8_AM/UGN_yXYbotI/AAAAAAAABqI/g_3rB9vg-xk/s400/airline-evolution.png

Révolutioninformatique

Révolutioninternet

Révolutionde la donnée

3° étape de la révolution numérique ?

Page 4: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

La révolution des données

« data scientist » : informatique, mathématiques, stratégie

Révolutioninformatique

Révolutioninternet

Révolutionde la donnée

Source : http://3.bp.blogspot.com/-Z8EYq8M8_AM/UGN_yXYbotI/AAAAAAAABqI/g_3rB9vg-xk/s400/airline-evolution.png

Page 5: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Données ouvertes, «open data»

Des données de plus en plus :

• accessibles

• réutilisables

• stockables

• ... traitables !

Source : http://www.economie.gouv.fr/files/eco_numerique2.png

Page 6: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Données ouvertes, «open data»

Des données de plus en plus :

• accessibles

• réutilisables

• stockables

• ... traitables !

Henri Verdier, Chief Data Officer français,directeur d’Etalab (https://www.etalab.gouv.fr/)

Source : http://www.economie.gouv.fr/files/eco_numerique2.png

Page 7: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Données géographiques

Des données sur :

• Google Maps : « mashups »

• Open Street Map

Page 8: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Données géographiques

Des données sur :

• Google Maps : « mashups »

• Open Street Map

• Base Adresse Nationale (en open data) :http://adresse.data.gouv.fr/

Page 9: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Données géographiques

Page 10: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Géolocalisation de Lisbonne par Pessoa

Guide touristique écrit en 1925par Fernando Pessoa, en anglais

http://lisbon.pessoa.free.fr

Page 11: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Géolocalisation de Lisbonne par Pessoa

Géolocalisation manuelle Google Maps :

Page 12: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Géolocalisation de Lisbonne par Pessoa

Géolocalisation automatique Google Maps :

Page 13: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Géolocalisation de Lisbonne par Pessoa

Géolocalisation automatique Google Maps :

Page 14: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Géolocalisation de Lisbonne par Pessoa

Géolocalisation automatique Google Maps :

Base de donnéesMySQL ; PHP ;Javascript

Page 15: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Diagramme de Voronoi des McDos parisiens

http://gambette.blogspot.fr/2006/10/mcdonalds-macdo-mac-donalds-et-vorono.html

Page 16: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Diagramme de Voronoi des McDos parisiens

http://gambette.blogspot.fr/2006/10/mcdonalds-macdo-mac-donalds-et-vorono.html

Applet

Java

Page 17: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Diagramme de Voronoi des McDos parisiens

http://gambette.blogspot.fr/2006/10/mcdonalds-macdo-mac-donalds-et-vorono.html

Page 18: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Diagramme de Voronoi des McDos français

http://www.comeetie.fr/map_mcdofr.php?

Code

Matlab

Page 19: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

La France en train depuis Paris

http://train.gambette.com

Strasbourg

Colmar

Belfort

NiceMarseille

Montpellier

ToulonPerpignan

Toulouse

Foix

Tarbes

Bordeaux

La Rochelle

Nantes

Rennes

Quimper

Saint-LôCaen

Rouen

Metz

Lille

Amiens

Lyon

Saint-BrieucParis

Grenoble

Pau

1h

2h

3h

Charleville-Mézières

Distances réelles

Besançon

Page 20: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

La France en train depuis Paris

http://train.gambette.com

Strasbourg

Colmar

Besançon Belfort

Nice

Marseille

Montpellier

Toulon

Perpignan

Toulouse

Foix

Tarbes

Bordeaux

La Rochelle

Nantes

RennesQuimper

Saint-LôCaen

Rouen

Metz

LilleAmiens

Lyon

Saint-BrieucParis

Grenoble

Pau

1h

2h

3h

Charleville-Mézières

Distances proportionnelles

aux durées de voyage en train

en avril 2006

Distances réelles

Prise en compte du TGV Est

CodeDelphi

Page 21: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

D’autres traitements de données géographiques

http://www.comeetie.fr/galerie.php?

Page 22: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Données gastronomiques

Page 23: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

Photo Frédérique Voisin-Demery, https://flic.kr/p/dtUFN8

Page 24: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Page 25: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

enveloppe convexe

Page 26: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 27: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 28: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 29: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 30: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 31: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 32: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

50 100 150 200 250 300 3500

20406080

100120140160180

lait+eau

farine Polygone des ingrédients des crêpes, pour 1 oeuf

Marche de Jarvis

Page 33: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Visualisation de données de recettes de crêpes

http://gambette.blogspot.fr/2008/03/cuisine-polydre-des-ingrdients-et.html

0 50 100 150 200 250 300 350

0

20

40

60

80

100

120

140

160

180

Page 34: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Données de moteursde recherche

Page 35: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fight!

http://www.googlefight.fr/

Page 36: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fight!

http://www.googlefight.fr/mathematiques-vs-informatique.php

Page 37: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fight!

http://www.googlefight.fr/mathematiques-vs-informatique.php

Attention à la fiabilité !http://blog.veronis.fr/2005/01/web-comptes-bidons-chez-google.html?m=0

Page 38: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fight pour l’orthographe ?

http://www.googlefight.fr/trafic-vs-traffic.php

Page 39: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fights : dangers !

https://xkcd.com/369/

Page 40: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fights : dangers !

http://gambette.blogspot.fr/2008/01/danger-accidents-mortels.html

Page 41: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fights : dangers !

http://gambette.blogspot.fr/2008/01/danger-accidents-mortels.html

CodeDelphi

Page 42: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fights : dangers !

http://gambette.blogspot.fr/2008/01/danger-accidents-mortels.html

Page 43: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fights : années

http://gambette.blogspot.fr/2006/11/la-naissance-du-web-daprs-les-moteurs.html

1 000 000 000/n(x), où n(x) est le nombre de résultats pour l’année x

Page 44: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fights : Miss Google 2010

http://gambette.blogspot.fr/2010/02/miss-google-2010.html

Page 45: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Google Fights : Miss Google 2010

http://gambette.blogspot.fr/2010/02/miss-google-2010.html

Page 46: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Données en arbres

Page 47: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Vote des députés

http://gambette.blogspot.fr/2007/01/arbre-phylogntique-des-dputs.htmlhttp://gambette.blogspot.fr/2007/02/la-puce-adn-des-dputs.html

«Puce ADN» des proximités de vote

Arbre des proximités de vote(2004-2007)

Page 48: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Vote des députés

http://gambette.blogspot.fr/2007/05/positionnement-des-dputs-udf.html

CodeDelphi, code Python

Page 49: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Nuage arboré du blog de Jean Véronis

http://gambette.blogspot.fr/2013/10/hommage-en-nuage.html

Page 50: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Arbre phylogénétique d'un ensemble d'espèces :

• Les classer en fonction de caractères communs

• Décrire leur évolution

D'après Lamarck (1815) Histoire

naturelle des animaux sans

vertèbres

Darwin (1837) Carnet B

Arbres phylogénétiques et arbres de mots

Page 51: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

51

Données sur les feuilles

ESPÈCES

Séquences ADN

MOTS

Position des mots

Arbres phylogénétiques et arbres de mots

Page 52: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

52

Données sur les feuilles

Distances entre les feuilles

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A B C DA 0 2 5 6B 2 0 5 6C 5 5 0 3D 6 6 3 0

Arbres phylogénétiques et arbres de mots

Page 53: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

53

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A B C DA 0 2 5 6B 2 0 5 6C 5 5 0 3D 6 6 3 0

A

B

classification hiérarchique ascendante

Arbres phylogénétiques et arbres de mots

Page 54: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

54

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A+B C DA+B 0 5 6 C 5 0 3 D 6 3 0

A

B

classification hiérarchique ascendante

Arbres phylogénétiques et arbres de mots

Page 55: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

55

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A+B C DA+B 0 5 6 C 5 0 3 D 6 3 0

A

B

classification hiérarchique ascendante

C

D

Arbres phylogénétiques et arbres de mots

Page 56: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

56

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A+B C+DA+B 0 5,5C+D 5,5 0

A

B

classification hiérarchique ascendante

C

D

Arbres phylogénétiques et arbres de mots

Page 57: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

57

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A+B C+DA+B 0 5,5C+D 5,5 0

A

B

classification hiérarchique ascendante

C

D

Arbres phylogénétiques et arbres de mots

Page 58: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

58

Données sur les feuilles

Distances entre les feuilles

Arbre

ESPÈCES

Séquences ADN

Distances fondées sur la différence entre les

deux séquences (mutations, insertions,

délétions)

MOTS

Position des mots

Distances fondées sur la cooccurrence entre

les deux mots A B C DA 0 2 5 6B 2 0 5 6C 5 5 0 3D 6 6 3 0

A

B

C

D

classification hiérarchique ascendante

Arbres phylogénétiques et arbres de mots

Page 59: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Outils pratiques

Page 60: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

• extension iMacros de Firefox

Pour récupérer un ensemble de pages web

• expressions régulières

Pour extraire de l’information ou la changer de format

Dans la fonction rechercher/remplacer d’un éditeur de texteou dans un script Python

• bibliothèques Javascript D3.js, Google Charts, Charts.js, etc.

Pour visualiser les données de manière interactive sur le webhttp://www.sitepoint.com/15-best-javascript-charting-libraries/

Quelques outils pratiques

Page 61: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

• R : orienté statistiques

- https://www.r-project.org/- http://r4ds.had.co.nz/ (R for data science)

• Javascript : orienté web (interactions avec l’utilisateur)

- http://www.w3schools.com/js/

• Python : pour des scripts de test rapide en particulier

- https://www.python.org/

• Java : pour des outils en production

- https://www.java.com/fr/

Quelques langages utiles

Page 62: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Les expressions régulières selon xkcd

https://xkcd.com/208/

Page 63: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

Bibliothèque Javascript d3.js

http://d3js.org/

Page 64: Traitement et visualisation de données ouvertesigm.univ-mlv.fr/~gambette/20160929-Cours-ISI.pdf2016/09/29  · La révolution des données « data scientist » : informatique, mathématiques,

• Data Job 2016 – jeudi 10 novembre 2016 à Paris :http://datajob.fr/(entrée gratuite pour étudiants moins de 28 ans)

• Hackathons à Paris :https://www.eventbrite.fr/d/france--paris/hackathon/

• Blog Je véronise :http://gambette.blogspot.com/

• Les interventions d’Henri Verdier sur l’open data :https://www.youtube.com/results?search_query=Henri+Verdier

• Actualités de la révolution des données :http://radar.oreilly.com/data

Pour continuer à jouer avec les données