Valtech - Big Data en action

Post on 17-Jul-2015

725 views 0 download

Transcript of Valtech - Big Data en action

2

Sommaire!

•  Qu’est-ce que l’« Open Data Scientist »?!•  Cas d’étude « eReputation »!•  Cas d’étude « Recommandation »!•  Cas d’étude « Molécules »!•  Cas d’étude « Velib » !•  Conclusion!!

Open!Data Scientist!

Géraud Dugé De Bernonville!‎Architecte Big Data!‎Valtech Toulouse!

Pierre Yves Koenig!‎Data Scientist!‎Valtech Toulouse!

3

Big!Buzz!

4

Big Data!Buzz!

«  Big  data  is  like  teenage  sex:    everyone  talks  about  it,    

nobody  really  knows  how  to  do  it,    everyone  thinks  everyone  else  is  doing  it,    so  everyone  claims  they  are  doing  it.  »  

Dan  Ariely  

10,2 M€ Reste

du Monde !

36 M€ USA !

36,3 M€ EUROPE DU SUD !

5

Big Data!Quelles solutions?!

6

Nouveaux outils pour l’organisation des données!•  « Schema-less »!•  Tolérants aux pannes!•  Disponibles!•  Distribués!!

Big Data!NoSQL!

7

Temps réel!!Vs.!!Batch!!!

Big Data!Architectures!

8

•  Liste non exhaustive !!!!

•  Chaque jour de nouveaux acteurs !

Big Data!En perpétuelle évolution!

9

Répondre!à une problématique!

10

Pour cela Valtech propose une démarche itérative!! •  Data Architecte / Architecte SI!

•  Rôle prédominant du « Data Scientist »!

Big Data!Démarche Valtech!

10,2 M€ Reste

du Monde !

36 M€ USA !

36,3 M€ EUROPE DU SUD !

65,1 M€ EUROPE DU NORD!

11

“Data Scientist: The Sexiest Job of the 21st”!

Open!Data Scientist!

“Data  Scien@st’s  Salary:  $150,000  –  $250,000  a  year”  

fortune.com  

12

Un domaine pluri-disciplinaire!

Data!Science!

13

Data Science!Dangers !!

14

Utilisation de KNIME pour le prototypage, la fouille de données!!Déclinaison vers des implémentations Big Data adaptées!

Big Data!Du POC à la mise en œuvre!

10,2 M€ Reste

du Monde !

36 M€ USA !

36,3 M€ EUROPE DU SUD !

65,1 M€ EUROPE DU NORD!

15

« Elle est diffusée de manière structurée selon une  méthodologie et une licence ouverte garantissant son libre accès et sa réutilisation par tous, sans restriction technique, juridique ou financière. »!

Cas d’utilisation!Open Data!

16

•  Source d’innovation!

•  Tranquilien (SNCF)!•  Paris’Moov!•  …!

•  Concours!

Enjeux!Open Data!

17

Data Scientist!ToolBox!

18

Description!

ToolBox!KNIME!

19

Description!

ToolBox!Tulip!

20

Démarche!Data Scientist!

21

• Collecte de l’information!• Pré-traitement!• Traitement!• Regroupement!• Présentation!!

Démarche!Case Study!

Case Study :!•  eReputation!•  Recommandation!•  Molecules!•  Velib!

22

Case study eReputation!

65,1 M€ EUROPE DU NORD!

23

• Problématique!• Collecte d’information!• Pré-traitement!• Traitement!• Regroupement!• Présentation!!

Case study!eReputation!

24

Du POC au Big Data!eReputation!

•  Cloud Amazon!•  Elastic MapReduce!•  DynamoDB!•  Hadoop et Mahout!!!

25

Du POC au Big Data!eReputation!

26

Case study Recommandation!

27

Case study!Recommandation!

• Problématique!• Collecte d’information!• Pré-traitement!• Traitement!• Regroupement!• Présentation!!

28

Case study Molécules!

29

Case study!Molécules!

• Problématique!• Collecte d’information!• Pré-traitement!• Traitement!• Regroupement!• Présentation / Exploration!!

30

Contexte!Problématique!

31

Analyse et Structure de la donnée!Pré traitement des données !

32

Case study!Molécules!

Phase de traitement!!Choix du type de distance :!•  euclidienne!•  cosinus !•  Tanimoto!•  …!!

33

Réseau de molécules!Filtres !

34

Visualisation du réseau!Exploration !

35

Case study!Molécules!

Dessin de graphe : !Algrithme force-resort!

36

Case study!Molécules!

Dessin de graphe : !Treemap circulaire!

37

Exploration!Par voisinage !

38

Case study!Molécules!

Demo!!

39

Case study !Velib!

40

Case study!Velib’!

•  Problématique!•  Collecte d’information!•  Pré-traitement!•  Traitement!•  Regroupement!•  Présentation!•  Définition d’un modèle !

prédictif!

41

Case study!Velib’!

Défini4on  d’un  model  prédic4f  •  Ajout  des  informa4ons  sur  la  météo  •  Evalua4on    

42

Pour conclure!

43

Positionnement de Valtech :!

•  Brainstormings pour identifier les cas d’utilisations!

•  Conseil en Architecture Big Data / Lambda !

•  Expertise NoSQL, Hadoop, Storm, Spark!

•  Analyse de données / Data Mining!

•  Formations Big Data, NoSQL, Hadoop!

Pour aller plus loin!Positionnement Valtech!

44

Petit-Déjeuner Bug Data et NoSQL le mardi 28 avril :!

Valtech et Basho vous présenteront les différents modèles de base de donnée ainsi qu’un retour d’expérience sur la gestion en NoSQL des patients du système de santé anglais!

!Ce séminaire permettra d’aborder les points suivants :!•  Présentation des offres Big Data Valtech!•  Présentation des différentes modèles de bases de

données NoSQL!•  Le cas National Health System!•  Présentation de Riak!

Pour aller plus loin!Prochainement Valtech!

45

Picto  sec)on  

Merci!de votre attention!