Feedback du EMEA Hadoop Summit 2013

45
AMSTERDAM 20 et 21 Mars 2013 Vincent Heuschling @vhe74 dimanche 28 avril 13

description

Restrospective du Hadoop Summit 2013 qui s'est tenu à Amsterdam. Slides présentés dans le cadre du HUG France.

Transcript of Feedback du EMEA Hadoop Summit 2013

Page 1: Feedback du EMEA Hadoop Summit 2013

AMSTERDAM 20 et 21 Mars 2013

Vincent Heuschling@vhe74

dimanche 28 avril 13

Page 2: Feedback du EMEA Hadoop Summit 2013

dimanche 28 avril 13

Page 3: Feedback du EMEA Hadoop Summit 2013

dimanche 28 avril 13

Page 4: Feedback du EMEA Hadoop Summit 2013

- Summit

dimanche 28 avril 13

Page 5: Feedback du EMEA Hadoop Summit 2013

- Summit

SQL - Summit ?

dimanche 28 avril 13

Page 6: Feedback du EMEA Hadoop Summit 2013

Communauté

dimanche 28 avril 13

Page 7: Feedback du EMEA Hadoop Summit 2013

500 visiteurs

~ 100 interrogés par

75 % sont engagés dans des projets

41 % ont une stratégie sur les données

34 % ont une plateforme Hadoop en production

43 % expérimentent

Usages : applications marketing, reco, comportemental, optimisation des contenus...

dimanche 28 avril 13

Page 8: Feedback du EMEA Hadoop Summit 2013

4 Tracks

Applied Hadoop

Operating Hadoop

Hadoop Futures

Integrating Hadoop

dimanche 28 avril 13

Page 9: Feedback du EMEA Hadoop Summit 2013

Past Present and Future of Data Processing in Apache Hadoop

Innovations in Apache Hadoop MapReduce Pig Hive for Improving Query Performance

Enterprise integration of Disruptive Technologies (HSBC)

Hadoop Operations at LinkedIn

Analyzing 1.4 Trillion events with Hadoop

Scaling Big Data Mining Infrastructure Twitter Experience

Crowd-Sourced Intelligence Built into Search over Hadoop

dimanche 28 avril 13

Page 10: Feedback du EMEA Hadoop Summit 2013

FUTURE of Hadoop

dimanche 28 avril 13

Page 11: Feedback du EMEA Hadoop Summit 2013

Map/Reduce vs YARN

dimanche 28 avril 13

Page 12: Feedback du EMEA Hadoop Summit 2013

Map/Reduce vs YARN

dimanche 28 avril 13

Page 13: Feedback du EMEA Hadoop Summit 2013

Apache TEZ

dimanche 28 avril 13

Page 14: Feedback du EMEA Hadoop Summit 2013

Pig/Hive : MR vs TEZ

dimanche 28 avril 13

Page 15: Feedback du EMEA Hadoop Summit 2013

Innovations in Apache Hadoop MapReduce Pig Hive

for Improving Query

dimanche 28 avril 13

Page 16: Feedback du EMEA Hadoop Summit 2013

Enterprise Integration of Disruptive Technologies

dimanche 28 avril 13

Page 17: Feedback du EMEA Hadoop Summit 2013

dimanche 28 avril 13

Page 18: Feedback du EMEA Hadoop Summit 2013

Nouvelle approche1 plateforme

Données non structurées

Vues multiples

Générateur de changement

Scalabilité

Economie

Outil pour le business et les Techs

dimanche 28 avril 13

Page 19: Feedback du EMEA Hadoop Summit 2013

dimanche 28 avril 13

Page 20: Feedback du EMEA Hadoop Summit 2013

dimanche 28 avril 13

Page 21: Feedback du EMEA Hadoop Summit 2013

dimanche 28 avril 13

Page 22: Feedback du EMEA Hadoop Summit 2013

dimanche 28 avril 13

Page 23: Feedback du EMEA Hadoop Summit 2013

Economie : coûts / 10

Hadoop devient un outil stratégique

Pb d’organisation : 1 stack pour le stockage et les applications Requiert des profils généralistes

dimanche 28 avril 13

Page 24: Feedback du EMEA Hadoop Summit 2013

Hadoop Operations@Linkedin

dimanche 28 avril 13

Page 25: Feedback du EMEA Hadoop Summit 2013

“Hadoop is not a developer problem; it’s an operations problem.”

Hadoop vendor ex-employee

dimanche 28 avril 13

Page 26: Feedback du EMEA Hadoop Summit 2013

2009 : 20 nodes 20 users pas de monitoring

dimanche 28 avril 13

Page 27: Feedback du EMEA Hadoop Summit 2013

2009 : 20 nodes 20 users pas de monitoring

2013 : 5000 Nodes in ~10 grids Full configuration management Full monitoring – Security Capacity scheduler with SLA ~700 users 5 dedicated operations staff members

dimanche 28 avril 13

Page 28: Feedback du EMEA Hadoop Summit 2013

Scheduling

dimanche 28 avril 13

Page 29: Feedback du EMEA Hadoop Summit 2013

Hadoop != Grid

dimanche 28 avril 13

Page 30: Feedback du EMEA Hadoop Summit 2013

Autres :

1 seul benchmark : « Production code »

Outils de distribution

Gestion des utilisateurs

Tout sera rapidement open-sourcé !

dimanche 28 avril 13

Page 31: Feedback du EMEA Hadoop Summit 2013

Analyzing 1.4 Trillion events with Hadoop(comscore)

dimanche 28 avril 13

Page 32: Feedback du EMEA Hadoop Summit 2013

500 Milliards d’enregistrements par mois

dimanche 28 avril 13

Page 33: Feedback du EMEA Hadoop Summit 2013

Java Map-Reduce quotidien sur 92 jours de données

au début 170 Milliards d’enregistrements à trier et ventiler

dimanche 28 avril 13

Page 34: Feedback du EMEA Hadoop Summit 2013

Java Map-Reduce quotidien sur 92 jours de données

au début 170 Milliards d’enregistrements à trier et ventiler

.... très rapidement 30h / jour

dimanche 28 avril 13

Page 35: Feedback du EMEA Hadoop Summit 2013

Java Map-Reduce quotidien sur 92 jours de données

au début 170 Milliards d’enregistrements à trier et ventiler

.... très rapidement 30h / jour

Solutions : - Partitionner - Trier les données en amont

dimanche 28 avril 13

Page 36: Feedback du EMEA Hadoop Summit 2013

Java Map-Reduce quotidien sur 92 jours de données

au début 170 Milliards d’enregistrements à trier et ventiler

.... très rapidement 30h / jour

Solutions : - Partitionner - Trier les données en amont

... Job exécutés en 3 h !!!

dimanche 28 avril 13

Page 37: Feedback du EMEA Hadoop Summit 2013

120 Nodes (3000 cores / 6TB memory / 2 PB de disques)

MAPR M5 2.1.0

SYNCSORT pour le tri et le loading

dimanche 28 avril 13

Page 38: Feedback du EMEA Hadoop Summit 2013

Scaling Big Data Mining Infrastructure

Twitter Experience

dimanche 28 avril 13

Page 39: Feedback du EMEA Hadoop Summit 2013

Passés de 60 nodes / 6 analystes

à

~10000 nodes et ~100 analystes

dimanche 28 avril 13

Page 40: Feedback du EMEA Hadoop Summit 2013

Beaucoup de temps passé à - Collecter - Déplacer - Organiser

Pour logger les données : Flume, Scribe, etc...

aujourd’hui : Thrift, AVRO, PROTOBUF

Construction d’un DAL au dessus de HCatalog

dimanche 28 avril 13

Page 41: Feedback du EMEA Hadoop Summit 2013

Crowd-Sourced Intelligence Built into Search over

Hadoop

dimanche 28 avril 13

Page 42: Feedback du EMEA Hadoop Summit 2013

Interractions with Big-DataHDFS Command Line System Administrator

Key-Value store Query

Engineer

IndexKeyword search

End User

dimanche 28 avril 13

Page 43: Feedback du EMEA Hadoop Summit 2013

Interractions with Big-DataHDFS Command Line System Administrator

Key-Value store Query

Engineer

IndexKeyword search

End User

Reflected Intelligence

dimanche 28 avril 13

Page 44: Feedback du EMEA Hadoop Summit 2013

Pour aller plus loin !

http://hadoopsummit.org/amsterdam/schedule/

http://fr.slideshare.net/Hadoop_Summit/

http://www.youtube.com/user/HadoopSummit

dimanche 28 avril 13

Page 45: Feedback du EMEA Hadoop Summit 2013

Merci !

Vincent HeuschlingGsm : 06 61 88 76 71

Email : [email protected] : http://www.affini-tech.com

Twitter : @affinitech & @vhe74

dimanche 28 avril 13