Hadoop prêt pour l'Entreprise

36
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/ Big Data Niort - 20 Mars 2014 Hadoop « Enterprise Ready » Hadoop prêt pour l'entreprise Charly CLAIRMONT Altic [email protected] @egwada

description

Présentation Conférence "Bigdata Niort" Hadoop, prêt pour l’entreprise Après une introduction à Hadoop, son historique et son écosystème, il s’agira de découvrir de quelle manière cette technologie est prête pour l’entreprise. Les utilisations d’Hadoop sont déjà très nombreuses et ce dans de nombreux secteurs ; cette technologie, qui pourrait effrayer, sait se fondre au système d’information des organisations de grâce à sa richesse, et aux types de traitements qui peuvent s’y exécuter. De même, la variété de solutions qui composent le monde Hadoop permet à chacun de démarrer à son rythme pour pouvoir progresser et tirer partie de toutes les données qui nous entourent, les transformant en information et enfin en connaissances. http://www.bigdata-niort.fr/charly-clairmont/

Transcript of Hadoop prêt pour l'Entreprise

Page 1: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Big Data Niort - 20 Mars 2014

Hadoop « Enterprise Ready »

Hadoop prêt pour l'entreprise

Charly [email protected]@egwada

Page 2: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Mon parcours

● Depuis 2004 - ALTIC ● Mes Technos

…...

Page 3: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop User Group France

● Créé en 2012● Plus de 300 membres

● Plus de 100 membres par meetup

● Vimeo (23 vidéos)

● http://vimeo.com/user11241340

● SlideShare (Présentations (29)

● http://fr.slideshare.net/hugfrance

● Twitter● @hugFrance

● #HugFr

● Site● http://hugfrance.fr

Un groupe de plus en plus actif !(messages échangés sur l'année)

Page 4: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop une brève histoire, déjà 10 ans !

2011

Hortonworksfounded

2012 2013

Hadoop 1.0

Hadoop 2.0

HugFrance

Page 5: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop une brève histoire, déjà 10 ans !le détail

● 2004 - Doug Cutting and Mike Cafarella crée Hadoop selon le papier de Google● 2005 Dec. - Nutch réécrit au dessus d'Hadoop - 20 nœuds● 2006 Jan. - Doug Cutting rejoind Yahoo!● 2006 Fev. - Hadoop top project Apache - HDFS & Map / Reduce● 2006 Fev. - Yahoo! adopte Hadoop● 2006 Avr. - Benchmark Tri sur 188 nœuds (10 GB/noeud) en 47.9 heures.● 2006 Mai. - Yahoo! a un cluster de 300 nœuds● 2006 Mai. - Benchmark Tri sur 500 nœuds en 42 heures (meilleures machines)● 2006 Oct. - Hadoop s'exécute sur 600 nœuds● 2006 Dec. - Benchmark Tri

● 20 nœuds : 1,8 heures● 100 nœuds : 3,3 heures● 500 nœuds : 5,2 heures ● 900 nœuds : 7,8 heures

● 2007 Jan. - Hadoop s'exécute sur 900 nœuds● 2007 Apr. - Hadoop s'exécute sur 2 cluster de 1000 nœuds● 2008 Oct. - 10 To de donnée par jour dans un cluster Hadoop● 2009 Mar. - 17 clusters pour un total de 24 000 nœuds● 2009 Avr. - 59 sec. pour trier 500 Go sur 1 400 nœuds et 100 To trié en 173 min. sur 3 400 nœuds● ...● ...● 2012 Jan. 4 - Hadoop 1.0● 2013 Mai. - 1,42 To/min sur 2 100 nœuds (YARN)● 2013 Oct. 16 - Hadoop 2.0

Page 6: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Et en 10 ans son adoption ne fait plus de doute !

Page 7: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop est robuste !

● Stable● Testé - Yahoo! (40 000 nœuds)

● Fiable● Tolérant à la panne

● Flexible● Schéma à la lecture !● Passage à l'échelle

● Économique● Prédictibilité des coûts

Page 8: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop, système d'exploitation de la donnée

Page 9: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HDFS, le système de fichiers distribué

● Distribué

● Passage à l'échelle

● Auto-surveillance pour redistribuer la donnée

● Peu gourmand en bande passante

Page 10: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

MAP / REDUCE, calcul parallèle en toute simplicité

Map Reduce

Key|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|Value

Entées

Key|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|Value

Intermédiaire

Key|Value,Key|Value,Key|Value,Key|Value

Résultat

= un type de collection

Key|Value,Key|Value,Key|Value

Key|Value,Key|Value

Page 11: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

MAP / REDUCE, architecture basique

Input Format

Map Sort Reduce Output Format

Node Node

Partitioner

MapReduce

HDFS (Distributed File System)

Page 12: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HDFS et MAP / REDUCE au cœur d'Hadoop

Page 13: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HDFS, range donc les fichiers

Page 14: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HDFS sait où se situe chacun des blocs de données

Page 15: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

MAP / REDUCE, colle parfaitement à cette distribution de fichiers (1)

Page 16: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

MAP / REDUCE, colle parfaitement à cette distribution de fichiers (2)

Page 17: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HBASE, du NoSQL sur Hadoop

● Distribuée

● Orientée colonnes● Multidimensionnelle

● Haute Disponibilité

● Haute Performance

● Système de stockage

Page 18: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hive, la couche SQL d'Hadoop

HDFS

DDL QueriesBrowsing

MapReduce

MetaStore

Thrift API

SerDeThrift Jute JSON..

ExecutionDriver

Parser

Planner

DB

Web U

I

Optimizer

JDBC ODBCCLI

Page 19: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

PIG, pas de Map / Reduce plutôt du script !

Page 20: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Importer / exporter

NFS● Naviguer dans HDFS

depuis votre explorateur de fichiers

Flume● Collecte de grands

volume de données (logs, événements...) vers Hadoop

WebHDFS● Service REST pour

HDSF

SQOOP● Importer et exporter

vos données rangées dans votre SGBDR

Page 21: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Exploitation

Oozie● Planification de jobs

Ambari● Installation, gestion,

surveillance du cluster Hadoop

Falcon● Gestion cycle de vie

des données● Réplication

Page 22: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Sécurité

Knox● Gestion étendue,

unifiée et globale de la sécurité dans Hadoop

● Supporte l'authentification et la gestion des jetons de sécurité.

KNOX

Page 23: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop 2 ! Plus de types de traitements !

Page 24: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

YARN, transforme Hadoop en OS de la donnée

Page 25: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Grâce à Yahoo! un standard est né

Page 26: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop, un vibrant écosystème

Page 27: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Et c'est bien l'open source qui mène la danse...

Page 28: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Tellement reconnu... qu'il grignote des places... lentement mais sûrement...

Ralph KIMBALL, un des pères du Data Warehousing reconnaît vivement Hadoop comme

● Un excellent complément au data Warehouse

● Une zone de staging et un ETL de grande efficacité

Page 29: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop pourra tout traiter

« Le transactionnel »

Déjà dans toutes les têtes

Surtout celle de Doug CUTTING, le père d'Hadoop !

Page 30: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Pas de bidouillage ! De vrais outils !

Exploitation ETL

Exploration Visualisations

Page 31: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Avec de vrais acteurs !

Page 32: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Des solutions disruptives et structurantes

Couches logicielles Technologies

Traitements massivement parallèles

YARN, GiRAPH, MapReduce, HBase, Phoenix, Spark/BDAS, Drill, Impala, Stinger, PrestoDB, STORM ...

Système de fichiers Azure, CassandraFS, CephFS, CleverSafe, GlusterFS, GridGain, HDFS, LustreMapR FS, S3, SWIFT, Quantcast FS, Symantec VCFS ...

Infrastructures System on a Chip, x86, Virtualization (Savanna, Sorengetti ) and Cloud (Amazon EMR, Rackspace, Enovance, ...)

Distributions Cloudera, Hortonworks, IBM, Intel, MapR, Pivotal, WanDisco

Page 33: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop, lac de données

Page 34: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Avec de vrais projets !

#HugFrance a eu de vrais retour d'expérience● Paris

– Crédit Mutuel Arkea● Consolidation données clients

– EDF● Nouveau Compteur électrique « Linky »

– Criteo● Annonces publicitaires en ligne

– 55● Optimisation publicité en ligne

● Lyon– Booking.com

● Réservation de nuitées d'hôtel

Page 35: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop, C'est avant tout du logiciel !Il aide à délivrer la vraie valeur de toutes vos données

Lancez vous !

Hadoop, C'est avant tout du logiciel !Il aide à délivrer la vraie valeur de toutes vos données

Lancez vous !

Page 36: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Big Data Niort - 20 Mars 2014

Hadoop « Enterprise Ready »

Merci pour votre attention

Charly [email protected]@egwada