Download - Hadoop prêt pour l'Entreprise

Transcript
Page 1: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Big Data Niort - 20 Mars 2014

Hadoop « Enterprise Ready »

Hadoop prêt pour l'entreprise

Charly [email protected]@egwada

Page 2: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Mon parcours

● Depuis 2004 - ALTIC ● Mes Technos

…...

Page 3: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop User Group France

● Créé en 2012● Plus de 300 membres

● Plus de 100 membres par meetup

● Vimeo (23 vidéos)

● http://vimeo.com/user11241340

● SlideShare (Présentations (29)

● http://fr.slideshare.net/hugfrance

● Twitter● @hugFrance

● #HugFr

● Site● http://hugfrance.fr

Un groupe de plus en plus actif !(messages échangés sur l'année)

Page 4: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop une brève histoire, déjà 10 ans !

2011

Hortonworksfounded

2012 2013

Hadoop 1.0

Hadoop 2.0

HugFrance

Page 5: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop une brève histoire, déjà 10 ans !le détail

● 2004 - Doug Cutting and Mike Cafarella crée Hadoop selon le papier de Google● 2005 Dec. - Nutch réécrit au dessus d'Hadoop - 20 nœuds● 2006 Jan. - Doug Cutting rejoind Yahoo!● 2006 Fev. - Hadoop top project Apache - HDFS & Map / Reduce● 2006 Fev. - Yahoo! adopte Hadoop● 2006 Avr. - Benchmark Tri sur 188 nœuds (10 GB/noeud) en 47.9 heures.● 2006 Mai. - Yahoo! a un cluster de 300 nœuds● 2006 Mai. - Benchmark Tri sur 500 nœuds en 42 heures (meilleures machines)● 2006 Oct. - Hadoop s'exécute sur 600 nœuds● 2006 Dec. - Benchmark Tri

● 20 nœuds : 1,8 heures● 100 nœuds : 3,3 heures● 500 nœuds : 5,2 heures ● 900 nœuds : 7,8 heures

● 2007 Jan. - Hadoop s'exécute sur 900 nœuds● 2007 Apr. - Hadoop s'exécute sur 2 cluster de 1000 nœuds● 2008 Oct. - 10 To de donnée par jour dans un cluster Hadoop● 2009 Mar. - 17 clusters pour un total de 24 000 nœuds● 2009 Avr. - 59 sec. pour trier 500 Go sur 1 400 nœuds et 100 To trié en 173 min. sur 3 400 nœuds● ...● ...● 2012 Jan. 4 - Hadoop 1.0● 2013 Mai. - 1,42 To/min sur 2 100 nœuds (YARN)● 2013 Oct. 16 - Hadoop 2.0

Page 6: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Et en 10 ans son adoption ne fait plus de doute !

Page 7: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop est robuste !

● Stable● Testé - Yahoo! (40 000 nœuds)

● Fiable● Tolérant à la panne

● Flexible● Schéma à la lecture !● Passage à l'échelle

● Économique● Prédictibilité des coûts

Page 8: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop, système d'exploitation de la donnée

Page 9: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HDFS, le système de fichiers distribué

● Distribué

● Passage à l'échelle

● Auto-surveillance pour redistribuer la donnée

● Peu gourmand en bande passante

Page 10: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

MAP / REDUCE, calcul parallèle en toute simplicité

Map Reduce

Key|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|Value

Entées

Key|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|Value

Intermédiaire

Key|Value,Key|Value,Key|Value,Key|Value

Résultat

= un type de collection

Key|Value,Key|Value,Key|Value

Key|Value,Key|Value

Page 11: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

MAP / REDUCE, architecture basique

Input Format

Map Sort Reduce Output Format

Node Node

Partitioner

MapReduce

HDFS (Distributed File System)

Page 12: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HDFS et MAP / REDUCE au cœur d'Hadoop

Page 13: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HDFS, range donc les fichiers

Page 14: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HDFS sait où se situe chacun des blocs de données

Page 15: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

MAP / REDUCE, colle parfaitement à cette distribution de fichiers (1)

Page 16: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

MAP / REDUCE, colle parfaitement à cette distribution de fichiers (2)

Page 17: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

HBASE, du NoSQL sur Hadoop

● Distribuée

● Orientée colonnes● Multidimensionnelle

● Haute Disponibilité

● Haute Performance

● Système de stockage

Page 18: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hive, la couche SQL d'Hadoop

HDFS

DDL QueriesBrowsing

MapReduce

MetaStore

Thrift API

SerDeThrift Jute JSON..

ExecutionDriver

Parser

Planner

DB

Web U

I

Optimizer

JDBC ODBCCLI

Page 19: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

PIG, pas de Map / Reduce plutôt du script !

Page 20: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Importer / exporter

NFS● Naviguer dans HDFS

depuis votre explorateur de fichiers

Flume● Collecte de grands

volume de données (logs, événements...) vers Hadoop

WebHDFS● Service REST pour

HDSF

SQOOP● Importer et exporter

vos données rangées dans votre SGBDR

Page 21: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Exploitation

Oozie● Planification de jobs

Ambari● Installation, gestion,

surveillance du cluster Hadoop

Falcon● Gestion cycle de vie

des données● Réplication

Page 22: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Sécurité

Knox● Gestion étendue,

unifiée et globale de la sécurité dans Hadoop

● Supporte l'authentification et la gestion des jetons de sécurité.

KNOX

Page 23: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop 2 ! Plus de types de traitements !

Page 24: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

YARN, transforme Hadoop en OS de la donnée

Page 25: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Grâce à Yahoo! un standard est né

Page 26: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop, un vibrant écosystème

Page 27: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Et c'est bien l'open source qui mène la danse...

Page 28: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Tellement reconnu... qu'il grignote des places... lentement mais sûrement...

Ralph KIMBALL, un des pères du Data Warehousing reconnaît vivement Hadoop comme

● Un excellent complément au data Warehouse

● Une zone de staging et un ETL de grande efficacité

Page 29: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop pourra tout traiter

« Le transactionnel »

Déjà dans toutes les têtes

Surtout celle de Doug CUTTING, le père d'Hadoop !

Page 30: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Pas de bidouillage ! De vrais outils !

Exploitation ETL

Exploration Visualisations

Page 31: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Avec de vrais acteurs !

Page 32: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Des solutions disruptives et structurantes

Couches logicielles Technologies

Traitements massivement parallèles

YARN, GiRAPH, MapReduce, HBase, Phoenix, Spark/BDAS, Drill, Impala, Stinger, PrestoDB, STORM ...

Système de fichiers Azure, CassandraFS, CephFS, CleverSafe, GlusterFS, GridGain, HDFS, LustreMapR FS, S3, SWIFT, Quantcast FS, Symantec VCFS ...

Infrastructures System on a Chip, x86, Virtualization (Savanna, Sorengetti ) and Cloud (Amazon EMR, Rackspace, Enovance, ...)

Distributions Cloudera, Hortonworks, IBM, Intel, MapR, Pivotal, WanDisco

Page 33: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop, lac de données

Page 34: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Avec de vrais projets !

#HugFrance a eu de vrais retour d'expérience● Paris

– Crédit Mutuel Arkea● Consolidation données clients

– EDF● Nouveau Compteur électrique « Linky »

– Criteo● Annonces publicitaires en ligne

– 55● Optimisation publicité en ligne

● Lyon– Booking.com

● Réservation de nuitées d'hôtel

Page 35: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale

- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Hadoop, C'est avant tout du logiciel !Il aide à délivrer la vraie valeur de toutes vos données

Lancez vous !

Hadoop, C'est avant tout du logiciel !Il aide à délivrer la vraie valeur de toutes vos données

Lancez vous !

Page 36: Hadoop prêt pour l'Entreprise

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Big Data Niort - 20 Mars 2014

Hadoop « Enterprise Ready »

Merci pour votre attention

Charly [email protected]@egwada