Hadoop prêt pour l'Entreprise
-
Upload
hadoop-user-group-france -
Category
Technology
-
view
1.445 -
download
0
description
Transcript of Hadoop prêt pour l'Entreprise
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Big Data Niort - 20 Mars 2014
Hadoop « Enterprise Ready »
Hadoop prêt pour l'entreprise
Charly [email protected]@egwada
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Mon parcours
● Depuis 2004 - ALTIC ● Mes Technos
…...
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop User Group France
● Créé en 2012● Plus de 300 membres
● Plus de 100 membres par meetup
● Vimeo (23 vidéos)
● http://vimeo.com/user11241340
● SlideShare (Présentations (29)
● http://fr.slideshare.net/hugfrance
● Twitter● @hugFrance
● #HugFr
● Site● http://hugfrance.fr
Un groupe de plus en plus actif !(messages échangés sur l'année)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop une brève histoire, déjà 10 ans !
2011
Hortonworksfounded
2012 2013
Hadoop 1.0
Hadoop 2.0
HugFrance
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop une brève histoire, déjà 10 ans !le détail
● 2004 - Doug Cutting and Mike Cafarella crée Hadoop selon le papier de Google● 2005 Dec. - Nutch réécrit au dessus d'Hadoop - 20 nœuds● 2006 Jan. - Doug Cutting rejoind Yahoo!● 2006 Fev. - Hadoop top project Apache - HDFS & Map / Reduce● 2006 Fev. - Yahoo! adopte Hadoop● 2006 Avr. - Benchmark Tri sur 188 nœuds (10 GB/noeud) en 47.9 heures.● 2006 Mai. - Yahoo! a un cluster de 300 nœuds● 2006 Mai. - Benchmark Tri sur 500 nœuds en 42 heures (meilleures machines)● 2006 Oct. - Hadoop s'exécute sur 600 nœuds● 2006 Dec. - Benchmark Tri
● 20 nœuds : 1,8 heures● 100 nœuds : 3,3 heures● 500 nœuds : 5,2 heures ● 900 nœuds : 7,8 heures
● 2007 Jan. - Hadoop s'exécute sur 900 nœuds● 2007 Apr. - Hadoop s'exécute sur 2 cluster de 1000 nœuds● 2008 Oct. - 10 To de donnée par jour dans un cluster Hadoop● 2009 Mar. - 17 clusters pour un total de 24 000 nœuds● 2009 Avr. - 59 sec. pour trier 500 Go sur 1 400 nœuds et 100 To trié en 173 min. sur 3 400 nœuds● ...● ...● 2012 Jan. 4 - Hadoop 1.0● 2013 Mai. - 1,42 To/min sur 2 100 nœuds (YARN)● 2013 Oct. 16 - Hadoop 2.0
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Et en 10 ans son adoption ne fait plus de doute !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop est robuste !
● Stable● Testé - Yahoo! (40 000 nœuds)
● Fiable● Tolérant à la panne
● Flexible● Schéma à la lecture !● Passage à l'échelle
● Économique● Prédictibilité des coûts
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, système d'exploitation de la donnée
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS, le système de fichiers distribué
● Distribué
● Passage à l'échelle
● Auto-surveillance pour redistribuer la donnée
● Peu gourmand en bande passante
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, calcul parallèle en toute simplicité
Map Reduce
Key|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|Value
Entées
Key|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|ValueKey|Value
Intermédiaire
Key|Value,Key|Value,Key|Value,Key|Value
Résultat
= un type de collection
Key|Value,Key|Value,Key|Value
Key|Value,Key|Value
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, architecture basique
Input Format
Map Sort Reduce Output Format
Node Node
Partitioner
MapReduce
HDFS (Distributed File System)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS et MAP / REDUCE au cœur d'Hadoop
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS, range donc les fichiers
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HDFS sait où se situe chacun des blocs de données
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, colle parfaitement à cette distribution de fichiers (1)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
MAP / REDUCE, colle parfaitement à cette distribution de fichiers (2)
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
HBASE, du NoSQL sur Hadoop
● Distribuée
● Orientée colonnes● Multidimensionnelle
● Haute Disponibilité
● Haute Performance
● Système de stockage
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hive, la couche SQL d'Hadoop
HDFS
DDL QueriesBrowsing
MapReduce
MetaStore
Thrift API
SerDeThrift Jute JSON..
ExecutionDriver
Parser
Planner
DB
Web U
I
Optimizer
JDBC ODBCCLI
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
PIG, pas de Map / Reduce plutôt du script !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Importer / exporter
NFS● Naviguer dans HDFS
depuis votre explorateur de fichiers
Flume● Collecte de grands
volume de données (logs, événements...) vers Hadoop
WebHDFS● Service REST pour
HDSF
SQOOP● Importer et exporter
vos données rangées dans votre SGBDR
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Exploitation
Oozie● Planification de jobs
Ambari● Installation, gestion,
surveillance du cluster Hadoop
Falcon● Gestion cycle de vie
des données● Réplication
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Sécurité
Knox● Gestion étendue,
unifiée et globale de la sécurité dans Hadoop
● Supporte l'authentification et la gestion des jetons de sécurité.
KNOX
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop 2 ! Plus de types de traitements !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
YARN, transforme Hadoop en OS de la donnée
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Grâce à Yahoo! un standard est né
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, un vibrant écosystème
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Et c'est bien l'open source qui mène la danse...
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Tellement reconnu... qu'il grignote des places... lentement mais sûrement...
Ralph KIMBALL, un des pères du Data Warehousing reconnaît vivement Hadoop comme
● Un excellent complément au data Warehouse
● Une zone de staging et un ETL de grande efficacité
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop pourra tout traiter
« Le transactionnel »
Déjà dans toutes les têtes
Surtout celle de Doug CUTTING, le père d'Hadoop !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Pas de bidouillage ! De vrais outils !
Exploitation ETL
Exploration Visualisations
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Avec de vrais acteurs !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Des solutions disruptives et structurantes
Couches logicielles Technologies
Traitements massivement parallèles
YARN, GiRAPH, MapReduce, HBase, Phoenix, Spark/BDAS, Drill, Impala, Stinger, PrestoDB, STORM ...
Système de fichiers Azure, CassandraFS, CephFS, CleverSafe, GlusterFS, GridGain, HDFS, LustreMapR FS, S3, SWIFT, Quantcast FS, Symantec VCFS ...
Infrastructures System on a Chip, x86, Virtualization (Savanna, Sorengetti ) and Cloud (Amazon EMR, Rackspace, Enovance, ...)
Distributions Cloudera, Hortonworks, IBM, Intel, MapR, Pivotal, WanDisco
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, lac de données
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Avec de vrais projets !
#HugFrance a eu de vrais retour d'expérience● Paris
– Crédit Mutuel Arkea● Consolidation données clients
– EDF● Nouveau Compteur électrique « Linky »
– Criteo● Annonces publicitaires en ligne
– 55● Optimisation publicité en ligne
● Lyon– Booking.com
● Réservation de nuitées d'hôtel
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale
- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Hadoop, C'est avant tout du logiciel !Il aide à délivrer la vraie valeur de toutes vos données
Lancez vous !
Hadoop, C'est avant tout du logiciel !Il aide à délivrer la vraie valeur de toutes vos données
Lancez vous !
Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
Big Data Niort - 20 Mars 2014
Hadoop « Enterprise Ready »
Merci pour votre attention
Charly [email protected]@egwada