Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et...

ADMINISTRATION HADOOP ET RETOUR D’EXPÉRIENCE BI

HUG FRANCE CHERIF TIFARANI

06/10/2014

SOMMAIRE

1. CONNAISSEZ-VOUS SOLOCAL GROUP

2. DIMENSIONNEMENT D’UN CLUSTER

3. DÉPLOIEMENT ET MAINTENANCE

4. SUPERVISION ET STRATÉGIE DE SAUVEGARDE /RESTAURATION

5. RETOUR D’EXPÉRIENCE HADOOP

1. Chargement de données/migration 2. Intégration outils BI/datamining via le connecteur ODBC

6. CONCLUSION

CONNAISSEZ-VOUS SOLOCAL GROUP

DIMENSIONNEMENT D’UN CLUSTER

Type serveur Capacité de stockage

Nombre de cœurs

Capacité Mémoire

Réseau

Equilibré 8-10 x 1 TB

2 x 6 Coeurs 4 GB / Coeur 2 x 10 GB

Intensif I/O 12-15 x 1 TB 2 x 6 Coeurs

4 GB / Coeur

2 x 10 GB

Intensif CPU 8-10 x 2 TB

2 x 8 Coeurs

4 GB / Coeur

2 x 10 GB

¾ Pourquoi les machines virtuelles sont déconseillées • Hadoop a besoin d’I/O performantes • Un cluster Hadoop a besoin de connaître sa topologie pour optimiser le placement des données

¾ Certains composants Hadoop peuvent être utilisés dans des machines virtuelles • Les nœuds front end et masters qui n’ont pas de contrainte forte d’I/O • Cependant, il faut prévoir d’une bande passante et d’une mémoire suffisante

DIMENSIONNEMENT D’UN CLUSTER

¾Remplir 2 baies en parallèle

¾Les deux baies dans le même data center. ¾Répartir les services sur les baies

• Un Serveur master NN dans chaque baie • Assurer au moins un service ZK et JN sur chaque baie

¾Vlan dédié afin d’assurer une communication fluide entre les serveurs.

DÉPLOIEMENT ET MAINTENANCE

¾Sécuriser les accès • Authentification forte via Kerberos, Habilitation par permissions Unix: propriétaire, groupe, … • Isolation des utilisateurs forte: portée par les permissions HDFS

¾Sécuriser les données • Isolation des données dans un projet, un cluster contient l’ensemble des données. L’isolation repose sur les permissions HDFS • Isolation des données entre les projets. L’isolation est portée par la gestion des groupes Unix

Knox : passerelle d’accès sécurisée et distribuée aux services d’un cluster hadoop

Sentry : contrôle d’accès fin à hive, impala

Falcon : gestion du cycle de vie des données stockées dans hadoop

DÉPLOIEMENT ET MAINTENANCE

¾Ne pas oublier de mettre en place et maintenir à jour: • Un miroir local : OS, distribution hadoop, outils connexes • Serveur support dédié kerberos

¾Utiliser plusieurs baies et nommer les serveurs en fonction de cela

¾Favoriser les outils du monde DevOps (chef, puppet) • Restreindre les accès directs aux machines.

¾Penser HA par défaut

• Répliquer le serveur front end

¾ D’une manière générale, il est essentiel d’industrialiser la mise en production et de limiter au maximum la masse de code à maintenir en interne

SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION

¾ Ganglia:

• Collecte des métriques système et applicative dans une base RRD • Mise à disposition à l’exploitant • Agrégation des métriques de plusieurs clusters

« Ganglia est le standard commun aux solutions sur hadoop pour la Remontée de métrique » ¾ Nagios:

• Alerting sur la base des métriques collectées par ganglia

« Nagios peut être remplacé par votre outil d’alerting interne » La bonne pratique est de s’interfacer avec, pas de le remplacer

SUPERVISION ET STRATÉGIE DE SAUVEGARDE/RESTAURATION

¾ Chaque composant d’hadoop fourni

• Une interface basique en HTML (*.Http.Address dans les configurations) - Namenode : http://$hostname:50070/ - Resource manager: http://$hostname:8088/

• Une API REST

¾ Des interfaces graphiques fournissant une vue agrégée existent

• Cloudera manager : interface de gestion de cloudera

¾HDFS fournit un mécanisme de snapshot en temps constant

¾Distcp : permet de faire une copie distribuée d’un cluster A vers un Cluster B • À ordonnancer dans une crontab, controlM, …

¾Sauvegarde des méta informations du namenode • fsimage et le WAL (fichier edits)

RETOUR D’EXPÉRIENCE HADOOP

RETOUR D’EXPÉRIENCE MIGRATION HADOOP

CONTEXTE Points clés

• La plateforme de stockage et d’analyse des données mobile Pages Jaunes connait une croissance forte et rapide en volumes de données.

• Le coût du stockage de la solution existante basés sur Netezza n’est plus tenable à court terme

• Hadoop a été identifié comme une solution de déchargement d’entrepôt permettant d’atteindre l’objectif de réduction des coûts et optimisation des performances d’analyses

• Cadrage d’un projet de migration et d’une plateforme Hadoop

• Réalisation technique et fonctionnelle d’interfaçage entre Hadoop et Netezza

• Intégration de la plateforme Hadoop avec les outils décisionnels existants

INTÉGRER HADOOP DANS LE DATA CENTER

¾ Différentes sources de données et différents types de données

¾ Une plateforme distribuée

¾ Différents types d’accès

CHARGEMENT DE DONNÉES/MIGRATION

¾ 183 tables ¾ 18 mois d’historiques ¾ 22 TO de données brutes collectées ¾ 66 TO de données répliquées ¾ 80 TO de capacité de stockage brut (réplication incluse) ¾ Transfèrt des données avec Sqoop (en utilisant Cloudera Connector for Netezza et sqoop1) ¾ Compression des tables en mode parquet avec Impala

INTÉGRATION OUTILS BI/DATAMINING

¾ Impala :Un moteur de requêtage SQL en temps réel sur hadoop (MPP)

• Utilisant la même base de données de métadonnées que hive • Bypass MapReduce(lecture directe des données) • Prise en charge des formats de fichiers HDFS (text files, sequence files compressé, avro data files, treveni) • Optimisé pour les requêtes d'entrepôt de données (en particulier, parquet)

¾ Hive vs Impala TextFile vs Parquet

Low-latency queries for a BI user experience

TextFile

Parquet

INTÉGRATION OUTILS BI/DATAMINING

INTÉGRATION OUTILS BI/DATAMINING VIA LE CONNECTEUR ODBC

¾ Limites Impala:

• Aucune tolérance de pannes, 9 Si un nœud tombe en panne , toutes les requêtes qui s’exécutent sur ce nœud tombent en panne

• Impala ne prend pas en charge certaines opérations HiveQL 9 DESCRIBE DATABASE/COLUMN 9 SHOW PARTITION/COLUMNS/INDEXES) 9 Beaucoup d'entre elles sont envisagées pour les futures versions

• Impala ne couvre pas les processus de traitement de type ETL qui sont offerts par Hive

• Ne gère pas les type de données complexes (Array, MAP, STRUCT)

• Très consommateur en mémoire (prévoir 128go),

CONCLUSION ¾Ne pas confondre Hadoop avec un outil de BI temps réel

• A besoin d’être complété surtout sur le plan DataViz

¾ Big Data ne veut pas dire Open data • Penser aux enjeux sécurité en amont • Confidentialité

¾Faire monter en compétences les équipes sur le volet infra et applicatif

• Une formation est nécessaire mais pas suffisante • Donner un maximum de pouvoir aux utilisateurs

¾Ne pas négliger les coûts cachés

• Le coût de migration d’un existant (Netezza vers Hadoop)

¾Adopter une approche DEVOPS et utiliser des outils comme PUPPET, CHEF,

¾Être en capacité d’absorber les nouvelles versions et technologies

QUESTIONS ?

Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et...

Internet

Transcript of Hug france - Administration Hadoop et retour d’expérience BI avec Impala, limites et...

L'ÉPOPÉE DE GILGAMESH - KEDISTAN · L'ÉPOPÉE DE GILGAMESH texte établi d'après les fragments babyloniens, assyriens, hittites et hourites traduit de l'arabe et adapté par ABED

IMPALA – Réunion démarrage - 19 avril 2007 Radar K2 Application R-SLAM (premiers résultats)

Solocal Group Investor Day - 28 avril 2015

CHANSON FRANÇAISE - POÉSIE - PERFORMANCE IMPALA

ARTICLE ORIGINAL Facteurs de risque de l’obésité chez l’enfant · Hayet Dahmen ****, Najet Bel Abed ****, Nédra Bchir*, Abdallah Gabsi*, Mohamed Salah Tekaya*, Hassen Jebara**

BAROMÈTRE EDHEC - CADREMPLOI JEUNES DIPLÔMÉS MASTER€¦ · schneider electric - solocal group - sopra steria - spirit advisors - talan - tradelab - unilever - urgo group - vinci

SoLocal lance avec Facebook « Social Vidéo...Nicolaï Gérard, Business Manager Industries & Services, Facebook France SoLocal lance avec Facebook « Social Vidéo » la première

LISTE DES MEMBRES AFFILIE µS - Fédération … · Ameur Mehdi Ameur Meriam-Yassmine Amezcua Carlos Amiri Naseer Ahmad Ammar Enes Ammoura Abed Alaziz ... Bouaouina Zakaria . LISTE

· Avalanche Avalanche Blazer Camaro Cavalier Cavalier Colorado Corvette Corvette Impala Impala Lumina Malibu Monte Carlo Year 1996-2005 2002 2003-2006 1998-2002 1997-2002 1996-1999

PDF L Epopee de Gilgamesh - Abed Azrie

&O WVF EF M PCUFOUJPO EV - ISAE-SUPAEROdepozit.isae.fr/theses/2016/2016_Bouhlel_Mohamed-Amine_D.pdf · Sidi, Ahmed, Aymen, Yosri, Abdelsalem, Taouﬁk, Abed, Libi, Majdi, Ramzi et

Solocal Group – Puissance et engagement des audiences

ENJEUX ET GESTION DES AVIS EN LIGNE PAGESJAUNES€¦ · Les bonnes pratiques pour gérer son e-réputation . PRESENTATION RAPIDE DE SOLOCAL GROUP . 4 Solocal Group en résumé 4 marques

Etat Des Mutations 2017-2018€¦ · 2 RAMDANI ZAKARIA 16.01.00 ACBBA 34 ACEA 34 Favorable Favorable 3 ABED AKRAM 22.02.00 OBBA 34 ACEA 34 Défavorable Défavorable 4 ABED SABER 22.02.00

CLOUDERA - OCTO Academystructurées évolutives dans Hadoop. Enfin, Cloudera Impala permet l'analyse interactive instantanée des données stockées dans Hadoop dans un environnement

Avis de convocation 2020 - solocal.com · 01 AVIS DE CONVOCATION 2020 - SOLOCAL Comment participer à l’Assemblée générale ? L’Assemblée générale mixte des actionnaires

Brochure ABED 2008-2009

Avril 17 RENCONTREobs-commedia.com/actu/wp-content/uploads/2014/04/... · Solocal : • La transformation ... Présentation des projets d’innovation TEMPS FORTS DE LA RENCONTRE

de l’effet d’un régime irrégulier du Zingiber officinale ... · Université Abed el Hamid Mehri-Constantine 2. Nous tenons tout d’abord à remercier Pour ses enseignements

Résultats annuels 2019 - solocal.com · 2020-03-02 · SoLocal Group, ses filiales, ses administrateurs, ses conseils, ses salariés et ses représentants déclinent expressément

ARTICLE ORIGINAL Facteurs de risque de l’obésité chez l’enfant · Hayet Dahmen , Najet Bel Abed , Nédra Bchir, Abdallah Gabsi, Mohamed Salah Tekaya*, Hassen Jebara**