Cours Big Data Part I

40
ESSALIFI Mohamed Faiçal [email protected] 1 by Alexey Evmenkov

Transcript of Cours Big Data Part I

Page 1: Cours Big Data Part I

ESSALIFI Mohamed Faiçal

[email protected]

by Alexey Evmenkov

Page 2: Cours Big Data Part I

2

I. Introduction• Pourquoi Big Data?• Historique• Les fournisseurs du Big Data (Hortonworks,

Cloudera, Microsoft HDInsight, MapR,…)

II. Les composantes principales de Hadoop• L'architecture Hadoop• HDFS• MapReduce• YARN• MySQL vs MongoDB• Hive• Autres……

III. Planifier son cluster Hadoop• Choisir le bon matériel• Réseau• Atelier 1 : Mise en place d'une architecture

Hadoop• Atelier 2 : Manipuler les fichiers de

configuration

IV. Gestion de Clusters• Stocker les données dans HDFS • Le Namenode et le Datanode• Commandes HDFS• Atelier 3 : Rajouter et retirer des « Cluster Nodes »• Atelier 4 : Optimiser un Cluster

V. Manipuler les données• Manipuler les données avec différents formats de

fichiers• Créer des bases de données et des tables Hive• Analyser les données avec Pig (script)• Transformer les ensembles de données avec Pig et

Hive• Traitement parallèle avec Impala • Réduire le temps d'accès aux données avec Shark• Atelier 5 : Import d’un CSV et manipulation via Hive• Atelier 6 : Analyser les données avec Pig• Atelier 7 : Activer Impala et Shark pour des

requêtes plus rapides

Table de matière

Page 3: Cours Big Data Part I

3

1.1. Pourquoi Big Data?

1 : Introduction2 : Les composantes principales de Hadoop3 : Les fournisseurs du Big Data4 : Planifier son cluster Hadoop5 : Gestion de Clusters6 : Manipuler les données

Page 4: Cours Big Data Part I

4

Introduction

Page 5: Cours Big Data Part I

5

C’est quoi une transformation digitale

Votre Site Web E-Commerce Réseaux sociauxInteraction

INTRODUCTIONDATABIG DATA

Page 6: Cours Big Data Part I

6

C’est quoi une transformation digitale

Votre Site Web E-Commerce Réseaux sociauxInteraction

INTRODUCTIONDATABIG DATA

Page 7: Cours Big Data Part I

7

C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA

Transformation digitale

Page 8: Cours Big Data Part I

8

Donnée

C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA

Page 9: Cours Big Data Part I

9

Donnée

C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA

Page 10: Cours Big Data Part I

10

C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA

Prediction

Page 11: Cours Big Data Part I

11

Les données le nouveau pétroleINTRODUCTIONDATABIG DATA

Page 12: Cours Big Data Part I

12

Big Data analysis of the 2012 US presidential elections

Page 13: Cours Big Data Part I

13

Big Data analysis of the 2012 US presidential elections

Page 14: Cours Big Data Part I

14

Les données le nouveau pétroleINTRODUCTIONDATABIG DATA

Page 15: Cours Big Data Part I

15

Les données le nouveau pétroleINTRODUCTIONDATABIG DATA

Où se trouve les sources de ce nouveau pétrole?

Page 16: Cours Big Data Part I

16

Big Data Source : InternetINTRODUCTIONDATABIG DATA

Page 17: Cours Big Data Part I

17

Big Data Source : Open DataINTRODUCTIONDATABIG DATA

https://fr.wikipedia.org/wiki/Open_data

L'ouverture des données (open data) représente à la fois un mouvement, une

philosophie d'accès à l'information et une pratique de publication de données

librement accessibles et exploitables.

Page 18: Cours Big Data Part I

18

Big Data Source : Open Data

https://fr.wikipedia.org/wiki/Open_data

INTRODUCTIONDATABIG DATA

Page 19: Cours Big Data Part I

19

Big Data Source : Open DataINTRODUCTIONDATABIG DATA

Page 20: Cours Big Data Part I

20

Big Data Source : Open DataINTRODUCTIONDATABIG DATA

Page 21: Cours Big Data Part I

21

Pourquoi le Big Data?INTRODUCTIONDATABIG DATA

Page 22: Cours Big Data Part I

22

Pourquoi le Big Data?INTRODUCTIONDATABIG DATA

Page 23: Cours Big Data Part I

23

Big DataINTRODUCTIONDATABIG DATA

Concept

Donnée

Analyse et Innovation

?

ValeurEt prediction

Page 24: Cours Big Data Part I

24

Big Data (éthique, déontologique et sociétal)INTRODUCTIONDATABIG DATA

Concept

Donnée

Analyse et Innovation

éthique, déontologique et sociétal

ValeurEt prediction

Page 25: Cours Big Data Part I

25

Big Data (Pour quel domaine)INTRODUCTIONDATABIG DATA

Partout

FinanceGestion de stock

SanteEnergie

Page 26: Cours Big Data Part I

26

Big Data (Pour quel domaine)INTRODUCTIONDATABIG DATA

5 exemples concrets d’application du Big Data

http://www.data-business.fr/5-exemples-concrets-dapplication-du-big-data/

1. Le Big Data prédit les conflits mondiaux

L’outil GDELT (Global Database of Events, Languages and Tones), développé par l’université de Georgetown et accessible de manière open source, compile toutes les actualités (communiqués de presse, articles, discours…) parues depuis 1979.

Il applique ensuite des techniques d’analyse sémantique et des algorithmes auto-apprenants pour faciliter la compréhension

des événements récents et des principes de cause à effet pour arriver à prédire les conflits mondiaux.

2. Le Big Data aide la recherche contre le cancerProject Data Sphere met à disposition de tous des données de tests cliniques passés pour permettre à chacun de conduire ses

propres analyses, et, dans l’esprit du Crowd-Innovation, d’améliorer les méthodes ou de découvrir des corrélations encore

inconnues.

3. Le Big Data nous aide à comprendre le monde

L’entreprise Kaggle, qui met à disposition sa communauté de 150 000 data-scientists pour aider les entreprises à résoudre

des défis liés à l’analyse de données, vient de lancer un concours visant à définir un algorithme capable de comprendre les

facteurs qui influencent la création d’un boson de Higgs lors de la collision de deux atomes. Le projet est mandaté par le

CERN et a été élaboré par deux chercheurs du CNRS.

4. Le Big Data permet de gérer les catastrophes naturelles

En utilisant des outils de tracking, d’analyse sémantique et de visualisation en temps réel, l’Organisation Mondiale de la

Migration a pu assister les forces locales en dégageant les urgences sanitaires, la localisation des ressources clés et en

optimisant l’allocation des ressources sur le terrain lors du typhon qui a frappé les Philippines en 2013

5. Le Big Data aide à éradiquer les épidémies

Des scientifiques de l’université de Bringhma Youns essaient de simuler la localisation des mouches tsé-tsé dans le but

d’aider à contrôler la propagation d’épidémises. De la même manière, la police de Chicago utilise le Big Data et la

visualisation de données pour contrôler les populations de rats dans la ville.

Page 27: Cours Big Data Part I

27

Big Data (Pour quel domaine)INTRODUCTIONDATABIG DATA

BIG DATA. Neuf jours avant que la

propagation d'Ebola soit officiellement

déclarée par l'OMS le 23 mars comme

étant une épidémie, un groupe de

chercheurs et de spécialistes informatiques

à Boston avait déjà remarqué la diffusion

du virus de la fièvre hémorragique en

Guinée.http://www.sciencesetavenir.fr/sante/les-big-data-nouvel-outil-contre-les-epidemies-comme-ebola_28006

Le Big Data réconcilie « l’assuré et

son assureur »

« pay how you drive », c'est-à-dire

l'utilisation de la télématique pour

moduler la prime en fonction du

comportement au volant, débarque à

peine en France et n'a pas vraiment

décollé aux Etat-Unis.

http://www.lebigdata.fr/business/sante

Page 28: Cours Big Data Part I

28

1.2. Historique?

1 : Introduction2 : Les composantes principales de Hadoop3 : Les fournisseurs du Big Data4 : Planifier son cluster Hadoop5 : Gestion de Clusters6 : Manipuler les données

Page 29: Cours Big Data Part I

29

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Page 30: Cours Big Data Part I

30

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Cluster partagé

Page 31: Cours Big Data Part I

31

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Google Nutch Project

Haut Disponibilité ??????Réplication ????

Nutch est une initiative visant à construire un moteur de recherche open source. Il

utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche,

le robot de collecte a été créé spécifiquement pour ce projet.

L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer

des plugins pour différentes phases du processus : récupération des données, analyse des

documents, recherche, etc.

Doug Cutting est l'initiateur et le coordinateur de ce projet.

Il est entièrement développé en langage Java, mais les données qu'il manipule sont dans

un format de données indépendant de tout langage de programmation. En juin 2003 a été

présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant

100 millions de documents.

Page 32: Cours Big Data Part I

32

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Google GFS

Base sur la réplication

Page 33: Cours Big Data Part I

33

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Google Map Reduce

Dispatching de charge

Page 34: Cours Big Data Part I

34

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Yahoo! Hadoop

Page 35: Cours Big Data Part I

35

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Page 36: Cours Big Data Part I

36

1.3. Les fournisseurs du Big Data

1 : Introduction2 : Les composantes principales de Hadoop3 : Les fournisseurs du Big Data4 : Planifier son cluster Hadoop5 : Gestion de Clusters6 : Manipuler les données

Page 37: Cours Big Data Part I

37

Solution Big DataINTRODUCTIONDATABIG DATA

Page 38: Cours Big Data Part I

38

Hortonworks

Cloudera

Microsoft HDInsight

Les fournisseurs du Big Data

Page 39: Cours Big Data Part I

39

HortonWorks vs Cloudera

Page 40: Cours Big Data Part I

40

Q and A

ESSALIFI Mohamed Faiçal

[email protected] 40