Cours Big Data Part I

Post on 07-Feb-2017

185 views 7 download

Transcript of Cours Big Data Part I

ESSALIFI Mohamed Faiçal

mf.essalifi@gmail.com1

by Alexey Evmenkov

2

I. Introduction• Pourquoi Big Data?• Historique• Les fournisseurs du Big Data (Hortonworks,

Cloudera, Microsoft HDInsight, MapR,…)

II. Les composantes principales de Hadoop• L'architecture Hadoop• HDFS• MapReduce• YARN• MySQL vs MongoDB• Hive• Autres……

III. Planifier son cluster Hadoop• Choisir le bon matériel• Réseau• Atelier 1 : Mise en place d'une architecture

Hadoop• Atelier 2 : Manipuler les fichiers de

configuration

IV. Gestion de Clusters• Stocker les données dans HDFS • Le Namenode et le Datanode• Commandes HDFS• Atelier 3 : Rajouter et retirer des « Cluster Nodes »• Atelier 4 : Optimiser un Cluster

V. Manipuler les données• Manipuler les données avec différents formats de

fichiers• Créer des bases de données et des tables Hive• Analyser les données avec Pig (script)• Transformer les ensembles de données avec Pig et

Hive• Traitement parallèle avec Impala • Réduire le temps d'accès aux données avec Shark• Atelier 5 : Import d’un CSV et manipulation via Hive• Atelier 6 : Analyser les données avec Pig• Atelier 7 : Activer Impala et Shark pour des

requêtes plus rapides

Table de matière

3

1.1. Pourquoi Big Data?

1 : Introduction2 : Les composantes principales de Hadoop3 : Les fournisseurs du Big Data4 : Planifier son cluster Hadoop5 : Gestion de Clusters6 : Manipuler les données

4

Introduction

5

C’est quoi une transformation digitale

Votre Site Web E-Commerce Réseaux sociauxInteraction

INTRODUCTIONDATABIG DATA

6

C’est quoi une transformation digitale

Votre Site Web E-Commerce Réseaux sociauxInteraction

INTRODUCTIONDATABIG DATA

7

C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA

Transformation digitale

8

Donnée

C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA

9

Donnée

C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA

10

C’est quoi une transformation digitaleINTRODUCTIONDATABIG DATA

Prediction

11

Les données le nouveau pétroleINTRODUCTIONDATABIG DATA

12

Big Data analysis of the 2012 US presidential elections

13

Big Data analysis of the 2012 US presidential elections

14

Les données le nouveau pétroleINTRODUCTIONDATABIG DATA

15

Les données le nouveau pétroleINTRODUCTIONDATABIG DATA

Où se trouve les sources de ce nouveau pétrole?

16

Big Data Source : InternetINTRODUCTIONDATABIG DATA

17

Big Data Source : Open DataINTRODUCTIONDATABIG DATA

https://fr.wikipedia.org/wiki/Open_data

L'ouverture des données (open data) représente à la fois un mouvement, une

philosophie d'accès à l'information et une pratique de publication de données

librement accessibles et exploitables.

18

Big Data Source : Open Data

https://fr.wikipedia.org/wiki/Open_data

INTRODUCTIONDATABIG DATA

19

Big Data Source : Open DataINTRODUCTIONDATABIG DATA

20

Big Data Source : Open DataINTRODUCTIONDATABIG DATA

21

Pourquoi le Big Data?INTRODUCTIONDATABIG DATA

22

Pourquoi le Big Data?INTRODUCTIONDATABIG DATA

23

Big DataINTRODUCTIONDATABIG DATA

Concept

Donnée

Analyse et Innovation

?

ValeurEt prediction

24

Big Data (éthique, déontologique et sociétal)INTRODUCTIONDATABIG DATA

Concept

Donnée

Analyse et Innovation

éthique, déontologique et sociétal

ValeurEt prediction

25

Big Data (Pour quel domaine)INTRODUCTIONDATABIG DATA

Partout

FinanceGestion de stock

SanteEnergie

26

Big Data (Pour quel domaine)INTRODUCTIONDATABIG DATA

5 exemples concrets d’application du Big Data

http://www.data-business.fr/5-exemples-concrets-dapplication-du-big-data/

1. Le Big Data prédit les conflits mondiaux

L’outil GDELT (Global Database of Events, Languages and Tones), développé par l’université de Georgetown et accessible de manière open source, compile toutes les actualités (communiqués de presse, articles, discours…) parues depuis 1979.

Il applique ensuite des techniques d’analyse sémantique et des algorithmes auto-apprenants pour faciliter la compréhension

des événements récents et des principes de cause à effet pour arriver à prédire les conflits mondiaux.

2. Le Big Data aide la recherche contre le cancerProject Data Sphere met à disposition de tous des données de tests cliniques passés pour permettre à chacun de conduire ses

propres analyses, et, dans l’esprit du Crowd-Innovation, d’améliorer les méthodes ou de découvrir des corrélations encore

inconnues.

3. Le Big Data nous aide à comprendre le monde

L’entreprise Kaggle, qui met à disposition sa communauté de 150 000 data-scientists pour aider les entreprises à résoudre

des défis liés à l’analyse de données, vient de lancer un concours visant à définir un algorithme capable de comprendre les

facteurs qui influencent la création d’un boson de Higgs lors de la collision de deux atomes. Le projet est mandaté par le

CERN et a été élaboré par deux chercheurs du CNRS.

4. Le Big Data permet de gérer les catastrophes naturelles

En utilisant des outils de tracking, d’analyse sémantique et de visualisation en temps réel, l’Organisation Mondiale de la

Migration a pu assister les forces locales en dégageant les urgences sanitaires, la localisation des ressources clés et en

optimisant l’allocation des ressources sur le terrain lors du typhon qui a frappé les Philippines en 2013

5. Le Big Data aide à éradiquer les épidémies

Des scientifiques de l’université de Bringhma Youns essaient de simuler la localisation des mouches tsé-tsé dans le but

d’aider à contrôler la propagation d’épidémises. De la même manière, la police de Chicago utilise le Big Data et la

visualisation de données pour contrôler les populations de rats dans la ville.

27

Big Data (Pour quel domaine)INTRODUCTIONDATABIG DATA

BIG DATA. Neuf jours avant que la

propagation d'Ebola soit officiellement

déclarée par l'OMS le 23 mars comme

étant une épidémie, un groupe de

chercheurs et de spécialistes informatiques

à Boston avait déjà remarqué la diffusion

du virus de la fièvre hémorragique en

Guinée.http://www.sciencesetavenir.fr/sante/les-big-data-nouvel-outil-contre-les-epidemies-comme-ebola_28006

Le Big Data réconcilie « l’assuré et

son assureur »

« pay how you drive », c'est-à-dire

l'utilisation de la télématique pour

moduler la prime en fonction du

comportement au volant, débarque à

peine en France et n'a pas vraiment

décollé aux Etat-Unis.

http://www.lebigdata.fr/business/sante

28

1.2. Historique?

1 : Introduction2 : Les composantes principales de Hadoop3 : Les fournisseurs du Big Data4 : Planifier son cluster Hadoop5 : Gestion de Clusters6 : Manipuler les données

29

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

30

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Cluster partagé

31

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Google Nutch Project

Haut Disponibilité ??????Réplication ????

Nutch est une initiative visant à construire un moteur de recherche open source. Il

utilise Lucene comme bibliothèque de moteur de recherche et d'indexation. En revanche,

le robot de collecte a été créé spécifiquement pour ce projet.

L'architecture de Nutch est hautement modulaire et permet à des développeurs de créer

des plugins pour différentes phases du processus : récupération des données, analyse des

documents, recherche, etc.

Doug Cutting est l'initiateur et le coordinateur de ce projet.

Il est entièrement développé en langage Java, mais les données qu'il manipule sont dans

un format de données indépendant de tout langage de programmation. En juin 2003 a été

présenté une version opérationnelle d'une démonstration de Nutch sur une base regroupant

100 millions de documents.

32

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Google GFS

Base sur la réplication

33

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Google Map Reduce

Dispatching de charge

34

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

Yahoo! Hadoop

35

Historique des Technologies Big DataINTRODUCTIONDATABIG DATA

36

1.3. Les fournisseurs du Big Data

1 : Introduction2 : Les composantes principales de Hadoop3 : Les fournisseurs du Big Data4 : Planifier son cluster Hadoop5 : Gestion de Clusters6 : Manipuler les données

37

Solution Big DataINTRODUCTIONDATABIG DATA

38

Hortonworks

Cloudera

Microsoft HDInsight

Les fournisseurs du Big Data

39

HortonWorks vs Cloudera

40

Q and A

ESSALIFI Mohamed Faiçal

Mf.essalifi@gmail.com 40