BigData et Hadoop

35
Qu’est-ce que le Big Data ?

description

Description des enjeux liés au Big Data et découverte d'un outil sur mesure pour ce volume de données : Hadoop

Transcript of BigData et Hadoop

Page 1: BigData et Hadoop

Qu’est-ce que le Big Data ?

Page 2: BigData et Hadoop

De plus en plus interconnecté

Le monde change

Page 3: BigData et Hadoop

2 milliards

4.6 milliards

utilisateurs d’Internet

téléphones cellulaires

Le monde change

Page 4: BigData et Hadoop

De plus en plus interconnecté

De plus en plus instrumentalisé

Le monde change

Page 5: BigData et Hadoop

Web 3.0

L'Internet des objets représente l'extension d'Internet à des choses et à des lieux dans le monde physique.

Alors qu'Internet ne se prolonge habituellement pas au-delà du monde électronique, l'internet des objets (IdO) a pour but de l'étendre au monde réel

en associant des étiquettes munies de codes, de puces RFID ou d'URLs aux objets ou aux lieux.

Ces étiquettes pourront être lues par des dispositifs mobiles sans fil, ce qui devrait favoriser l’émergence de la réalité augmentée.

Page 6: BigData et Hadoop

Le monde change

De plus en plus interconnecté

De plus en plus intelligent

De plus en plus instrumentalisé

Page 7: BigData et Hadoop

Qu’est ce que le Big Data ?

Page 8: BigData et Hadoop

Qu’est ce que le Big Data ?

Ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données ou de

gestion de l'information.

Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis

Page 9: BigData et Hadoop

Caractéristiques

44x plus de données en une décennie

L’information grandit à une vitesse incroyable !

Page 10: BigData et Hadoop

Caractéristiques

20%

80%

80% des données sont non structurées

Page 11: BigData et Hadoop

Deux types de Big Data

Données en mouvement

Le reste

• Tweets / Posts Facebook• Données boursières• Capteurs : Signes vitaux d’un nouveau-né

• Historique de données en mouvement• Données non structurées : formulaires ...• Données structurées depuis des systèmes disparates

Page 12: BigData et Hadoop

Exemples de Big Data

100 TB de données / jour

230 M de tweets / jour

294 M de courriels / jour

50 Petabytes de données dans le domaine de la

santé

Page 13: BigData et Hadoop

Examples

• Analyse multicanal du sentiment et de l’expérience utilisateur • Détecter les signes inquiétants d’un patient dans les hôpitaux afin d’intervenir à

temps• Prendre des décisions risquées basées sur les données transactionnelles en

temps réel • Identifier les criminels et menaces depuis de nombreuses sources vidéos, audio et

flux de données • Prédire les modèles climatiques afin de choisir un emplacement optimisé pour les

éoliennes

Page 14: BigData et Hadoop
Page 15: BigData et Hadoop

Comment analyser ces données et en extraire l’essentiel ?

Page 16: BigData et Hadoop
Page 17: BigData et Hadoop

Challenges

Ranger 10TB sur 1 noeud :

sur 100 noeuds :

2.5 jours35 min

Page 18: BigData et Hadoop

Challenges

Gros noeuds implique un cout élevé

Grand nombre de noeuds bon marché impliquent un gros nombre d’erreurs

Plusieurs Noeuds bon marché

Système Fault-tolerant automatique

Page 19: BigData et Hadoop

Challenges

On a besoin d’un nouveau modèle de traitement parallèle pour des clusters de

machines

Page 20: BigData et Hadoop

À la rescousse

Page 21: BigData et Hadoop

Map Reduce

Publié par Google en .

Rendu populaire par le projet Apache Hadoop

Utilisé par :

2004

Page 22: BigData et Hadoop

Map Reduce

Page 23: BigData et Hadoop

Map Reduce

Page 24: BigData et Hadoop

Philosophie

• Masque la complexité• Rends le processus évolutif (scalability)• Le rend peu onéreux

Page 25: BigData et Hadoop

Coeur de Hadoop

Map ReduceHDFS Système de fichier distribué

Planification / Execution

Page 26: BigData et Hadoop

Coeur de Hadoop

Map ReduceSystème de fichier distribué

Planification / Execution

HDFS

• Name Node garde les métadonnées• Fichiers coupés en blocs de 64 MB• Blocs répliqués sur 3 Data Node

Page 27: BigData et Hadoop

Coeur de Hadoop

Map Reduce

Système de fichier distribué

Planification / Execution

HDFS

• Name Node garde les métadonnées• Fichiers coupés en blocs de 64 MB• Blocs répliqués sur 3 Data Node

• Job tracker distribue les taches et gères les erreurs

• Tâches assignées selon les données locales• Task Tracker peut exécuter plusieurs tâches

Page 28: BigData et Hadoop

Coeur de Hadoop

Job Tracker

Name Node Data Node

Task Tracker

Clien

t

Page 29: BigData et Hadoop

Suite HadoopZo

okee

per

Avro

Pig (ETL) Hive (BI) Sqoop (RDBMS)

MapReduce

HDFS

Page 30: BigData et Hadoop

Pig

Page 31: BigData et Hadoop

Hive

Page 32: BigData et Hadoop

Coeur de HadoopZo

okee

per

Avro

Mahout HBase Cassandra

MapReduce

HDFS

Page 33: BigData et Hadoop

Des Questions ?

Page 34: BigData et Hadoop
Page 35: BigData et Hadoop

a Storm is coming ...