Big Data : Manage, Refine, Analyze

38
Olivier Renault [email protected] Solution Engineer Big Data – Hortonworks Big Data : Manage, Refine, Recycle (avec un gros zoom Hadoop) Stéphane Goudeau Architecte Azure – Microsoft Blaise Vignon [email protected] Business Development Azure – Microsoft

description

Cette session permet de découvrir le paysage Big Data d'une façon pragmatique. Nous remettrons d'abord la question du BIG Data dans ses contextes business et techno. Ensuite, nous ferons un zoom sur les technologies Hadoop et leurs différentes possibilités d'implémentation.

Transcript of Big Data : Manage, Refine, Analyze

Page 1: Big Data : Manage, Refine, Analyze

Olivier [email protected] Solution Engineer Big Data –

Hortonworks

Big Data : Manage, Refine, Recycle(avec un gros zoom Hadoop)

Stéphane Goudeau Architecte Azure – Microsoft

Blaise [email protected]

Business Development Azure – Microsoft

Page 2: Big Data : Manage, Refine, Analyze

Gagnez une Tablette Windows 8!

Souscrivez à l’offre d’essai ou activez votre accès Azure MSDN

Présentez-vous sur le stand Azure (zone Services & Tools)

Participez au tirage au sort à 18h30 le 12 ou le 13 février

1

2

3

Page 3: Big Data : Manage, Refine, Analyze

Agenda

Introduction : Motivation et Scénarios

Hadoop : Etude d’un cas d’utilisation

Hadoop en environnement Microsoft

Hadoop: Stratégie Microsoft

Page 4: Big Data : Manage, Refine, Analyze

IntroductionMotivations & Scénarios

Page 5: Big Data : Manage, Refine, Analyze

La prochaine révolution?

Data Complexity: Variety and Velocity

Terabytes

Gigabytes

Megabytes

Petabytes Big

DataLog files

Spatial & GPS coordinates

Data market feeds

eGov feeds

Weather

Text/image

Click stream

Wikis/blogs

Sensors/RFID/devices

Social sentiment

Audio/video

Web 2.0

Web Logs

Digital Marketing

Search Marketing

Recommendations

Advertising

Mobile

Collaboration

eCommerce

ERP/CRM

Payables

Payroll

Inventory

Contacts

Deal Tracking

Sales Pipeline

Page 6: Big Data : Manage, Refine, Analyze

De nouvelles contraintes sur la donnée

Volume

Variety

Velocity

Relational Data

Source: IDC's 2012 Vertical IT and Communications Survey

Page 7: Big Data : Manage, Refine, Analyze

Portées par des demandes métiers

Source: IDC's 2012 Vertical IT and Communications SurveyN=4117

Page 8: Big Data : Manage, Refine, Analyze

Une révolution qui semble mûre

Page 9: Big Data : Manage, Refine, Analyze

Mais il reste de nombreuses questions

Source: IDC's 2012 Vertical IT and Communications SurveyN=4117

Big Data Challenges :

Page 10: Big Data : Manage, Refine, Analyze

Le cycle de vie de la donnée

InsightManage Enrich

Impact

Page 11: Big Data : Manage, Refine, Analyze

Manage - Gérer

RelationalNon-Relational Streaming

010101010101010101101010101010101001010101010101101010101010

Unified Monitoring, Management & Security

Data Movement

Page 12: Big Data : Manage, Refine, Analyze

Enrich - enrichir

Discover

Combine

Refine

Page 13: Big Data : Manage, Refine, Analyze

Insight

RelationalNon-Relational Streaming

010101010101010101101010101010101001010101010101101010101010

BI ProfessionalsBusiness AnalystsData Scientists

Page 14: Big Data : Manage, Refine, Analyze

HadoopEtude d’un cas d’utilisation

Page 15: Big Data : Manage, Refine, Analyze

OS Cloud VM Appliance

Enterprise Hadoop Platform Components

Hortonworks Data Platform (HDP)

Enterprise Hadoop

The ONLY 100% open source and complete distribution

Enterprise grade, proven and tested at scale

Ecosystem endorsed to ensure interoperability

PLATFORM SERVICES

HADOOP CORE

Enterprise ReadinessHigh Availability, Disaster Recovery, Snapshots, Security, etc…

HORTONWORKS DATA PLATFORM (HDP)

OPERATIONAL SERVICES

DATASERVICES

HCATALOG

HIVEPIGHBASE

OOZIE

AMBARI

HDFS YARN (in 2.0)

WEBHDFS MAP REDUCE

SQOOP

FLUME

Page 16: Big Data : Manage, Refine, Analyze

© Hortonworks Inc. 2013

Next-Generation Data ArchitectureAP

PLIC

ATIO

NS

DATA

SYS

TEM

S

TRADITIONAL REPOSRDBMS EDW MPP

DATA

SO

URC

ES

OLTP, POS SYSTEMS

OPERATIONALTOOLS

MANAGE & MONITOR

Traditional Sources (RDBMS, OLTP, OLAP)

New Sources (web logs, email, sensor data, social media)

DEV & DATATOOLS

BUILD & TEST

Business Analytics Custom Applications Enterprise Applications

HORTONWORKS

DATA PLATFORM

Page 17: Big Data : Manage, Refine, Analyze

Big DataTransactions, Interactions, Observations

Hadoop Patterns of UseBusiness Cases

HORTONWORKS DATA PLATFORM

Refine Explore Enrich

Batch Interactive Online

Page 18: Big Data : Manage, Refine, Analyze

Operational Data RefineryDA

TA S

YSTE

MS

DATA

SO

URC

ES

1

3

1 CaptureCapture all data

ProcessParse, cleanse, apply structure & transform

ExchangePush to existing data warehouse for use with existing analytic tools

2

3

Refine Explore Enrich

2

APPL

ICAT

ION

S

Collect data and apply a known algorithm to it in trusted operational process

TRADITIONAL REPOSRDBMS EDW MPP

HORTONWORKS DATA PLATFORM

Business Analytics Custom Applications Enterprise Applications

Traditional Sources (RDBMS, OLTP, OLAP)

New Sources (web logs, email, sensor data, social media)

Page 19: Big Data : Manage, Refine, Analyze

Big Data Exploration & VisualizationDA

TA S

YSTE

MS

DATA

SO

URC

ES

Refine Explore Enrich

APPL

ICAT

ION

S

1 CaptureCapture all data

ProcessParse, cleanse, apply structure & transform

ExchangeExplore and visualize with analytics tools supporting Hadoop

2

3

Collect data and perform iterative investigation for value3

2TRADITIONAL REPOS

RDBMS EDW MPP

1

HORTONWORKS DATA PLATFORM

Business Analytics

Traditional Sources (RDBMS, OLTP, OLAP)

New Sources (web logs, email, sensor data, social media)

Page 20: Big Data : Manage, Refine, Analyze

Application EnrichmentDA

TA S

YSTE

MS

DATA

SO

URC

ES

Refine Explore Enrich

APPL

ICAT

ION

S

1 CaptureCapture all data

ProcessParse, cleanse, apply structure & transform

ExchangeIncorporate data directly into applications

2

3

Collect data, analyze and present salient results for online apps3

1

2TRADITIONAL REPOS

RDBMS EDW MPP

Traditional Sources (RDBMS, OLTP, OLAP)

New Sources (web logs, email, sensor data, social media)

Custom Applications Enterprise Applications

NOSQL

HORTONWORKS DATA PLATFORM

Page 21: Big Data : Manage, Refine, Analyze

Patterns Across Verticals and Business Cases

Vertical Refine Explore Enrich

Retail & Web • Log Analysis/Site Optimization• Loyalty Program Optimization

• Brand and Sentiment Analysis• Market basket analysis

• Dynamic Pricing• Session & Content Optimization• Product recommendation

Telco • Customer profiling • Equipment failure prediction • Location based advertising

Government • Threat Identification • Person of Interest Discovery • Cross Jurisdiction Queries

Finance• Risk Modeling & Fraud

Identification• Trade Performance Analytics

• Surveillance and Fraud Detection• Customer Risk Analysis

• Real-time upsell, cross sales marketing offers

Energy • Smart Grid: Production Optimization

• Grid Failure Prevention• Smart Meters

• Individual Power Grid

Manufacturing • Supply Chain Optimization • Customer Churn Analysis• Dynamic Delivery• Replacement parts

Healthcare • Electronic Medical Records (EMPI)• Clinical decision support• Clinical Trials Analysis

• Insurance Premium Determination

Page 22: Big Data : Manage, Refine, Analyze

demoDÉPLOIEMENT D’UN CLUSTER HORTONWORKS

Hébergement du cluster dans Azure

Page 23: Big Data : Manage, Refine, Analyze

HadoopHadoop en environnement Microsoft

Page 25: Big Data : Manage, Refine, Analyze

demoAZURE HD INSIGHT SERVERDécouverte du service Hadoop On Azure

Page 26: Big Data : Manage, Refine, Analyze

Hive : HDFS vs ASV

Hive & HDFS

• Parallel read/write• Data locality optimization• Rack locality optimization

Hive & ASV

• Parallel read/write• Independent scalability of

compute and storage• Azure topology awareness

Page 27: Big Data : Manage, Refine, Analyze

MapReduce with HDFS

Name Node

Data Node 1

Data Node 2

Data Node 3

MetadataIp.csv (583 rows)- DataNode1 (1-193)- DataNode2 (194-387)- DataNode3 (338-583)

Ip.csv (1-193)

Ip.csv (194-387)

Ip.csv (388-583)

Split

Map TaskMF-001MF-002

MF-193

Map TaskMF-194MF-195

MF-387

Map TaskMF-388MF-389

MF-583

Combiner

(F;0, M;100

Combiner

Combiner

(F;42, M;41

(F;100, M;300

Reducer

(F;142,

M;441

Data locality optimization

Page 28: Big Data : Manage, Refine, Analyze

MapReduce with ASV

MapMF-001MF-002

MF-193

MapMF-194MF-195

MF-387

MapMF-388MF-389

MF-583

Combiner

(F;0, M;100

Combiner

Combiner

(F;42, M;41

(F;100, M;300

Reducer

(F;142,

M;441

ASV

ASV://mycontainer/myfolder/Ip.csv

Skip(0)

Skip(194)

Skip(388)

Page 29: Big Data : Manage, Refine, Analyze

demoAZURE HD INSIGHT SERVER

Chargement de données de ASV vers HDFS, exécution de requêtes, agrégation de résultats

Page 30: Big Data : Manage, Refine, Analyze

Case Study – Klout Data Architecture

Serving Stores

SignalCollectors

(Java/Scala)

Data Warehouse

(Hive)

Klout.com(Node.js)

Event Tracker(Scala)

Mobile(ObjectiveC)

Analytics

Cubes(SSAS)

Klo

ut A

PI

(Sca

la)

Search Index(Elastic Search)

Registrations DB

(MySql)

Profile DB(HBase)

Streams(MongoDB)

Dashboards(Tableau)

Perks Analyics(Scala)

Monitoring(Nagios)

DataEnhanceme

ntEngine

(PIG/Hive)

Partner API(Mashery)

Case Study: Data Services Firm Uses Microsoft BI and Hadoop to Boost Insight into Big Data

Page 31: Big Data : Manage, Refine, Analyze

Les briques d’une solution Big Data

PIG HIVE

Map/Reduce

Name Node Data

Node

Data Node

Data Node

Files System

ASV HDFS

File System

Connector

CEP

Bulk Load

MAHOUT Pegasus Reporting

Application Server

RDBMS

OLAP

System Center

Sources de données

Acquisition, Stockage, Traitement des donnéesBusiness

IntelligenceSupervision

Page 32: Big Data : Manage, Refine, Analyze

Big Data : La proposition de valeur de MicrosoftCloud Services Virtual Machine On-premise

HDInsight Services

Map/Reduce

Name Node Data

Node

Data Node

Data Node

Files System

ASV HDFSSQOOP

StreamInsight

Plume

MAHOUT Pegasus

Microsoft Windows Azure

SSRS

SharePoint

SQL

Database

SSAS

System Center

Sources de données

Acquisition, Stockage, Traitement des donnéesBusiness

IntelligenceSupervision

PIG HIVESQL Reporting

Page 33: Big Data : Manage, Refine, Analyze

demoAZURE HD INSIGHT SERVER, SQL2012, POWERPIVOT, POWERVIEW

Agrégation de données issues de multiples sources

Page 34: Big Data : Manage, Refine, Analyze

Big DataStratégie Microsoft

Page 35: Big Data : Manage, Refine, Analyze

Big Data : Stratégie Microsoft vis-à-vis d’Hadoop

• Apache distribution of Hadoop

• Submit changes back to Apache Foundation

• Optimized for Windows & Azure

• ‘Just works’ on Windows Azure and Server

• Wider Ecosystem • Integration with Visual Studio, Javascript, Excel, etc.

• Enterprise Readiness

• Performance, Scale, High Availability

• Management, Ease of use• Security, Data Governance• Integration with AD and SC.

• Structured and Unstructured

• Integrate as part of our overall data platform

Page 36: Big Data : Manage, Refine, Analyze

Ressources techniqueshttps://www.hadooponazure.com/

http://www.microsoft.com/en-us/sqlserver/solutions-technologies/business-intelligence/big-data.aspx

http://gettingstarted.hadooponazure.com/

http://gettingstarted.hadooponazure.com/gettingStartedHw.html

http://weatherservice.cloudapp.net

http://www.srh.noaa.gov/rfcshare/ffg_download/ffg_download.php

http://social.technet.microsoft.com/wiki/contents/articles/14320.processing-noaa-flash-flood-guidance-data-in-sql-server.aspx

http://blogs.msdn.com/b/sqlcat/archive/2013/02/01/mash-up-hive-sql-server-data-in-powerpivot-amp-power-view-hurricane-sandy-2012.aspx

Page 37: Big Data : Manage, Refine, Analyze

4 ouvrages écrits par 13 Microsoftees

http://www.editions-eyrolles.com/livres/Windows-8-pour-les-professionnels

Page 38: Big Data : Manage, Refine, Analyze

© 2012 Microsoft Corporation. Tous droits réservés. Microsoft, Windows et les autres noms de produits sont des marques déposées ou des marques commerciales de Microsoft aux États-Unis et/ou dans d'autres pays.Les informations contenues dans ce document sont fournies uniquement à titre indicatif. Elles représentent l'opinion actuelle de Microsoft Corporation sur les points cités à la date de cette présentation. Microsoft s'adapte aux conditions fluctuantes du marché et ce document ne doit pas être interprété comme un engagement de la part de Microsoft ; de plus, Microsoft ne peut pas garantir la véracité de toute information présentée après la date de la présentation. MICROSOFT EXCLUT TOUTE GARANTIE, EXPRESSE, IMPLICITE OU STATUTAIRE, EN CE QUI CONCERNE CETTE PRÉSENTATION.

© 2012 Microsoft Corporation. Tous droits réservés. Microsoft, Windows et les autres noms de produits sont des marques déposées ou des marques commerciales de Microsoft aux États-Unis et/ou dans d'autres pays.Les informations contenues dans ce document sont fournies uniquement à titre indicatif. Elles représentent l'opinion actuelle de Microsoft Corporation sur les points cités à la date de cette présentation. Microsoft s'adapte aux conditions fluctuantes du marché et ce document ne doit pas être interprété comme un engagement de la part de Microsoft ; de plus, Microsoft ne peut pas garantir la véracité de toute information présentée après la date de la présentation. MICROSOFT EXCLUT TOUTE GARANTIE, EXPRESSE, IMPLICITE OU STATUTAIRE, EN CE QUI CONCERNE CETTE PRÉSENTATION.