Manage Traceability with Apache Atlas flexible metadata repository.

Post on 06-Apr-2017

378 views 0 download

Transcript of Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

CDAP, la boîte à outil pour concevoir vos applications Big Data

Simplifier l'approche Big Data

Charly ClairmontSynaltic@egwadacclairmont@synaltic.frhttp://synaltic.fr

Copyright Synaltic 2015

Plus d'une dizaine d'années d'expérience

Co-fondateur d'Altic, maintenant Synaltic

Co-fondateur du Hadoop User Groupe France

Aime faire connaître les technologies open source surtout celles dédiées à l'entreprise

Charly Clairmont

2

Copyright Synaltic 2015

Société de conseils et de services spécialisée dans la mise en œuvre de projets de Data Management

Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic

25 spécialistes en Data Management

Filiale en Suisse , à Lausanne

Nos valeursEngagement

Expertise

Fidélité

Synaltic

3

R&D

Training

SupportProject

Expertise

Data Intelligence

Data Platform

Data Governance

Data ExchangeSYNALTIC

Copyright Synaltic 2015

Big Data, un écosystème « hyperactif »

Core HadoopHDFS, MR

2006

HbaseZookeeper

Core Hadoop

2008

HivePig

MahoutHbase

ZookeeperCore Hadoop

2009

SqoopwhirrAvroHivePig

MahoutHbase

ZookeeperCore Hadoop

2010

FlumeBigtopOozie

MRUnitHCatalog

SqoopwhirrAvroHivePig

MahoutHbase

ZookeeperCore Hadoop

2011

SparkImpala

SolrKafkaFlumeBigtopOozie

MRUnitHCatalog

SqoopwhirrAvroHivePig

MahoutHbase

ZookeeperCore Hadoop

2012

NifiFlinkAtlas

RangerDrill

ParquetSentrySparkImpala

SolrKafkaFlumeBigtopOozie

MRUnitHCatalog

SqoopwhirrAvroHivePig

MahoutHbase

ZookeeperCore Hadoop

Aujourd'hui

Arun Murthy, founder of Hortonworks : « I think you are getting a lot more attention to fit and finish rather than to just getting the new technology in»

Copyright Synaltic 2015

!! Simplifier Hadoop !!

Copyright Synaltic 2015

Le nouveau mot d'ordre : « Le Data Lake »

Data Lake

« Enterprise-wide datamanagement platforms for

analyzing disparate sources of data in its native format »

Data Lake

« Collect everything, dive inanywhere, give flexible

access. Maximum scale and insight with the lowest Possible friction and cost. »

Data Hub

« A centralized, unified data Source that can quickly

provide diverse business users with the information

they need to do their jobs. »

Gartner Hortonworks Cloudera

Copyright Synaltic 2015

« Le Data Lake », plusieurs architectures

« Étang » « Lac » « Réservoir »

Données Internes Existantes

Traitements / Analyses

Diffusion

Données Externes

PME / Business Units

« Dessilotage »

Startups / IoT

Stockage & Analyse de logs

logs brutes

Traitements & Analyses

Toutes données !!

Audits

Gouvernance

Traitements & Analyses

Grandes Organisations

Passage à l'échelle du DWH

Diffusion

Données Internes Existantes

DiffusionDonnées Externes

Copyright Synaltic 2015

« Le Data Lake », de nombreux challenges

« Étang » « Lac » « Réservoir »

Traitements manuels

Traçabilité (lineage)

Exploitabilité

Découpler ingestion et traitements

Conserver la donnée d'origine

Partager l'infrastructure

Couvrir plusieursarchitectures

Traçabilité

Agile / réactif

Copyright Synaltic 2015

Attention aux enjeux techniques des projets !

Consistance Intégration Éviter l'inutile

Ré-utilisabilité Simplicité Productivité

Copyright Synaltic 2015

Cask Data Application Platform

L'objectif de Cask Data Application Platform, CDAP, est de permettre à tout développeur ou toute organisation de rapidement et facilement créer, déployer, exécuter et suivre des applications modernes à l'aide de technologies Big Data telles que Hadoop

Copyright Synaltic 2015

Open Source (Licence Apache V 2.0)

Framework & Plateforme pour développeurs & organisations

Construire, déployer, et gérer vos applications

CDAP

11

Supporte les principales distributions Hadoop

S'appuie sur les dernières technologies Big Data

Standards

Copyright Synaltic 2015

CDAP, tout en un !

12

Copyright Synaltic 2015

Architecture hautement disponible

13

Copyright Synaltic 2015

CDAP, tout en un !

14

Copyright Synaltic 2015

Hydrator, un ETL pour le Big Data

15

Copyright Synaltic 2015

Ex : Réputation de pages web, architecture application

16

Programmes– Injection des paires d'url

– SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat d'un jeu de données : ranks

– RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce ⇒ résultat d'un jeu de données : rankscount

Workflow

– PageRankWorkflow : Enchaînement des programmes SparkPageRankProgram et RanksCounter

Service :

– SparkPageRankService : connaître le rang d'une url

Copyright Synaltic 2015

Ex : Réputation de pages web, l'application

17

Copyright Synaltic 2015

Ex : Réputation de pages web, déploiement de l'application

18

Enregistrement et déploiement de l'application

Lancement du service

Exécution d'un flux de l'application

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Liste des applications,

Liste des jeux de données

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Pour chaque application

– Les programmes associés

– Traçabilité des programmes

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Pour chaque application

– Les jeux de données associés

● Traçabilité des jeux de données

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Pour chaque application

– Paramétrage

– Exécution de l'application

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Pour chaque application

– Suivi des exécutions

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Les services sont disponibles pour l'intégration aux applications tierces

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Les jeux de données peuvent être accédés via JDBC

Copyright Synaltic 2015

CDAP simplifie les projets Big Data

CDAP apporte une gestion de bout en bout de vos projets Big Data

CDAP offre une vision complète et unifiée pour l'ensemble de vos applications Big Data

– Extensibilité– Metadonnées– Audit– Suivi

Ce qu'il faut retenir

26

Copyright Synaltic 2015

CDAP : – http://cdap.io/

Documentation :– http://docs.cdap.io/cdap/current/en/index.html

Source : – https://github.com/caskdata/cdap

Editeur : – http://cask.co/

Liens

27

Copyright Synaltic 2015

Questions / Réponses