Manage Traceability with Apache Atlas flexible metadata repository.

28
Copyright Synaltic 2015 CDAP, la boîte à outil pour concevoir vos applications Big Data Simplifier l'approche Big Data Charly Clairmont Synaltic @egwada [email protected] http://synaltic.fr

Transcript of Manage Traceability with Apache Atlas flexible metadata repository.

Page 1: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

CDAP, la boîte à outil pour concevoir vos applications Big Data

Simplifier l'approche Big Data

Charly ClairmontSynaltic@[email protected]://synaltic.fr

Page 2: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Plus d'une dizaine d'années d'expérience

Co-fondateur d'Altic, maintenant Synaltic

Co-fondateur du Hadoop User Groupe France

Aime faire connaître les technologies open source surtout celles dédiées à l'entreprise

Charly Clairmont

2

Page 3: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Société de conseils et de services spécialisée dans la mise en œuvre de projets de Data Management

Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic

25 spécialistes en Data Management

Filiale en Suisse , à Lausanne

Nos valeursEngagement

Expertise

Fidélité

Synaltic

3

R&D

Training

SupportProject

Expertise

Data Intelligence

Data Platform

Data Governance

Data ExchangeSYNALTIC

Page 4: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Big Data, un écosystème « hyperactif »

Core HadoopHDFS, MR

2006

HbaseZookeeper

Core Hadoop

2008

HivePig

MahoutHbase

ZookeeperCore Hadoop

2009

SqoopwhirrAvroHivePig

MahoutHbase

ZookeeperCore Hadoop

2010

FlumeBigtopOozie

MRUnitHCatalog

SqoopwhirrAvroHivePig

MahoutHbase

ZookeeperCore Hadoop

2011

SparkImpala

SolrKafkaFlumeBigtopOozie

MRUnitHCatalog

SqoopwhirrAvroHivePig

MahoutHbase

ZookeeperCore Hadoop

2012

NifiFlinkAtlas

RangerDrill

ParquetSentrySparkImpala

SolrKafkaFlumeBigtopOozie

MRUnitHCatalog

SqoopwhirrAvroHivePig

MahoutHbase

ZookeeperCore Hadoop

Aujourd'hui

Arun Murthy, founder of Hortonworks : « I think you are getting a lot more attention to fit and finish rather than to just getting the new technology in»

Page 5: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

!! Simplifier Hadoop !!

Page 6: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Le nouveau mot d'ordre : « Le Data Lake »

Data Lake

« Enterprise-wide datamanagement platforms for

analyzing disparate sources of data in its native format »

Data Lake

« Collect everything, dive inanywhere, give flexible

access. Maximum scale and insight with the lowest Possible friction and cost. »

Data Hub

« A centralized, unified data Source that can quickly

provide diverse business users with the information

they need to do their jobs. »

Gartner Hortonworks Cloudera

Page 7: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

« Le Data Lake », plusieurs architectures

« Étang » « Lac » « Réservoir »

Données Internes Existantes

Traitements / Analyses

Diffusion

Données Externes

PME / Business Units

« Dessilotage »

Startups / IoT

Stockage & Analyse de logs

logs brutes

Traitements & Analyses

Toutes données !!

Audits

Gouvernance

Traitements & Analyses

Grandes Organisations

Passage à l'échelle du DWH

Diffusion

Données Internes Existantes

DiffusionDonnées Externes

Page 8: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

« Le Data Lake », de nombreux challenges

« Étang » « Lac » « Réservoir »

Traitements manuels

Traçabilité (lineage)

Exploitabilité

Découpler ingestion et traitements

Conserver la donnée d'origine

Partager l'infrastructure

Couvrir plusieursarchitectures

Traçabilité

Agile / réactif

Page 9: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Attention aux enjeux techniques des projets !

Consistance Intégration Éviter l'inutile

Ré-utilisabilité Simplicité Productivité

Page 10: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Cask Data Application Platform

L'objectif de Cask Data Application Platform, CDAP, est de permettre à tout développeur ou toute organisation de rapidement et facilement créer, déployer, exécuter et suivre des applications modernes à l'aide de technologies Big Data telles que Hadoop

Page 11: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Open Source (Licence Apache V 2.0)

Framework & Plateforme pour développeurs & organisations

Construire, déployer, et gérer vos applications

CDAP

11

Supporte les principales distributions Hadoop

S'appuie sur les dernières technologies Big Data

Standards

Page 12: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

CDAP, tout en un !

12

Page 13: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Architecture hautement disponible

13

Page 14: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

CDAP, tout en un !

14

Page 15: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Hydrator, un ETL pour le Big Data

15

Page 16: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Ex : Réputation de pages web, architecture application

16

Programmes– Injection des paires d'url

– SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat d'un jeu de données : ranks

– RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce ⇒ résultat d'un jeu de données : rankscount

Workflow

– PageRankWorkflow : Enchaînement des programmes SparkPageRankProgram et RanksCounter

Service :

– SparkPageRankService : connaître le rang d'une url

Page 17: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Ex : Réputation de pages web, l'application

17

Page 18: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Ex : Réputation de pages web, déploiement de l'application

18

Enregistrement et déploiement de l'application

Lancement du service

Exécution d'un flux de l'application

Page 19: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Liste des applications,

Liste des jeux de données

Page 20: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Pour chaque application

– Les programmes associés

– Traçabilité des programmes

Page 21: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Pour chaque application

– Les jeux de données associés

● Traçabilité des jeux de données

Page 22: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Pour chaque application

– Paramétrage

– Exécution de l'application

Page 23: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Pour chaque application

– Suivi des exécutions

Page 24: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Les services sont disponibles pour l'intégration aux applications tierces

Page 25: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Ex : Réputation de pages web, visible depuis l'interface web

Les jeux de données peuvent être accédés via JDBC

Page 26: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

CDAP simplifie les projets Big Data

CDAP apporte une gestion de bout en bout de vos projets Big Data

CDAP offre une vision complète et unifiée pour l'ensemble de vos applications Big Data

– Extensibilité– Metadonnées– Audit– Suivi

Ce qu'il faut retenir

26

Page 27: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

CDAP : – http://cdap.io/

Documentation :– http://docs.cdap.io/cdap/current/en/index.html

Source : – https://github.com/caskdata/cdap

Editeur : – http://cask.co/

Liens

27

Page 28: Manage Traceability with Apache Atlas flexible metadata repository.

Copyright Synaltic 2015

Questions / Réponses