Manage Traceability with Apache Atlas flexible metadata repository.
-
Upload
ow2-consortium -
Category
Technology
-
view
378 -
download
0
Transcript of Manage Traceability with Apache Atlas flexible metadata repository.
![Page 1: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/1.jpg)
Copyright Synaltic 2015
CDAP, la boîte à outil pour concevoir vos applications Big Data
Simplifier l'approche Big Data
Charly ClairmontSynaltic@[email protected]://synaltic.fr
![Page 2: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/2.jpg)
Copyright Synaltic 2015
Plus d'une dizaine d'années d'expérience
Co-fondateur d'Altic, maintenant Synaltic
Co-fondateur du Hadoop User Groupe France
Aime faire connaître les technologies open source surtout celles dédiées à l'entreprise
Charly Clairmont
2
![Page 3: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/3.jpg)
Copyright Synaltic 2015
Société de conseils et de services spécialisée dans la mise en œuvre de projets de Data Management
Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic
25 spécialistes en Data Management
Filiale en Suisse , à Lausanne
Nos valeursEngagement
Expertise
Fidélité
Synaltic
3
R&D
Training
SupportProject
Expertise
Data Intelligence
Data Platform
Data Governance
Data ExchangeSYNALTIC
![Page 4: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/4.jpg)
Copyright Synaltic 2015
Big Data, un écosystème « hyperactif »
Core HadoopHDFS, MR
2006
HbaseZookeeper
Core Hadoop
2008
HivePig
MahoutHbase
ZookeeperCore Hadoop
2009
SqoopwhirrAvroHivePig
MahoutHbase
ZookeeperCore Hadoop
2010
FlumeBigtopOozie
MRUnitHCatalog
SqoopwhirrAvroHivePig
MahoutHbase
ZookeeperCore Hadoop
2011
SparkImpala
SolrKafkaFlumeBigtopOozie
MRUnitHCatalog
SqoopwhirrAvroHivePig
MahoutHbase
ZookeeperCore Hadoop
2012
NifiFlinkAtlas
RangerDrill
ParquetSentrySparkImpala
SolrKafkaFlumeBigtopOozie
MRUnitHCatalog
SqoopwhirrAvroHivePig
MahoutHbase
ZookeeperCore Hadoop
Aujourd'hui
Arun Murthy, founder of Hortonworks : « I think you are getting a lot more attention to fit and finish rather than to just getting the new technology in»
![Page 5: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/5.jpg)
Copyright Synaltic 2015
!! Simplifier Hadoop !!
![Page 6: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/6.jpg)
Copyright Synaltic 2015
Le nouveau mot d'ordre : « Le Data Lake »
Data Lake
« Enterprise-wide datamanagement platforms for
analyzing disparate sources of data in its native format »
Data Lake
« Collect everything, dive inanywhere, give flexible
access. Maximum scale and insight with the lowest Possible friction and cost. »
Data Hub
« A centralized, unified data Source that can quickly
provide diverse business users with the information
they need to do their jobs. »
Gartner Hortonworks Cloudera
![Page 7: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/7.jpg)
Copyright Synaltic 2015
« Le Data Lake », plusieurs architectures
« Étang » « Lac » « Réservoir »
Données Internes Existantes
Traitements / Analyses
Diffusion
Données Externes
PME / Business Units
« Dessilotage »
Startups / IoT
Stockage & Analyse de logs
logs brutes
Traitements & Analyses
Toutes données !!
Audits
Gouvernance
Traitements & Analyses
Grandes Organisations
Passage à l'échelle du DWH
Diffusion
Données Internes Existantes
DiffusionDonnées Externes
![Page 8: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/8.jpg)
Copyright Synaltic 2015
« Le Data Lake », de nombreux challenges
« Étang » « Lac » « Réservoir »
Traitements manuels
Traçabilité (lineage)
Exploitabilité
Découpler ingestion et traitements
Conserver la donnée d'origine
Partager l'infrastructure
Couvrir plusieursarchitectures
Traçabilité
Agile / réactif
![Page 9: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/9.jpg)
Copyright Synaltic 2015
Attention aux enjeux techniques des projets !
Consistance Intégration Éviter l'inutile
Ré-utilisabilité Simplicité Productivité
![Page 10: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/10.jpg)
Copyright Synaltic 2015
Cask Data Application Platform
L'objectif de Cask Data Application Platform, CDAP, est de permettre à tout développeur ou toute organisation de rapidement et facilement créer, déployer, exécuter et suivre des applications modernes à l'aide de technologies Big Data telles que Hadoop
![Page 11: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/11.jpg)
Copyright Synaltic 2015
Open Source (Licence Apache V 2.0)
Framework & Plateforme pour développeurs & organisations
Construire, déployer, et gérer vos applications
CDAP
11
Supporte les principales distributions Hadoop
S'appuie sur les dernières technologies Big Data
Standards
![Page 12: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/12.jpg)
Copyright Synaltic 2015
CDAP, tout en un !
12
![Page 13: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/13.jpg)
Copyright Synaltic 2015
Architecture hautement disponible
13
![Page 14: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/14.jpg)
Copyright Synaltic 2015
CDAP, tout en un !
14
![Page 15: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/15.jpg)
Copyright Synaltic 2015
Hydrator, un ETL pour le Big Data
15
![Page 16: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/16.jpg)
Copyright Synaltic 2015
Ex : Réputation de pages web, architecture application
16
Programmes– Injection des paires d'url
– SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat d'un jeu de données : ranks
– RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce ⇒ résultat d'un jeu de données : rankscount
Workflow
– PageRankWorkflow : Enchaînement des programmes SparkPageRankProgram et RanksCounter
Service :
– SparkPageRankService : connaître le rang d'une url
![Page 17: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/17.jpg)
Copyright Synaltic 2015
Ex : Réputation de pages web, l'application
17
![Page 18: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/18.jpg)
Copyright Synaltic 2015
Ex : Réputation de pages web, déploiement de l'application
18
Enregistrement et déploiement de l'application
Lancement du service
Exécution d'un flux de l'application
![Page 19: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/19.jpg)
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Liste des applications,
Liste des jeux de données
![Page 20: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/20.jpg)
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque application
– Les programmes associés
– Traçabilité des programmes
![Page 21: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/21.jpg)
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque application
– Les jeux de données associés
● Traçabilité des jeux de données
![Page 22: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/22.jpg)
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque application
– Paramétrage
– Exécution de l'application
![Page 23: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/23.jpg)
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque application
– Suivi des exécutions
![Page 24: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/24.jpg)
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Les services sont disponibles pour l'intégration aux applications tierces
![Page 25: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/25.jpg)
Copyright Synaltic 2015
Ex : Réputation de pages web, visible depuis l'interface web
Les jeux de données peuvent être accédés via JDBC
![Page 26: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/26.jpg)
Copyright Synaltic 2015
CDAP simplifie les projets Big Data
CDAP apporte une gestion de bout en bout de vos projets Big Data
CDAP offre une vision complète et unifiée pour l'ensemble de vos applications Big Data
– Extensibilité– Metadonnées– Audit– Suivi
Ce qu'il faut retenir
26
![Page 27: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/27.jpg)
Copyright Synaltic 2015
CDAP : – http://cdap.io/
Documentation :– http://docs.cdap.io/cdap/current/en/index.html
Source : – https://github.com/caskdata/cdap
Editeur : – http://cask.co/
Liens
27
![Page 28: Manage Traceability with Apache Atlas flexible metadata repository.](https://reader033.fdocuments.fr/reader033/viewer/2022042611/58e56d3f1a28abd82b8b5967/html5/thumbnails/28.jpg)
Copyright Synaltic 2015
Questions / Réponses