AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes...

48
AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营 AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营 王晓野,AWS 解决方案架构师 借助 AWS Lake Formation 构建云上数据湖

Transcript of AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes...

Page 1: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

王晓野,AWS 解决方案架构师

借助 AWS Lake Formation 构建云上数据湖

Page 2: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

议程

企业数据分析平台的演变

基于Amazon S3 的AWS云上数据湖架构

AWS Lake Formation 介绍及demo 演示

Page 3: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

在线应用(OLTP)

RDBMS

数据库

SQL

生产数据库(主库)

RDBMS

数据库

SQL

供分析的数据库(从库)

数据分析平台的演变

离线分析(OLAP)

RDBMS 为在线平台设计,不适合分析

Page 4: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

在线应用(OLTP)

RDBM

S

数据库

离线分析(OLAP)

SQL

生产数据库(主库)

RDBM

S

数据库

SQL

供分析的数据库(从库)

Data

Warehouse

数据仓库

ETL

?日志、爬虫数据、第三方数据…

数据分析平台的演变

数据仓库的容量限制、性能瓶颈、成本如何存储非结构化数据“Schema-on-Write”,不能直接存储非预期数据

Page 5: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

在线应用(OLTP)

RDBMS

数据库

离线分析(OLAP)

SQL

生产数据库(主库)

RDBMS

数据库

SQL

供分析的数据库(从库)

Data

Warehouse

数据仓库

ETL

HDFS

HBase

Map

Reduce

Java

Java

Hadoop

日志、爬虫数据、第三方数据…

数据分析平台的演变

数据分析人员需要学习新的语言Hadoop 需要新的数据工程师 (数据库背景,研发背景工程师比例出现变化)

Page 6: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Lambda

architecture

Nathan Marz

http://lambda-architecture.net/

LAMBDA 架构与实时计算

Page 7: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

在线应用(OLTP)

RDBMS

数据库离线分析(OLAP)

&

实时分析

SQL

生产数据库(主库)

RDBMS数据库

SQL

供分析的数据库(从库)

Data

Warehouse

数据仓库

ETL

HDFS

SQL*

Hadoop

日志、爬虫数据、第三方数据…

Spark

Flink

NoSQL DB(MongDB,Cass

andra,etc.)

企业数据分析平台的演变

Presto

Hive

YARN

Page 8: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

基于Lambda架构的欣和数据湖设计

数据库数据

文本数据

不规则数据

文字图片

实时处理层

批量处理层

数据挖掘

实时/流数据

可做本地备份

分布式消息列

贴源层

模型层

历史结果层

7x24 实时处理集群

欣和自建集成组件 分布式(对象储存)分批数据

弹性处理集群Java 集成应用

Sqoop

元数据搜索(自建)

云数据仓库

模型层

数据集市

NoSQL 实时数据库1

数据服务层

数据服务API

数据服务平台接口

监控与日志预警

数字产品

数字产品

数据挖掘工具

数据治理

元数据管理 (自建)

数据挖掘分布式(对象储存)

无需备份

弹性建模集群

实时分析

自助报表

仪表盘

自建RDS

redshift

Page 9: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

某车企全球数据湖架构核心价值:使用数据为数字客户和企业软件提供支持

统一身份和访问管理 围绕最先进的云服务(AWS)构建 在不同市场快速建立基础设施 以单点真相提供与市场相关的数据资产

API首先 用于轻松访问数据的层(例如实时,批处理)

支持各种数据资产的自助数据集成 数据管理和编目市场中的数据资产

^

本地数据湖

连接车辆 … …客户生态系统

统一数据API

数据湖

数据网格

关系数据物联网传感器数据

经销商管理系统

客户管理系统

……

Page 10: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

数据湖 – 实现数据变成资产

•业务目标• 数字化经济,数据驱动业务• 提升企业运营效率• 预判发展趋势,提升企业竞争力

PredictiveReactive

建立数据探索能力

•技术目标• 停止丢弃数据• 分析无处不在,采用多种技术• 自动化, API 化• 赋能给更多用户,建立数据探索能力

•敏捷,自助式服务•协作,促进企业内部协作

敏捷, 协作经济

自助式被动式

Page 11: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

议程

企业数据分析平台的演变

基于Amazon S3 的AWS云上数据湖架构

AWS Lake Formation 介绍

Page 12: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

1985: Data Warehouse Appliances

Shared Storage Tier

(NAS Appliance)

Compute

Node

Compute

Node

Compute

Node

Compute

Node

• 昂贵的商业授权• 完全定制的高性能硬件,只能从厂商采购

2012: Amazon Redshift – Cloud DW

Leader node

Compute

node

10 GigE

(HPC)

Ingestion

Backup

Restore

Customer VPC

Internal VPC

BI tools SQL clientsAnalytics tools

Compute

node

Compute

node

JDBC/ODBC

AWS云上数据分析平台的创新

Page 13: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

2006: Hadoop Clusters

CPU

Memory

HDFS Storage

Hadoop Master Node

CPU

Memory

HDFS Storage

CPU

Memory

HDFS Storage

2009: Decoupled EMR Architecture

CPU

Memory

Hadoop Master Node

CPU

Memory

CPU

Memory

S3 as HDFS

AWS云上数据分析平台的创新

Page 14: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Today: Clusterless 改进

• 无需管理集群/基础设施• 业务人员及分析师可以无需提前规划集群直接

提交SQL编写分析查询• 按请求计费• 零运维管理• 无需数据移动

不足

• 开发语言/框架目前仅限于SQL / Spark

SQL Interface in web

browser

Athena for SQL

S3 Data Lake

Glue for ETL

S3 Data Lake

Spark & Hive Interface

in web browser

AWS云上数据分析平台的创新

Page 15: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon

Snowbal

lAWS

Snowmobile Amazon

Kinesis

Data Firehose

Amazon

Kinesis

Data Streams

Amazon S3Amazon

Redshift

Amazon

EMR

Amazon

Athena

Amazon

Kinesis Amazon

Elasticsearch

Service

Amazon Simple Storage Service (Amazon S3)

Amazon

Kinesis

Video Streams

AI Services

Amazon

QuickSight• AWS 的第一个云服务(2006)• 99.999999999% 数据持久性• 不限对像格式• 存储无上限• 按使用付费,价格便宜• 支持事件驱动的自动化• 替换 HDFS,解耦计算与存储• 与多种分析方式深度集成

Page 16: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

企业数据湖示例架构

Raw Data Zone Trusted Data Zone

Discovery Sandbox Zone

Amazon Redshift

Amazon S3

Amazon S3

Amazon Kinesis

AWS Transfer for SFTP

Amazon EMR for Spark Streaming, Hive AWS Glue

ETL & Data Process日志分析/企业搜索

报表/仪表盘

机器学习

即时查询

数据分析

元数据管理 作业与调度 脚本开发 监控与通知用户与访问 事件管理 ……

ML、R、Python

Cube

Amazon Athena

查询引擎

Amazon Elasticsearch

Service

搜索引擎

数据源 数据集成层 企业数据湖 服务层 访问层

Amazon S3

AWS Glue

SageMaker

OLTP

ERP

CRM

Devices

Web

Social

Page 17: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Epic Games 数据湖架构

Game

clients

Game

servers

Launcher

Game

services

N E A R R E A L T I M E P I P E L I N E

N E A R R E A L T I M E P I P E L I N E

Grafana

Scoreboards API

Limited Raw Data

(real time ad-hoc SQL)User ETL

(metric definition)

Spark on EMR DynamoDB

NEAR REALTIME PIPELINES

BATCH PIPELINES

ETL using

EMR

Tableau/BI

Ad-hoc SQLS3

(Data Lake)

Kinesis

APIs

Databases

S3

Other

sources

125,000,000+玩家

数据为游戏设计师提供持续的反馈循环最新的玩家满意度分析,提高玩家参与度创造出全世界深受欢迎的游戏

Page 18: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Equinox Fitness Cubs是一家集运动,营养和再生为一体的专注于高端生活品质的公司。 Equinox使用连接到Apple Health的应用程序构建了互联体验,并在其运动设备中实时收集数据

AdobeAnalytics

Amazon EMR

AthenaS3Glue Data Catalog

RedshiftSpectrum

S3

数据流水线

Page 19: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

议程

企业数据分析平台的演变

基于Amazon S3 的AWS云上数据湖架构

AWS Lake Formation 介绍

Page 20: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

跨多种服务的增强安全措施

获得更多的业务洞见能力

识别、接入、清洗、转换数据

在数日内构建安全的数据湖

AWS Lake Formation

Page 21: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

搭建数据湖的基本步骤

1 初始化存储

2 迁移数据

清洗、准备数据&元数据管理

3

确保安全性和合规性4

数据分析5

Page 22: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

示例步骤Find sources

Create Amazon Simple Storage Service (Amazon S3) locations Configure access policies

Map tables to Amazon S3 locations

ETL jobs to load and clean data

Create metadata access policies

Configure access from analytics services

Rinse and repeat for other:data sets, users, and end-services

And more:manage and monitor ETL jobsupdate metadata catalog as data changesupdate policies across services as users and permissions changemanually maintain cleansing scriptscreate audit processes for compliance…

Manual | Error-prone | Time consuming

Page 23: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

搭建一个完整的数据湖仍然需要数月的时间

Page 24: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Lake Formation 价值主张Data Lakes and analytics on AWS

S3

IAM KMSOLTP

ERP

CRM

LOB

Device

s

We

b

Sensors

Social Kinesis

快速构建数据湖• Identify, crawl, and catalog sources

• Ingest and clean data

• Transform into optimal formats

简化安全管理• Enforce encryption

• Define access policies

• Implement audit login

轻松安全地自助访问数据• Analysts discover all data available for analysis

from a single data catalog

• Use multiple analytics tools over the same data

Athena

Amazon

Redshift

AI Services

Amazon

EMR

Amazon

QuickSight

Data

Catalog

Page 25: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

核心模块

• Blueprints / Workflow - ETL任务工作流元数据及分区管理的模版

• 基于ML 算法的数据转换 – 基于机器学习的数据转换算法,解决特殊场景问题 (如:基于多列属性的数据去重)

• 增强的数据治理层 - 在元数据管理层增强权限管控及治理能力

• 增强的元数据管理 – 允许用户添加更丰富元数据信息,为数据添加标签 (库, 表, 列 级别)

Page 26: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS Lake Formation的简单四步

Page 27: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

轻松地导入数据

日志

logs

Blueprints

导入模板

数据库

Data Lake Storage

Data import Access DataControl Catalog

Lake Formation

Crawlers ML-based

data prep一次性全量导入

增量导入

Page 28: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Blueprints build on AWS Glue

Page 29: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Blueprints & Workflows

Blueprints 是数据摄取、转换、元数据(schema)和分区管理的模板. Blueprints 帮助客户快速、轻松地构建和维护一个数据湖。

Templates

1. 数据源在哪里2. 目标数据湖存储位置3. 设定多久装载一次数据

1. 自动发现源数据 Schema

2. 自动进行源和目标表的数据转换3. 自动数据分区4. 作业状态跟踪5. 灵活客户化 Blueprints 模板

Blueprints

Page 30: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Blueprints & Workflows

Page 31: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

使用ML transforms 轻松识别相同数据

https://www.youtube.com/watch?v=g34xUaJ4WI4

Page 32: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

EMR 权限管理 : Kerberos & Apache Ranger

https://docs.aws.amazon.com/emr/latest/Manageme

ntGuide/emr-kerberos-options.html

https://aws.amazon.com/blogs/big-

data/implementing-authorization-and-auditing-

using-apache-ranger-on-amazon-emr/

Page 33: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Lake Formation权限管理 : 一次型配置控制不同访问方式

Data Lake

Storage

Data

CatalogAccess

Control

Lake Formation

Admin

1.设置用户访问权限

2.用户尝试访问数据湖中的数据

3.接受调用的访问将用户

的认证信息发送到lakeformation

4.Lakeformation返回临时凭证给用户

Page 34: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Lake Formation 中的安全控制与授权

使用简单的grant和revoke管理权限

指定对表和列的权限,而不是对存储桶和对象的权限

轻松查看和管理用户权限

集中审计功能

Page 35: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

表及列级别的访问控制

User 1

User 2

Page 36: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS Lake Formation 的安全实现

用户

Amazon S3

Page 37: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

跨用户的搜索和协作

• 基于所有元数据的文本搜索

• 添加数据所有者、管理员等属

性作为表属性

• 添加数据敏感级别、列定义等

作为列属性

基于文本的搜索和过滤

在Athena中查询数据

Page 38: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

进阶的数据目录/元数据管理

Page 39: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

进阶的数据目录/元数据管理

Page 40: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

进阶的数据目录/元数据管理

Page 41: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

实时的审计和监控

• 控制台显示详细的告警信息

• 下载审计日志供进一步分析

• 数据接入和元数据信息操作事件

自动集成到Amazon CloudWatch

中供追溯

Page 42: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

DEMO:三步走创建数据湖

• 使用模板导入数据

• 设置数据权限在不同用户间共享数据

• 使用Athena查询数据

Page 43: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Step 1: 使用blueprint模板导入数据

Page 44: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

导入的数据以表的形式存在于数据湖中

Page 45: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Step 2: 设置用户权限

Page 46: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Step 3: 通过Athena查询数据

不同用户看到不同的内容

Page 47: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Page 48: AWS Lake Formation 构建云上数据湖 · 2019-07-16 · Lake Formation 价值主张 Data Lakes and analytics on AWS S3 IAM KMS OLTP ERP CRM LOB Device s We b Sensors Social Kinesis

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

我们希望您喜欢今天的内容!也请帮助我们完成反馈问卷。

欲获取关于 AWS 的更多信息和技术内容,可以通过以下方式找到我们:

微信公众号:AWSChina

新浪微博:https://www.weibo.com/amazonaws/

领英:https://www.linkedin.com/company/aws-china/

知乎:https://www.zhihu.com/org/aws-54/activities/

视频中心:http://aws.amazon.bokecc.com/

更多线上技术活动:https://aws.amazon.com/cn/about-aws/events/webinar/

感谢参加 AWS 在线研讨会