18143453325 在线咨询 在线咨询
18143453325 在线咨询
所在位置: 首页 > 营销资讯 > 行业动态 > AWS的数据湖解决之道

AWS的数据湖解决之道

时间:2022-03-22 21:45:02 | 来源:行业动态

时间:2022-03-22 21:45:02 来源:行业动态

对于已经相对成熟的数据仓库,对大多数人而言,数据湖还是一个比较新的概念。人们对数据湖的理解也不尽相同,对具体应该提供哪些功能和服务认识还不一致,市场上完整的数据湖解决方案并不多,现有的不少是基于开源的解决方案(如基于HDFS),比较零散,不太完整,AWS是为数不多能提供比较完整功能的数据湖解决方案的厂商。

据张侠介绍,AWS的数据湖解决方案有三大核心元素:Amazon S3/Glacier,AWS Glue和AWS Lake Formation。其中,Amazon S3/Glacier作为数据湖的核心存储,它结合各种RDS服务、Amazon Aurora、Amazon DynamoDB等数据库服务提供对各类型数据的存储能力,数据湖就建立这些基础的存储能力之上。

AWS Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数据,加载数据到数据库、数据仓库和数据湖,用于数据分析。使用AWS Glue,在几分钟之内便可以准备好数据用于分析。由于AWS Glue是无服务器服务,客户在执行ETL任务时,只需要为他们所消耗的计算资源付费。

Amazon Athena是一种交互式查询服务,它让客户可以使用标准SQL语言、轻松分析Amazon S3 中的数据。由于Athena是一种无服务器服务,因此客户不需要管理基础设施,而且只为他们运行的查询付费。Athena可以自动扩展,并行执行查询,所以即便是大型数据集和复杂的查询,也能很快获得查询结果。

此前,AWS Glue和Amazon Athena服务还没有开通。不过,不久前AWS宣布这两项服务都已经在由西云数据运营的AWS中国 (宁夏) 区域正式上线。

张侠介绍,数据湖的建设还是比较复杂的事情,涉及多个环节。比如,数据湖需要先把保存在各个数据源的数据抽取出来,集中存储。数据湖也不止是要保存数据,还会建立起立数据的目录,通过数据的转换、抽取等对数据归类,以快速进行各种各样的分析。另外,为了满足安全、合规审计的要求,数据湖还会提供数据治理方面的功能。

为了方便企业顺利建成数据湖,AWS把整个流程融入了一个叫做AWS Lake Formation的服务。它把建立数据湖的流程工作自动化,可以帮助企业在短短的几天时间里完成数据湖的建设。该服务目前还没有在中国正式推出。

除了底层的数据存储和数据湖的核心要素功能外,AWS还提供非常丰富的数据分析工具,包括Amazon Redshift(数据仓库)、Amazon EMR(大数据分析)、Amazon Elasticsearch(运维分析)、Amazon Kinesis(实时数据分析)等,以及丰富的展现工具,如图形可视化的Amazon QuickSight、语音和文字互转的Amazon Polly和Amazon Transcribe以及Amazon SageMaker(人工智能)等。

关键词:解决,数据

74
73
25
news

版权所有© 亿企邦 1997-2022 保留一切法律许可权利。

为了最佳展示效果,本站不支持IE9及以下版本的浏览器,建议您使用谷歌Chrome浏览器。 点击下载Chrome浏览器
关闭