首页 > 云计算 > 正文

AWS的“数据湖”观

2020-03-27 15:50:05   来源:IT运维网>

【IT运维网原创】随着大数据时代的到来,越来越多的人意识到,世界上最有价值的资产就是数据,企业也纷纷踏入数字化转型的浪潮中来。

但众所周知,大数据具有数据类型繁多、数据价值密度相对较低、处理速度快、时效性要求高等特点,想要吃到这一美味的“蛋糕”可不是那么容易的事。如何充分利用好数据的价值才是关键所在。

AWS首席云计算企业战略顾问张侠认为,数字化转型包含很多方面的内容,其中很重要的一个内容就是把企业的数据化资产使用好。
 
把数据用“活”

万物互联时代下,各行各业,各种设备及应用都在不断产生大量数据,IDC统计显示,全球近90%的数据将在这几年内产生,预计到2025年,全球数据量将比2016年的16.1ZB增加十倍,达到163ZB。数据的海量与多元化决定了从数据中获取有用的价值变得越来越困难,如果无法从数据中获得益处,那么数据价值就无从谈起。

传统方法上,数据从产生到分析处理及使用总要经历这样的过程:数据通过一些底层交易型的数据库,经过整理后形成中间层的数据仓库,再到上层的商务智能BI。如果这些多元的数据无法被其它应用所使用,那么这一过程不可避免地会形成数据孤岛,以至于无法满足数据量迅速增长的需求。

张侠表示,用户期盼从数据中获取价值。而传统数据分析方式无法快速地将这些多元数据展示出来,那么从中获取价值当然也就难以实现了。
 
数据湖彰显数据价值

虽然说数据湖的概念出现已有将近十年时间了,而近年来不断被提起,足见其价值所在。数据湖可以看作是一个中心数据存储的容器,将各类设备及应用所产生的原始数据进行存储成为数据“仓库”,进而可以进行查询或分析等操作。与传统所称的数据仓库不同的是,数据湖中存储的是原始的数据,可以是结构化的,也可以是非结构化的,借助云计算技术可以快速的缩放存储海量数据,还可以实现进一步的查询、分析及处理能力,通过应用机器学习与人工智能技术实现商业智能,预测分析等。张侠表示,数据湖在实现高可用、高持久、EB级数据的同时,还可满足安全、合规、审计等要求。

当然,不同的服务商对数据湖有不同的理解,AWS对数据湖也有着自己的理解和应用。2006年发布的Amazon S3是全球第一款公有云服务,在Amazon S3中可以存储包含结构化和非结构化的数据,以及进一步的各种预测分析等等。

数据湖平台在实现数据仓库、大数据处理、交互查询、实时分析、预测分析等能力时,需要有不同的产品服务用以支撑。例如, Amazon RDS服务是一个云托管的关系型数据库,用以托管的、支持6种常用数据库引擎的关系型数据库服务,Amazon Aurora 云原生的关系型数据库,可自动执行各种耗时的管理任务。通过Amazon Redshift数据仓库,客户可以对大规模的结构化数据执行复杂的查询,并获得超高速的性能等等。
 
AWS 新增数据湖平台服务功能,为中国用户赋能

近期,AWS宣布AWS Glue与Amazon Athena在由西云数据运营的AWS中国 (宁夏) 区域正式上线。其中,Amazon Athena是一种交互式查询服务,它让客户可以使用标准SQL语言、轻松分析Amazon S3中的数据。AWS Glue是一种全托管的数据提取、转换和加载 (ETL) 服务及元数据目录。它让客户更容易准备数据,加载数据到数据库、数据仓库和数据湖,用于数据分析。


 
这两个服务都是AWS数据湖平台非常重要的组成部分,Amazon Athena可以让用户方便地对Amazon S3数据湖中的数据执行查询,由于Athena是一种无服务器服务,用户不用关心配置和管理服务器、集群等情况。

茄子快传是一家全球化的互联网科技公司,累计有18亿用户。茄子快传通过搭建一个数字内容连接入口,帮助全球200多个国家和地区的用户获取优质数字内容。茄子快传此前面临的数据挑战是:数据量大,分析维度多,业务也非常复杂,所以经常需要多维度多颗粒度的高并发分析。茄子快传数据运营负责人何诚表示:“茄子快传通过使用Amazon Athena,使其运行新数据分析所需的时间缩短了30%,大幅减少了成本与运维方面的风险。”

另外,AWS Glue让Amazon S3数据湖中的数据集可以被发现、可用于查询和分析,一般来说,客户在使用数据湖架构实现数据分析解决方案时,通常有75%的时间花在数据集成任务上,而AWS Glue消除了ETL作业基础设施方面的重复劳动,极大地缩短分析项目中做ETL和数据编目阶段的时间,让ETL变得很容易。

北京壳木软件有限责任公司(Camel Games)是神州泰岳旗下的手机网游公司,Camel Games服务器主管张华表示:“AWS Glue帮助我们完成了复杂的ETL任务,可以从数百个Amazon RDS数据库中定时提取所需要的数据,供数据分析部门进行迅速而直观的全局统计,大大缩短了原本跨表查询的时间”。
 
助力用户构建安全的数据湖

虽说数据湖对于实现数据价值是个行之有效的方法,但要构建一个真正安全高效的数据湖也并非易事。传统构建数据湖的步骤为:首先需要设置存储,然后将数据移动及加载到不同位置,清理、准备数据及编写数据目录,配置并实施安全性与合规策略,最后使用相关工具提取数据并用于分析。

随着时代的发展,新的技术也使数据湖迸发出新的活力。张侠表示,AWS已有多种新服务帮助用户更快、更好地完成数据湖的构建。一类是无服务器分析,无需用户手动管理即可实现数据湖的分析,以上提到的AWS Glue就是典型的无服务器托管及分析服务,为用户提供按需数据湖分析。

另一类是借助机器学习和人工智能服务实现对数据的预测性洞察,尤其是与Amazon SageMaker服务相结合,可实现更多自动化的预测性分析。

值得指出的是,AWS有着多种服务确保数据湖安全,以满足对安全、合规、审计等的要求。张侠表示,Amazon S3可以达到11个“9”的数据持久性,采取三个可用区,来保障用户的数据安全,其它诸如AWS Identity and Access Management (IAM) 可实现用户身份和接入管理等等,随着人们对数据安全的重视,AWS对数据安全的管理,已满足对用户以及当地相关法律法规的要求。

张侠表示,数据湖是数据分析智能商务的新趋势,AWS 提供的数据湖与分析服务可帮助企业用户企业从数据中获得洞察力。



免责声明:本网站(www.365master.com)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等)版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。电话:010-88558043)

相关热词搜索:数据湖 数据分析 AWS

上一篇:看“云”如何重塑财务,支持企业业务连续性
下一篇:云鼎奖开跑,致敬“云抗疫先锋”!

扫码关注公众号

扫码订阅杂志

扫码下载2020年《混合多云行业应用调查报告》

扫码参与有奖调查