亚马逊AWS官方博客
Data Analytics Foundations数据分析基座总览
前言
Data Analytics Foundations数据分析基座总览是亚马逊云科技专业服务团队Data Analytics Foundations数据分析基座方案的系列博客之一。
背景
对于云上进行最佳数据架构设计和实现的过程中,客户会面对诸多的挑战,例如:如何选择适合的服务,可以经济高效地收集和处理格式多样的大规模数据;如何构建现代化的数据仓库;如何安全可靠的管理和共享数据集;以及如何将这些组件集成为一个现代化的数据平台。随着云上数据分析服务的发展,已经在云上运行业务的客户需要持续迭代数据架构,将数据推向运营层面以促进组织有效地开展业务,讨论最多的是:如何利用强大、丰富和经过验证的解决方案来容器化来自传统服务器的数据应用程序,将数据应用无服务器化,将既有的封闭平台转换成联合数据生态系统,将数据发布为服务。拥有由子公司或业务部门运营的特定领域数据湖或数据仓库的企业客户还面临着数据管理上的挑战:如何通过统一视图发现和访问分散数据湖中的数据,如何设定数据标准来提高数据质量,以及如何监控分布式工作负载以推动卓越运维。
方案概要
2022年9月,亚马逊云科技大中华区专业服务团队(AWS Professional Services)正式发布了第一版数据分析基座快速部署解决方案(Data Analytics Foundations, DAF)。DAF提供一套解耦封装的功能模块,基于AWS的云原生服务进行了基础设施即代码IaC化的开发,已发布和正在优化的模块涵盖的功能面包括:数据整合、数据存储、数据处理、流程编排、目录和发现、资源监控、数据服务、数据管理和访问安全控制等。客户可以根据自身业务的需求在DAF的模块菜单中选取特定组合并一键部署到AWS账号环境中。例如,客户可以将数据处理模块配置为具有自动缩放容器来托管自定义程序,为大数据启动弹性内存计算集群,启用流功能以加速实时事件分析。亚马逊云科技专业服务团队可以帮助客户定制数据分析解决方案,并赋能客户构建大数据、数据存储、数据管理和业务分析能力。对于企业客户而言, 可以使用DAF促进数据网格架构Data Mesh的开发,并将数据作为资产集成到其他数据管理方案中。DAF也是一套经过实战验证的组件,结合了亚马逊云科技专业服务团队过去多年构建企业级数据分析平台的项目经验,辅之以云原生服务的最佳实践。尤其对于使用亚马逊云科技中国区的客户,DAF在开发中进行了功能适配,满足中国区服务的功能限制。且IaC化的部署方式既方便快捷又易于迭代升级,让客户能够对于在多个region中部署的多套数据分析基础设施进行统一管理和维护,提升运维效率。
实现方法
功能模块
围绕分析服务构建,将分析服务和必要功能封装为模块,模块之间使用对象存储(Amazon S3)或流(例如Amazon Kinesis)实现解耦。模块与Amazon S3之间的数据流入/流出,通过配置实现数据加载与基本的检查和变换功能数据处理工作负载可以由事件驱动和(或)批处理任务流调用。
图一,模块设计模式
集中管理
使用AWS Service Catalog做模块资源的集中管理,建议在实际使用场景中使用一个单独的集中管理账号Service Account。Data Analytics Foundations模块使用基础架构即代码IaC的方式部署。在多账号数据平台的场景中,成员账号Domain Account可能是属于组织的一个部门或业务线,DAF模块的实际工作负载是在成员账号Domain Account中使用AWS Management Console启用。
图 二,IaC部署模式
按需构建
Data Analytics Foundations提供数据生命期内涉及的整合、存储、处理、编排、监控、服务、管理以及主机容器等类别的构建模块。所有模块可以按需启用,用于构建实际应用的工作负载。
图三,模块功能分类
讨论
首次发布的Data Analytics Foundations数据分析基座的IaC采用AWS CloudFormation模版技术。后续优化方向包括:增加IaC技术的兼容,引入Terraform;优化用户交互体验,开发独立的Web UI;持续优化和增加功能模块。
总结
使用Data Analytics Foundations分析基座,用户能够使用套件中预制的模块快速构建业务所需的数据分析基础设施,例如托管的数据湖、现代化的数据仓库以及业务域驱动的数据服务,让客户可以专注于数据变现工作。
如您需要了解Data Analytics Foundations数据分析基座的详细内容或有其它建议或经验,欢迎联系我们。