亚马逊AWS官方博客

Category: AWS Big Data

Amazon MSK 基于 S3 的数据导出、导入、备份、还原、迁移方案

Amazon MSK 集群的数据导出、导入、备份、还原多采用 Kafka MirrorMaker,但是,在某些场景中,受环境限制,两个于 Kafka 集群之间的网络可能无法连通,或者两个 AWS 账号相互隔离,亦或是需要将 Kafka 的数据沉淀为文件存储以备他用。此时,基于 Kafka Connect S3 Source / Sink Connector 的方案会是一种较为合适的选择,本文就将介绍一下这一方案的具体实现。

利用 Amazon MSK,Amazon Redshift 和 Amazon Quicksight 搭建简易实时数仓

很多客户有快速搭建简易实时数仓的需求,例如内控审计平台,希望从公司各业务线实时收集要监控的数据,并不需要复杂的 ETL 处理,而进到数仓后,希望既支持近实时的多维度查询,又支持后续的离线分析。那么,利用 Amazon MSK, Amazon Redshift 和 Amazon Quicksight 搭建简易实时数仓,是一个很好的选择,能实现项目的快速落地。

解决方案:如何在 Amazon EMR Serverless 上执行纯 SQL 文件?

长久已来,SQL 以其简单易用、开发效率高等优势一直是 ETL 的首选编程语言,但遗憾的是,Amazon EMR Serverless 未能针对执行 SQL 文件提供原生支持,这对于倚重纯 SQL 开发数仓或数据湖的用户来说并不友好。为此,我们专门开发了一组工具类,借助这组工具类,用户可以在 Amazon EMR Serverless 上直接执行 SQL 文件。

最佳实践:如何优雅地提交一个 Amazon EMR Serverless 作业?

自 Amazon EMR 推出 Serverless 形态以来,得益于开箱即用和零运维的优质特性,越来越多的 EMR 用户开始尝试 EMR Serverless。在使用过程中,一个常被提及的问题是:我们应该如何在 EMR Serverless 上提交 Spark/Hive 作业?本文我们将分享一些这方面的最佳实践,帮助大家以一种更优雅的方式使用这项服务。

使用 EMR Hue 整合 Apache Kyuubi 提升 Spark SQL 开发效率

Amazon EMR 是一种全托管的云端数据平台,用于处理和分析大数据集。它基于开源的 Apache Hadoop 和 Apache Spark 等大数据技术栈,提供了一系列易于使用的工具,可帮助用户在云端快速构建和管理大规模的数据处理和分析应用程序。本文通过介绍在 EMR 中安装、集成 Apache Kyuubi,帮助提升在 EMR 平台上使用 Hue 进行 Spark SQL 开发的效率。

使用 Amazon EMR Studio 探索 Apache Hudi 核心概念 (1) – File Layouts

本系列文章使用 Amazon EMR Notebook 对 Apache Hudi 核心概念展开深入的探索和介绍,利用 Notebook 提供的统一环境和上下文,我们可以非常生动地观察到 Hudi 的运行机制,并深刻体会到其背后的控制原理,这也正是本系列文章的写作灵感:我们希望借助 Notebook “探索,发现,思考,领悟”的思维模式,带领大家开启一段 Hudi 核心概念的探索之旅。