亚马逊AWS官方博客

Category: Analytics

使用 Amazon Managed Service for Apache Flink 进行 Apache Paimon CDC 数据摄取

Apache Paimon 是一个开源的开放数据湖表格式,提供强大的 CDC Ingestion 功能。在亚马逊云科技云中,可以向 Amazon EMR 集群中提交 CDC Ingestion Job 来使用 Apache Paimon CDC 的Ingestion 功能。本文将研究和实现使用 Amazon Managed Service for Apache Flink 以 Serverless 方式来运行 Apache Paimon CDC Ingestion Job。

Amazon EMR 集群的成本优化实践

本文详细介绍了一个针对 AWS EMR 集群定时启停并保持 IP 地址固定的解决方案。该方案巧妙地结合了弹性网卡(ENI)技术和自动化脚本,有效解决了企业在使用 EMR 时面临的两大挑战:资源使用效率与 IP 地址变化问题。

基于 IoT 数据平台案例看 EMR HBase BucketCache 调优

我们提到,当 HBase 使用 Amazon S3 作为底层存储时,可以通过预热 BucketCache 来提升读取性能。随着 BucketCache 大小的增加,内存占用也呈正比上升。那么,BucketCache 对于性能的提升有多少?这些提升能否弥补 cache 带来的额外内存与算力成本呢?这篇 blog 将讨论这一问题。

基于 Datahub +Redshift 自动生成字段级血缘

这篇文章介绍了一个基于 DataHub 和 SQLLineage 实现 Redshift 字段级血缘的轻量级解决方案。这个方案为数据团队提供了一个实用的数据血缘追踪工具,有助于数据治理、影响分析、问题排查和性能优化等工作。同时其轻量级和可扩展的特点,也使其非常适合中小型数据团队使用。