亚马逊AWS官方博客
Category: Analytics
使用 Amazon Managed Service for Apache Flink 进行 Apache Paimon CDC 数据摄取
Apache Paimon 是一个开源的开放数据湖表格式,提供强大的 CDC Ingestion 功能。在亚马逊云科技云中,可以向 Amazon EMR 集群中提交 CDC Ingestion Job 来使用 Apache Paimon CDC 的Ingestion 功能。本文将研究和实现使用 Amazon Managed Service for Apache Flink 以 Serverless 方式来运行 Apache Paimon CDC Ingestion Job。
AWS 一周综述:Omdia 认可、Amazon Bedrock RAG 评估、国际妇女节活动等(2025 年 3 月 24 日)
今年三月适逢国际妇女节,我有幸参加了上周末在深圳举办的“科技女性” (Women in Tech) 用户小组聚 […]
使用 Amazon MSK Connect 与 Iceberg Kafka Connect 轻松构建数据实时入湖
本文将介绍如何利用 Iceberg kafka connect ,通过 Amazon MSK Connect(托管 Kafka connect)来加速构建数据实时入湖的流程,简化从数据库到数据湖繁杂的同步过程。
AWS 一周综述:AWS Pi Day、Amazon Bedrock 多 Agents 协作、Amazon SageMaker Unified Studio、Amazon S3 表类数据存储服务等
感谢所有在 3 月 14 日参加我们第五届年度 AWS Pi Day 活动的朋友们。AWS Pi Day 在 […]
AWS Pi Day 2025:分析和人工智能的数据基础
每年的 3 月 14 日,AWS Pi Day 都会重点展示 AWS 在数据管理和处理方面的创新。该活动始于 […]
Amazon SageMaker Unified Studio 现已正式可用
现在,我们宣布 Amazon SageMaker Unified Studio 正式发布。这是一个集成的数据与 […]
Amazon S3 表类数据存储服务与 Amazon SageMaker 智能湖仓的集成现已正式发布
在 re:Invent 2024 上,我们推出了 Amazon S3 表类数据存储服务和 Amazon Sag […]
Amazon EMR 集群的成本优化实践
本文详细介绍了一个针对 AWS EMR 集群定时启停并保持 IP 地址固定的解决方案。该方案巧妙地结合了弹性网卡(ENI)技术和自动化脚本,有效解决了企业在使用 EMR 时面临的两大挑战:资源使用效率与 IP 地址变化问题。
基于 IoT 数据平台案例看 EMR HBase BucketCache 调优
我们提到,当 HBase 使用 Amazon S3 作为底层存储时,可以通过预热 BucketCache 来提升读取性能。随着 BucketCache 大小的增加,内存占用也呈正比上升。那么,BucketCache 对于性能的提升有多少?这些提升能否弥补 cache 带来的额外内存与算力成本呢?这篇 blog 将讨论这一问题。
基于 Datahub +Redshift 自动生成字段级血缘
这篇文章介绍了一个基于 DataHub 和 SQLLineage 实现 Redshift 字段级血缘的轻量级解决方案。这个方案为数据团队提供了一个实用的数据血缘追踪工具,有助于数据治理、影响分析、问题排查和性能优化等工作。同时其轻量级和可扩展的特点,也使其非常适合中小型数据团队使用。