亚马逊AWS官方博客
Amazon S3 表类数据存储服务与 Amazon SageMaker 智能湖仓的集成现已正式发布
在 re:Invent 2024 上,我们推出了 Amazon S3 表类数据存储服务和 Amazon SageMaker 智能湖仓,前者是首个内置 Apache Iceberg 支持的云对象存储,可简化表格数据的大规模存储,而后者则是一个统一、开放且安全的数据湖,可简化分析和人工智能工作流。我们还预览了 S3 表类与 Amazon Web Services (AWS) 分析服务的集成,通过这一集成,您可以使用 Amazon Athena、Amazon Data Firehose、Amazon EMR、AWS Glue、Amazon Redshift 和 Amazon QuickSight 对 S3 表类数据进行流式处理、查询和可视化。
我们的客户希望简化 Apache Iceberg 存储的管理和优化,这推动了 S3 表类的开发。同时,他们也在利用 SageMaker 智能湖仓打破数据孤岛,促进分析协作和洞察力的生成。通过与 S3 表类和 SageMaker 智能湖仓的配合使用,再加上与 AWS 分析服务的内置集成,客户可以获得一个统一访问多个数据来源的综合平台,从而更高效地实现分析和机器学习工作流。
现在,我们宣布正式推出 Amazon S3 表类数据存储服务与 Amazon SageMaker 智能湖仓的集成,从而为各种分析引擎和工具提供统一的 S3 表类数据访问能力。您可以从 Amazon SageMaker 融通式合作开发工作室访问 SageMaker 智能湖仓,该工作室是一个单一的数据和人工智能开发环境,汇集了来自 AWS 分析和人工智能/机器学习服务的功能和工具。所有与 SageMaker 智能湖仓集成的 S3 表类数据,都可以通过 Amazon SageMaker 融通式合作开发工作室和 Amazon Athena、Amazon EMR、Amazon Redshift 等引擎以及兼容 Apache Iceberg 的引擎(例如 Apache Spark 或 PyIceberg)进行查询。
通过这种集成,您可以简化安全分析工作流程的构建,可以在这些工作流中读写 S3 表类,并结合 Amazon Redshift 数据仓库以及第三方和联合数据来源(例如 Amazon DynamoDB 或 PostgreSQL)中的数据。
您可以集中设置和管理 S3 表类数据以及 SageMaker 智能湖仓中其他数据的细粒度访问权限,并确保这些权限在所有分析和查询引擎中一致生效。
S3 表类与 SageMaker 智能湖仓集成实际操作
要开始使用,请转到 Amazon S3 控制台,从导航窗格中选择表存储桶,然后选择启用集成,以便通过 AWS 分析服务访问表存储桶。
现在,您可以创建表存储桶,并将其与 SageMaker 智能湖仓集成。要了解更多信息,请访问 AWS 文档中的 S3 表类入门。
1. 在 Amazon S3 控制台中使用 Amazon Athena 创建表类
只需几个步骤,您就可以使用 Amazon Athena 直接从 Amazon S3 控制台创建表类、填充数据并进行查询。选择一个表存储桶,然后选择使用 Athena 创建表,或者您可以选择现有表,然后选择使用 Athena 查询表。
要使用 Athena 创建表,您应首先为表指定一个命名空间。S3 表存储桶中的命名空间等同于 AWS Glue 中的数据库,您可以在 Athena 查询中将表命名空间用作数据库。
选择命名空间,然后选择使用 Athena 创建表。界面进入 Athena 控制台中的查询编辑器。您可以在 S3 表存储桶中创建表或在表中查询数据。
2. 在 SageMaker 融通式合作开发工作室中使用 SageMaker 智能湖仓进行查询
现在,您可以直接从 SageMaker 融通式合作开发工作室访问 S3 数据湖、Redshift 数据仓库、SageMaker 智能湖仓中的第三方和联合数据来源的统一数据。
要开始使用,请前往 SageMaker 控制台,使用示例项目配置文件创建 SageMaker 融通式合作开发工作室域名和项目:数据分析和人工智能机器学习模型开发。要了解更多信息,请访问 AWS 文档中的创建 Amazon SageMaker 融通式合作开发工作室域。
创建项目后,导航至项目概览并向下滚动至项目详情,记下项目角色 Amazon 资源名称 (ARN)。
转到 AWS Lake Formation 控制台,为 AWS Identity and Access Management (IAM) 用户和角色授予权限。在 “主体部分中,选择上一段中提到的<project role ARN>
。在 LF 标签或目录资源部分中选择命名数据目录资源,然后选择您为目录创建的表存储桶名称。要了解更多信息,请访问 AWS 文档中的 Lake Formation 权限概述。
返回 SageMaker 融通式合作开发工作室后,您可以在项目页面左侧导航窗格的数据菜单中的 Lakehouse 下看到表存储桶项目。选择操作时,您可以选择如何在 Amazon Athena、Amazon Redshift 或 JupyterLab Notebook 中查询表存储桶数据。
当您选择使用 Athena 进行查询时,它会自动转到查询编辑器,使用 Athena 对 S3 表类运行数据查询语言 (DQL) 和数据操作语言 (DML) 查询。
以下是使用 Athena 的示例查询:
要使用 Amazon Redshift 进行查询,您应该为数据查询分析设置 Amazon Redshift Serverless 计算资源。然后选择使用 Redshift 进行查询,再在查询编辑器中运行 SQL。如果您希望使用 Jupyter Notebook,则应在 Amazon EMR Serverless 中创建一个新的 JupyterLab 空间。
3. 将来自其他来源的数据与 S3 表数据结合起来
SageMaker 智能湖仓现已提供 S3 表类数据,您可以将其与来自数据仓库、在线事务处理 (OLTP) 来源(例如关系或非关系数据库)、Iceberg 表和其他第三方来源的数据结合起来,以获得更全面、更深入的见解。
例如,您可以添加与 Amazon DocumentDB、Amazon DynamoDB、Amazon Redshift、PostgreSQL、MySQL、Google BigQuery 或 Snowflake 等数据来源的连接,并使用 SQL 合并数据,而无需提取、转换、加载 (ETL) 脚本。
现在,您可以在查询编辑器中运行 SQL 查询,将 S3 表类中的数据与 DynamoDB 中的数据结合起来。
以下是 Athena 与 DynamoDB 相结合的示例查询:
要了解有关此集成的更多信息,请访问 AWS 文档中的 Amazon S3 表类数据存储服务与 Amazon SageMaker 智能湖仓的集成。
现已推出
S3 表类数据存储服务与 SageMaker 智能湖仓的集成现已在所有提供 S3 表类的 AWS 区域正式推出。要了解更多信息,请访问 S3 表类产品页面和 SageMaker 智能湖仓页面。
立即在 SageMaker 融通式合作开发工作室中试用 S3 表类,并将反馈发送到 AWS re:Post for Amazon S3 与 AWS re:Post for Amazon SageMaker,或者通过常用的 AWS Support 联系方式发送反馈。
在 Amazon S3 推出的年度庆祝活动中,我们将为 Amazon S3 和 Amazon SageMaker 推出更多精彩内容。要了解更多信息,请参加 3 月 14 日的 AWS Pi Day 活动。
– Channy
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。