亚马逊AWS官方博客
AWS Pi Day 2025:分析和人工智能的数据基础
每年的 3 月 14 日,AWS Pi Day 都会重点展示 AWS 在数据管理和处理方面的创新。该活动始于 2021 年,旨在纪念 Amazon Simple Storage Service (Amazon S3) 推出十五周年,如今已发展成为一项展示云技术如何革新数据管理、分析和人工智能的重要活动。
今年,AWS Pi Day 再次回归,重点聚焦于通过在 AWS 上构建统一的数据基础,加速分析和人工智能的创新。随着人工智能成为大多数企业战略的核心,数据格局正在发生深刻变化,分析和人工智能工作负载越来越多地围绕大量相同的数据和工作流进行整合。您需要一种简便的方法来访问所有数据,并在一个集成的环境中使用所有首选的分析和人工智能工具。今年的 AWS Pi Day,我们将推出一系列新功能,帮助您构建统一且集成的数据体验。
下一代 Amazon SageMaker:所有数据、分析和人工智能的中心
在 re:Invent 2024,我们推出下一代 Amazon SageMaker:所有数据、分析和人工智能的中心。SageMaker 包含数据探索、准备和集成、大数据处理、快速 SQL 分析、机器学习 (ML) 模型开发和训练,以及生成式人工智能应用程序开发所需的几乎所有组件。借助新一代 Amazon SageMaker,SageMaker 智能湖仓能够为您提供统一的数据访问,而 SageMaker Catalog 则帮助您满足管理和安全需求。如需了解更多信息,您可以阅读我的同事 Antje 发布的博客文章。
下一代 Amazon SageMaker 的核心是 SageMaker Unified Studio,这是一个集成的数据和人工智能开发环境,您可以在其中使用所有数据和工具进行分析和人工智能开发。SageMaker Unified Studio 现已正式发布。
SageMaker Unified Studio 促进了数据科学家、分析师、工程师和开发人员在数据、分析、人工智能工作流及应用程序开发方面的协作。它将 AWS 分析、人工智能和机器学习 (AI/ML) 服务中的常用工具,包括数据处理、SQL 分析、机器学习模型开发以及生成式人工智能应用程序开发,整合为统一的用户体验。
SageMaker Unified Studio 还将 Amazon Bedrock 中的选定功能引入 SageMaker。现在,您可以使用基础模型和高级功能(例如 Amazon Bedrock 知识库、Amazon Bedrock Guardrails、Amazon Bedrock Agent 和 Amazon Bedrock Flows)快速原型化、定制和共享生成式人工智能应用程序,从而在 SageMaker 中创建符合您的要求和负责任的人工智能准则的定制解决方案。
最后但同样重要的一点是,Amazon Q 开发者版现已在 SageMaker Unified Studio 正式推出。Amazon Q 开发者版为数据和人工智能开发提供了生成式人工智能支持。它能够帮助您完成编写 SQL 查询、构建提取、转换、加载 (ETL) 作业以及故障排除等任务,并为现有订阅用户提供免费套餐和专业套餐两种选择。
如果您想了解更多关于 SageMaker Unified Studio 的信息,可以阅读我的同事 Donnie 最近撰写的博客。
在 re: Invent 2024 期间,我们还推出了 Amazon SageMaker 智能湖仓,作为下一代 SageMaker 的组成部分。SageMaker 智能湖仓统一了您在 Amazon S3 数据湖、Amazon Redshift 数据仓库以及第三方和联合数据来源中的所有数据。它能够帮助您在数据的单一副本上构建强大的分析和 AI/ML 应用程序。借助 SageMaker Lakehouse,您可以灵活地使用与 Apache Iceberg 兼容的工具和引擎就地访问和查询您的数据。此外,零 ETL 集成可以自动将数据从 Amazon Aurora 或 Amazon DynamoDB 等 AWS 数据来源以及 Salesforce、Facebook Ads、Instagram Ads、ServiceNow、SAP、Zendesk 和 Zoho CRM 等应用程序导入 SageMaker 智能湖仓。完整集成列表详见 SageMaker 智能湖仓常见问题解答。
使用 Amazon S3 构建数据基础
构建数据基础是加速分析和人工智能工作负载的关键,它使组织能够无缝管理、发现并高效利用任何规模的数据资产。Amazon S3 是全球构建数据湖的最佳平台,其近乎无限的规模为这一转型提供了坚实的基础。
每当我了解到 Amazon S3 的运营规模时,都会感到惊叹:目前它存储了超过 400 万亿个对象和艾字节级别的数据,每秒处理的请求量高达 1.5 亿次。就在十年前,甚至没有 100 个客户在 S3 上存储超过 1 拍字节 (PB) 的数据。而如今,已有成千上万的客户突破了 1 PB 的存储里程碑。
Amazon S3 存储了数艾字节的表格数据,平均每秒处理的表格数据请求超过 1500 万次。为了帮助您减少管理 S3 存储桶中表格数据时的重复性工作负担,我们在 AWS re: Invent 2024 上发布了 Amazon S3 表类数据存储服务。S3 表类是第一个内置支持 Apache Iceberg 的云对象存储。S3 表类专为分析工作负载优化,与自行管理的表相比,查询吞吐量最多可提升三倍,每秒事务数更是高出十倍。
现在,我们宣布 Amazon S3 表类数据存储服务与 Amazon SageMaker 智能湖仓的集成正式推出。Amazon S3 表类数据存储服务现已与 Amazon SageMaker 智能湖仓集成,使您可以轻松地从 Amazon Redshift、Amazon Athena、Amazon EMR、AWS Glue 等 AWS 分析服务以及 Apache Spark 或 PyIceberg 等与 Apache Iceberg 兼容的引擎访问 S3 表类。SageMaker 智能湖仓支持集中管理 S3 表类及其他数据来源的细粒度访问权限,并确保这些权限在所有引擎中一致应用。
对于那些使用第三方目录、拥有自定义目录或只需要对单个表存储桶中的表格数据进行基本读写访问的用户,我们添加了与 Iceberg REST 目录标准兼容的新 API。这使得任何与 Iceberg 兼容的应用程序都可以无缝地创建、更新、列出和删除 S3 表存储桶中的表。为了实现统一的数据管理、数据治理和细粒度访问控制,您可以将 S3 表类与 SageMaker 智能湖仓结合使用。
为了帮助您访问 S3 表类,我们在 AWS 管理控制台推出了更新功能。现在,您可以通过 Amazon Athena 直接从 S3 控制台创建表、填充数据并进行查询,从而更轻松地开始使用和分析 S3 表存储桶中的数据。
以下屏幕截图显示了如何直接从 S3 控制台访问 Athena。
当我选择使用 Athena 查询表或使用 Athena 创建表时,Athena 会在正确的数据来源、目录和数据库上打开 Athena 控制台。
自 re: Invent 2024 以来,我们一直在快速为 S3 表类增添新功能。例如,我们向 CreateTable
API 中增加了对架构定义的支持,现在您可以在 S3 表存储桶中创建多达 10,000 个表。我们还在另外八个 AWS 区域推出了 S3 表类,最近一次是在 3 月 4 日推出的亚太地区(首尔、新加坡、悉尼),未来还将覆盖更多区域。您可以参考文档中的 S3 表类 AWS 区域的页面,查看目前支持 S3 表类的 11 个区域列表。
在 re: Invent 2024 期间宣布的 Amazon S3 元数据已于 1 月 27 日正式上线。这是帮助您发现和了解 S3 数据的最快、最简单的方式,能够自动、轻松地查询元数据,并实现近乎实时的更新。S3 元数据可与 S3 对象标签结合使用。标签可以帮助您根据不同的需求对数据进行逻辑分组,例如应用 IAM 策略以实现细粒度的访问控制、指定基于标签的筛选器来管理对象生命周期规则,以及有选择地将数据复制到其他区域。在支持 S3 元数据的区域中,您可以捕获并查询以对象标签形式存储的自定义元数据。为了降低使用 S3 元数据时与对象标签相关的成本,Amazon S3 将所有区域的 S3 对象标签定价降低了 35% ,从而进一步减少了使用自定义元数据的开销。
AWS Pi Day 2025
多年来,AWS Pi Day 一直是云存储和数据分析领域重大里程碑的展示平台。今年的 AWS Pi Day 虚拟活动将涵盖一系列专为开发人员、技术决策者、数据工程师、人工智能/机器学习从业者以及 IT 领导者设计的主题。活动的主要亮点包括对本文中讨论的所有服务和功能的深入探讨、现场演示以及专家会议。
通过参与本次活动,您将了解如何加速分析和人工智能领域的创新。您将了解如何利用支持原生 Apache Iceberg 的 S3 表类和 S3 元数据构建可扩展的数据湖,从而为传统分析和新兴的人工智能/机器学习工作负载提供服务。您还将探索下一代 Amazon SageMaker,它是集数据、分析和人工智能于一体的核心平台,能够帮助您的团队在统一的工作室中更高效地协作与开发,并通过熟悉的 AWS 工具访问所有数据,无论这些数据存储在数据湖、数据仓库,还是第三方或联合数据来源中。
对于希望紧跟最新云趋势的人来说,AWS Pi Day 2025 是一场不容错过的盛会。无论您是在构建数据湖库、训练人工智能模型、开发生成式人工智能应用,还是优化分析工作负载,活动中分享的见解都将帮助您最大化数据的价值。
立即观看,探索最新的云数据创新。不要错过与 AWS 专家、合作伙伴和客户共同塑造数据、分析和人工智能未来的机会。
如果您错过了 3 月 14 日的虚拟活动,也可以随时访问活动页面——我们将提供所有内容的点播服务!
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。