[SEO 副标题]
本指南提供最佳实践,协助您优化机器学习(ML)操作(MLOps)以实现环境可持续发展。尽管各行各业的客户都致力于减少碳足迹,但机器学习工作负载变得越来越复杂,消耗的能源和资源也越来越多。 本指南可帮助您审查和完善工作负载,以最大限度地提高利用率并最大限度地减少浪费,以及为支持机器学习生命周期各个方面(包括数据收集、数据存储、特征工程、训练、推理和部署)的工作负载而部署和支持的总资源。
请注意:[免责声明]
架构图

-
数据准备
-
模型训练和调优
-
模型部署和管理
-
数据准备
-
此架构图重点关注数据准备。有关机器学习生命周期其他方面的更多详细信息,请打开其他选项卡。
第 1 步
根据业务需求和可持续发展目标选择区域。在法规和法律允许的情况下,使用电力消耗可归因于 100% 可再生能源的 AWS 区域或电网公布的碳强度低于其他地点(或区域)的区域。选择区域时,应尽量减少网络间的数据移动,将数据存储在靠近生产者的地方,并在靠近数据的地方训练模型。
-
模型训练和调优
-
此架构图重点关注模型训练和调优。有关机器学习生命周期其他方面的更多详细信息,请打开其他选项卡。
第 5 步
要对大型深度学习模型进行分布式训练,请在训练代码中使用 Amazon SageMaker Model Parallelism Library,以最大限度地利用图形处理单元(GPU)。 -
模型部署和管理
-
此架构图重点关注模型部署和管理。有关机器学习生命周期其他方面的更多详细信息,请打开其他选项卡。
第 14 步
自动部署模型。使用 Amazon SageMaker 模型注册表和 AWS CodePipeline 来运行您的部署代码。
开始使用

Well-Architected 支柱

当您在云中构建系统时,AWS Well-Architected Framework 可以帮助您了解所做决策的利弊。框架的六大支柱使您能够学习设计和操作可靠、安全、高效、经济高效且可持续的系统的架构最佳实践。使用 AWS 管理控制台中免费提供的 AWS Well-Architected Tool,您可以通过回答每个支柱的一组问题,根据这些最佳实践来检查您的工作负载。
上面的架构图是按照 Well-Architected 最佳实践创建的解决方案示例。要做到完全的良好架构,您应该遵循尽可能多的 Well-Architected 最佳实践。
-
卓越运营
CloudWatch 指标和警报可监控部署在 SageMaker 托管选项上的模型端点的运行状况,允许您记录与性能相关的指标,在事件或事故发生时分析指标,建立 KPI 以衡量工作负载性能,并主动监控和发出警报。此外,使用 CloudWatch 收集和分析训练作业和推理环境的指标允许您分析工作负载运行状况趋势,并定期对组织进行工作负载指标审查。
-
安全性
AWS Identity and Access Management(IAM)可控制对资源和托管服务的访问权限,以帮助确保最低权限访问、保护机器学习环境并防范对抗和恶意活动。在 Amazon Simple Storage Service(Amazon S3)和 SageMaker Feature Store 中对静态数据进行加密,两者都使用 AWS Key Management Service(AWS KMS)来保护敏感数据。
-
可靠性
SageMaker 允许自动扩缩模型端点,以可靠地处理预测并满足不断变化的工作负载需求。如果发生中断或实例故障,它还会跨可用区分配实例。 SageMaker 管道允许版本化管道输入和构件,而 SageMaker Projects 允许版本化数据处理代码。此版本控制可帮助您创建可重复的方法并保留数据,以防需要回滚到以前的状态。
-
性能效率
我们在本指南中选择的服务是为了在不影响训练结果准确性的前提下提高性能。例如,托管机器学习服务(如 SageMaker)通过预先优化的机器学习组件提供更好的性能。SageMaker Inference Recommender 可提高性能,同时缩短推理时间。高计算实例(例如 Trainium 和 Inferentia)可以加快推理速度。
-
成本优化
SageMaker 服务具有内置功能,可帮助您优化与模型训练相关的成本。例如,SageMaker Feature Store 有助于避免存储和处理重复数据集的成本。SageMaker Debugger 允许您在检测到错误后立即停止训练作业,从而节省与不必要的训练作业执行相关的成本。 SageMaker Training Compiler 减少了 GPU 实例的训练时间和成本。无服务器管道、SageMaker 异步端点和 SageMaker Batch Transform 避免了全天候维护计算基础设施的成本。
-
可持续性
SageMaker 无服务器推理功能端点和 SageMaker 异步端点使用自动缩放组来扩展资源以响应需求。当没有请求时,SageMaker 无服务器推理功能端点将端点数量缩减到零。这最大限度地减少了不必要的预置资源并减少了碳排放。此外,诸如 SageMaker 无服务器推理功能端点和 SageMaker 管道之类的无服务器技术无需启动服务器,即可帮助消除空闲资源。
免责声明
示例代码;软件库;命令行工具;概念验证;模板;或其他相关技术(包括由我方人员提供的任何前述项)作为 AWS 内容按照《AWS 客户协议》或您与 AWS 之间的相关书面协议(以适用者为准)向您提供。您不应将这些 AWS 内容用在您的生产账户中,或用于生产或其他关键数据。您负责根据特定质量控制规程和标准测试、保护和优化 AWS 内容,例如示例代码,以使其适合生产级应用。部署 AWS 内容可能会因创建或使用 AWS 可收费资源(例如,运行 Amazon EC2 实例或使用 Amazon S3 存储)而产生 AWS 费用。
本指南中提及第三方服务或组织并不意味着 Amazon 或 AWS 与第三方之间存在认可、赞助或从属关系。AWS 的指南是一个技术起点,您可以在部署架构时自定义与第三方服务的集成。