什么是 SageMaker HyperPod?
Amazon SageMaker HyperPod 消除了构建和优化机器学习(ML)基础设施所涉及的千篇一律的繁重工作。它预配置了 SageMaker 的分布式训练库,能够自动将训练工作负载拆分到一千多个 AI 加速器上,从而并行处理工作负载以提高模型性能。SageMaker HyperPod 通过定期保存检查点来确保您能够不间断的进行 FM 训练。它会自动检测硬件故障,修复或更换故障实例,并从上次保存的检查点恢复训练,而无需您手动管理此过程。弹性环境允许您在分布式环境中连续数周或数月不间断地训练模型,从而节省高达 40% 的训练时间。SageMaker HyperPod 还具有高度可定制性,使您能够高效运行和扩展 FM 工作负载,并轻松在不同的工作负载(从大规模训练到推理)之间共享计算容量。