发布于: Oct 25, 2022
Amazon SageMaker 多模型端点 (MME) 是 SageMaker Inference 的完全托管功能,使客户能够在单个端点上部署数千个模型,并通过共享其中的端点在所有模型上运行的实例来节省成本。在今天之前,MME 仅支持在 CPU 实例上运行的机器学习 (ML) 模型。现在,客户可以使用 MME 在基于 GPU 的实例上部署数千个机器学习模型,并可能节省 90% 的成本。
MME 根据传入端点的流量从 GPU 内存中动态加载和卸载模型。借助 MME,客户可以节省成本,因为 GPU 实例由数千个模型共享。客户可以从多个机器学习框架运行机器学习模型,包括 PyTorch、TensorFlow、XGBoost 和 ONNX。客户可以通过使用 NVIDIA Triton™ Inference Server 开始使用这项功能,并以“多模型”模式在 SageMaker 的 GPU 实例上部署模型。在 MME 创建后,客户就可以指定他们希望在调用端点时从中获得推理的机器学习模型。
适用于 GPU 的多模型端点在 Amazon SageMaker 可用的所有 AWS 区域均已推出。要了解更多信息,请参阅我们的发布博客和 NVIDIA Triton™ Inference Server 公告。另请访问我们的文档页面并开始使用此示例笔记本。