投稿日: Oct 25, 2022
Amazon SageMaker マルチモデルエンドポイント (MME) は SageMaker Inference のフルマネージド型の機能です。お客様は何千ものモデルを 1 つのエンドポイントにデプロイし、それらのエンドポイントの動作するインスタンスをすべてのモデルで共有することにより、コストを削減できます。従来、MME は CPU インスタンスで動作する機械学習 (ML) モデルでのみサポートされていました。このたび、GPU ベースのインスタンスにも MME で何千もの ML モデルをデプロイし、場合によってはコストを 90% 削減できるようになりました。
MME は、着信トラフィックに基づいた GPU メモリからエンドポイントへと、モデルを動的にロードおよびアンロードします。MME を使用すると GPU インスタンスが何千ものモデルによって共有されるので、コストを削減できます。PyTorch、TensorFlow、XGBoost、ONNX といった複数の ML フレームワークの ML モデルを実行できます。手順としては、NVIDIA Triton™ Inference Server を使用して、「マルチモデル」モードで SageMaker の GPU インスタンスにモデルをデプロイします。MME が作成されたら、エンドポイントを呼び出している間に推論の取得元とする ML モデルを指定します。
GPU インスタンス向けのマルチモデルエンドポイントは、Amazon SageMaker が利用できるすべての AWS リージョンでご利用いただけます。詳細については、ローンチブログおよび NVIDIA Triton™ Inference Server に関するお知らせを参照してください。また、当社のドキュメントページもご参照いただき、こちらのサンプルノートブックの使用を開始してください。