Amazon SageMaker Inference が推論コンポーネントエンドポイントのローリング更新のサポートを開始

投稿日: 2025年3月10日

Amazon SageMaker Inference は、推論コンポーネント (IC) エンドポイントのローリング更新をサポートするようになりました。これにより、お客様は、従来のようにインスタンス数を 2 倍にする必要がなくなり、最小限のインスタンスを追加することで、トラフィックを中断することなく実行中の IC エンドポイントを更新できます。SageMaker Inference では、基盤モデル (FM) を含む機械学習モデルを簡単にデプロイできます。SageMaker Inference の機能の 1 つである IC により、複数の FM を同じエンドポイントにデプロイし、各モデルのアクセラレーターの割り当てを制御できるようになります。

これまで、エンドポイント内の IC は、ブルー/グリーン更新手法のように一度にすべて更新する必要がありました。今回、ローリング更新がサポートされたことにより、バッチごとに更新できるようになりました。また、ブルー/グリーン更新では、トラフィックを古いフリートから新しいフリートに移行する前に、更新されたモデルで新しい IC フリートをプロビジョニングする必要がありました。そのため、インスタンス数は実質的に 2 倍必要でした。ローリング更新では、新しい IC がより小規模なバッチで作成されるため、更新中に必要な追加インスタンスの数を大幅に削減できます。これにより、お客様はキャパシティ予約のバッファ要件を小さく保ち、キャパシティの追加によるコストを最小限に抑えることができます。

IC のローリング更新は、IC がサポートされているすべてのリージョン、アジアパシフィック (東京、ソウル、ムンバイ、シンガポール、シドニー、ジャカルタ)、カナダ (中部)、欧州 (フランクフルト、ストックホルム、アイルランド、ロンドン)、中東 (UAE)、南米 (サンパウロ)、米国東部 (バージニア北部、オハイオ)、米国西部 (北カリフォルニア、オレゴン) でご利用いただけます。詳細については、ドキュメントをご覧ください。