Amazon SageMaker が生成 AI モデル向けのより高速な自動スケーリングを発表

投稿日: 2024年7月25日

生成 AI モデルが自動的にスケーリングするまでの時間をお客様が短縮するのに役立つ Amazon SageMaker Inference の新機能を発表いたします。分単位未満のメトリクスを使用できるようになり、AI モデルの全体的なスケーリングレイテンシーを大幅に削減できるようになりました。この拡張機能を使用すると、お客様は需要の変動に応じて生成 AI アプリケーションの応答性を向上させることができます。

この機能により、お客様はより高速な自動スケーリングを可能にする 2 つの新しい高解像度の CloudWatch メトリクスである ConcurrentRequestsPerModel および ConcurrentRequestsPerModelCopy を入手できます。これらのメトリクスは 10 秒間隔で出力され、モデルによって処理されている実際の同時実行または実行中の推論リクエストの数を追跡することで、エンドポイントに対する負荷をより正確に表します。お客様は、これらの高解像度メトリクスを使用して自動スケーリングポリシーを作成し、SageMaker エンドポイントにデプロイされたモデルをスケーリングできます。Amazon SageMaker は、これらの自動スケーリングポリシーで定義されているしきい値に達すると 1 分以内に新しいインスタンスまたはモデルコピーの追加を開始します。これにより、お客様は SageMaker での推論ワークロードのパフォーマンスとコスト効率を最適化できます。

この新機能は、中国と AWS GovCloud (米国) リージョンを除く Amazon SageMaker Inference が利用可能なすべての AWS リージョンのアクセラレータインスタンスファミリー (g4dn、g5、g6、p2、p3、p4d、p4de、p5、inf1、inf2、trn1n、trn1) で利用できます。詳細については、AWS ML ブログドキュメントをご覧ください。