AWS Inferentia

Amazon EC2 で、深層学習と生成 AI 推論について最低コストで高パフォーマンスを実現

Inferentia を利用すべき理由

AWS Inferentia アクセラレーターは、深層学習 (DL) および生成 AI 推論アプリケーション向けに、Amazon EC2 で最低コストで高パフォーマンスを実現するために AWS によって設計されています。 

第 1 世代の AWS Inferentia アクセラレーターは、Amazon Elastic Compute Cloud (Amazon EC2) Inf1 インスタンスを強化し、同等の Amazon EC2 インスタンスと比較して、スループットが最大 2.3 倍になるとともに、推論あたりのコストが最大 70% 削減されます。Finch AI、Sprinklr、Money Forward、Amazon Alexa など多くのお客様が Inf1 インスタンスを採用しており、そのパフォーマンスとコスト面でのメリットを実感しています。

AWS Inferentia2 アクセラレーターは、Inferentia と比較して、最大 4 倍のスループットと最大 10 倍の低レイテンシーを実現します。Inferentia2 ベースの Amazon EC2 Inf2 インスタンスは、大規模言語モデル (LLM) や Latent Diffusion Model など、複雑化の一途をたどるモデルを大規模にデプロイするように最適化されています。Inf2 インスタンスはアクセラレーター間の超高速接続を備えた、スケールアウト分散推論をサポートする、Amazon EC2 で最初の推論最適化インスタンスです。Leonardo.ai、Deutsche Telekom、Qualtrics などの多くのお客様が、自社の DL および生成 AI アプリケーションのために Inf2 インスタンスを採用しています。 

AWS Neuron SDK は、デベロッパーが AWS Inferentia アクセラレーターでモデルをデプロイする (および AWS Trainium アクセラレーターでそれらのモデルをトレーニングする) のに役立ちます。 PyTorch や TensorFlow などの一般的なフレームワークとネイティブに統合するため、既存のコードやワークフローを引き続き使用し、Inferentia アクセラレーターで実行することができます。

AWS Inferentia の利点

第 1 世代の各 Inferentia アクセラレーターは、4 つの第 1 世代 NeuronCore を搭載しており、EC2 Inf1 インスタンスあたり最大 16 個の Inferentia アクセラレーターを備えています。各 Inferentia2 アクセラレーターは、2 つの第 2 世代 NeuronCore を搭載しており、EC2 Inf2 インスタンスあたり最大 12 個の Inferentia2 アクセラレーターを備えています。各 Inferentia2 アクセラレーターは、最大 190 テラ浮動小数点演算毎秒 (TFLOPS) の FP16 パフォーマンスをサポートしています。第 1 世代の Inferentia は、アクセラレーターごとに 8 GB の DDR4 メモリを搭載しており、大容量のオンチップメモリも特徴です。Inferentia2 では、アクセラレーターあたり 32 GB の HBM を搭載し、Inferentia に比べて総メモリ量を 4 倍、メモリ帯域幅を 10 倍に拡大しています。
AWS Neuron SDK は、PyTorch や TensorFlow などの一般的な機械学習フレームワークとネイティブに統合されています。AWS Neuron を使用すると、これらのフレームワークを使用して DL モデルを両方の AWS Inferentia アクセラレーターに最適にデプロイできます。Neuron は、コードの変更を最小限に抑え、ベンダー固有のソリューションと連携するように設計されています。 Neuron は、自然言語処理 (NLP)/理解、言語翻訳、テキスト要約、動画と画像の生成、音声認識、パーソナライゼーション、不正検出などのための推論アプリケーションを Inferentia アクセラレーターで実行するのに役立ちます。
第 1 世代の Inferentia は、FP16、BF16、INT8 のデータ型をサポートしています。Inferentia2 では、FP32、TF32、および新しい設定可能な FP8 (cFP8) データ型の追加サポートが新たに提供され、デベロッパーはパフォーマンスと精度を最適化するための柔軟性を高められるようになりました。AWS Neuron は、高精度な FP32 モデルを、精度とパフォーマンスを最適化しながら、低精度なデータ型に自動的にキャストします。オートキャストは、低精度の再トレーニングの必要性を排除することで、市場投入までの時間を短縮します。
Inferentia2 は、動的な入力サイズと C++ で書かれたカスタム演算子のためのハードウェア最適化を追加しています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式と比較し高いパフォーマンスと精度を実現します。
Inf2 インスタンスは、同等の Amazon EC2 インスタンスに比べて、1 ワット当たり最大 50% のパフォーマンス向上を実現します。これらとその基盤である Inferentia2 アクセラレーターが、DL モデルを大規模に実行するために構築されたものだからです。Inf2 インスタンスは、超大規模モデルをデプロイする際に、持続可能性の目標を達成するのに役立ちます。

動画

Amazon の生成 AI インフラストラクチャの舞台裏を見る
AWS Inferentia2 を搭載した Amazon EC2 Inf2 インスタンスの概要
AWS のお客様 4 社が AWS Inferentia を利用して機械学習のコストを削減し、イノベーションを推進した方法