AWS Trainium

コストを低く抑えながら、深層学習と生成 AI トレーニングのパフォーマンスを高める

Trainium を利用すべき理由

AWS Trainium は、AWS が 1,000 億件以上のパラメータモデルの深層学習 (DL) トレーニングを行うために専用に構築された機械学習 (ML) チップです。Amazon Elastic Compute Cloud (Amazon EC2) の各 Trn1 インスタンスは、最大 16 個の Trainium アクセラレーターをデプロイし、クラウドでの DL トレーニングのために高性能かつ低コストのソリューションを提供します。DL と生成 AI の使用は加速していますが、多くの開発チームの予算は固定されているため、モデルやアプリケーションを改善するために必要なトレーニングの範囲と頻度が制限されています。Trainium ベースの EC2 Trn1 インスタンスは、同等の Amazon EC2 インスタンスよりも最大 50% 低いトレーニングコストを提供しながら、トレーニング時間を短縮することで、この課題を解決します。Trainium は、テキスト要約、コード生成、質問応答、画像と動画の生成、レコメンデーション、不正検出などの幅広い用途で使用される自然言語処理、コンピュータビジョン、レコメンダーモデルのトレーニングに最適化されています。

AWS Neuron SDK は、デベロッパーが Trainium アクセラレーターでモデルをトレーニングする (および AWS Inferentia アクセラレーターにそれらのモデルをデプロイする) のに役立ちます。PyTorch や TensorFlow などの人気のフレームワークとネイティブに統合するため、引き続き Trainium アクセラレーターでトレーニングし、既存のコードやワークフローを使用できます。

Trainium の利点

Trainium 搭載 Trn1 インスタンスは、他の同等の Amazon EC2 インスタンスと比べて、トレーニングコストを最大 50% 削減しながら、高いパフォーマンスを実現します。各 Trainium アクセラレーターには、DL アルゴリズム用に構築された 2 つの第 2 世代 NeuronCore が搭載されています。効率的なデータとモデルの並列処理をサポートするために、各 Trainium アクセラレーターには 32 GB の高帯域幅メモリが搭載されており、最大 190 TFLOPS の FP16/BF16 のコンピューティング能力を備えています。インスタンス内の超高速ノンブロッキング相互接続技術である NeuronLink も装備されています。

Trainium をサポートする AWS Neuron SDK は、PyTorch および TensorFlow とネイティブに統合されています。これにより、これらの一般的なフレームワークで既存のワークフローを継続して使用することができ、わずか数行のコード変更で Trainium を使い始めることができます。Neuron SDK は、分散モデルトレーニングのために Megatron-LM や PyTorch Fully Sharded Data Parallel (FSDP) などのライブラリをサポートしています。Trainium を搭載した EC2 Trn1 インスタンスの使用をすばやく開始するには、Neuron ドキュメントで一般的なモデルの例を参照してください。

精度の目標を達成しながら高いパフォーマンスを実現するために、Trainium は FP32、TF32、BF16、FP16、UINT8、および新しい設定可能な FP8 (cFP8) データタイプ向けに最適化されています。
速いペースの DL イノベーションと生成 AI をサポートするために、Trainium には、絶えず進化する DL モデルをトレーニングするための柔軟性と拡張性を実現するいくつかのイノベーションが組み込まれています。Trainium は、ハードウェアの最適化と動的入力シェイプのソフトウェアサポートを備えています。将来的に新しい演算子をサポートできるようにするため、C++ で記述されたカスタム演算子をサポートしています。また、ストキャスティックラウンディング (確率的な丸め処理の方法) をサポートしており、従来の丸め処理の方式よりも優れたパフォーマンスと精度を実現します。
Trainium 搭載の Trn1 インスタンスは、同等のアクセラレーテッドコンピューティング EC2 インスタンスよりも DL トレーニングのエネルギー効率が最大 25% 高くなっています。Trn1 インスタンスは、超大規模モデルをトレーニングする際に、持続可能性の目標を達成するのに役立ちます。

動画

Amazon の生成 AI インフラストラクチャの舞台裏を見てみましょう
AWS Trainium で DL を加速し、イノベーションを加速しましょう
AWS Trainium を搭載した Amazon EC2 Trn1 インスタンスの紹介