AWS Trainium

Bénéficiez de performances élevées pour le deep learning et la formation d’IA générative tout en réduisant les coûts

Pourquoi Trainium ?

AWS Trainium est une puce de machine learning (ML) qu’AWS a spécialement conçue pour la formation deep learning (DL) de plus de 100 milliards de modèles de paramètres. Chaque instance Trn1 d’Amazon Elastic Compute Cloud (Amazon EC2) déploie jusqu’à 16 accélérateurs Trainium afin de fournir une solution performante et peu coûteuse pour la formation en DL dans le cloud. Bien que l’utilisation du DL et de l’IA générative s’accélère, de nombreuses équipes de développement disposent de budgets fixes, ce qui limite la portée et la fréquence de la formation nécessaire pour améliorer leurs modèles et applications. Les instances Trn1 Amazon EC2 basées sur Trainium résolvent ce problème en accélérant le temps d’entraînement tout en réduisant jusqu’à 50 % les coûts d’entraînement par rapport aux instances EC2 comparables. Trainium a été optimisé pour la formation au traitement du langage naturel, à la vision par ordinateur et aux modèles de recommandation utilisés dans un large éventail d’applications, comme la synthèse de texte, la génération de code, la réponse à des questions, la génération d’images et de vidéos, la recommandation et la détection des fraudes.

AWS Neuron SDK aide les développeurs à former des modèles sur les accélérateurs Trainium (et à les déployer sur les accélérateurs AWS Inferentia). Il s’intègre nativement avec les frameworks les plus utilisés, tels que PyTorch et TensorFlow, afin que vous puissiez continuer à vous former sur les accélérateurs Trainium et à utiliser votre code et vos flux de travail existants.

Avantages du Trainium

Les instances Trn1 alimentées par Trainium offrent des performances élevées tout en réduisant les coûts de formation jusqu'à 50 % par rapport à d’autres instances Amazon EC2 comparables. Chaque accélérateur Trainium comprend deux NeuronCores de deuxième génération, spécialement conçus pour les algorithmes DL. Pour prendre en charge le parallélisme efficace des données et des modèles, chaque accélérateur Trainium dispose de 32 Go de mémoire à large bande passante, fournit jusqu'à 190 TFLOPS de puissance de calcul FP16/BF16 et est doté de NeuronLink, une technologie d'interconnexion non bloquante intra-instance à très haut débit.

Le kit SDK AWS Neuron, qui prend en charge Trainium, est intégré de manière native à PyTorch et TensorFlow. Ainsi, vous pouvez continuer à utiliser vos flux de travail existants dans ces cadres populaires et démarrer avec Trainium en modifiant seulement quelques lignes de code. Pour l’entraînement de modèles distribués, le kit SDK Neuron prend en charge des bibliothèques telles que Megatron-LM et PyTorch Fully Sharded Data Parallel (FSDP). Pour démarrer rapidement avec les instances Trn1 Amazon EC2 alimentées par Trainium, consultez les exemples de modèles courants dans la documentation Neuron.

Pour fournir des performances élevées tout en respectant les objectifs de précision, Trainium est optimisé pour les types de données FP32, TF32, BF16, FP16, UINT8, et pour le nouveau type de données configurable FP8 (cFP8).
Pour soutenir le rythme rapide de l’innovation en matière de DL et l’IA générative, Trainium présente plusieurs innovations qui le rendent flexible et extensible pour entraîner des modèles de DL en constante évolution. Trainium bénéficie d’optimisations matérielles et d’une prise en charge logicielle pour les formes d’entrée dynamiques. Pour permettre la prise en charge de nouveaux opérateurs à l’avenir, il prend en charge les opérateurs personnalisés écrits en C++. Il prend également en charge l’arrondi stochastique, une méthode d’arrondi par probabilités qui permet d’obtenir des performances élevées et une plus grande précision par rapport aux méthodes d’arrondi traditionnelles.
Les instances Trn1 alimentées par Trainium sont jusqu’à 25 % plus économes en énergie pour l’entraînement DL que les instances EC2 de calcul accéléré comparables. Les instances Trn1 vous aident à atteindre vos objectifs de durabilité lors de la formation de modèles ultra-larges.

Vidéos

Découvrez les coulisses de l'infrastructure d'IA générative chez Amazon
Accélérez le DL et innovez plus rapidement avec AWS Trainium
Présentation des instances Amazon EC2 Trn1 basées sur AWS Trainium