AWS Inferentia

Obtenez de hautes performances à moindre coût dans Amazon EC2 pour deep learning et les inférences d’IA générative

Pourquoi choisir Inferentia ?

Les accélérateurs AWS Inferentia sont conçus par AWS pour offrir de hautes performances à moindre coût dans Amazon EC2 pour vos applications d’inférence de deep learning (DL) et d’IA générative. 

L’accélérateur AWS Inferentia de première génération alimente les instances Inf1 Amazon Elastic Compute Cloud (Amazon EC2), lesquelles offrent un débit jusqu’à 2,3 fois plus élevé et une réduction de coût par inférence jusqu’à 70 % par rapport à celui des instances Amazon EC2 comparables. De nombreux clients, dont Finch AI, Sprinklr, Money Forward et Amazon Alexa, ont adopté les instances Inf1 et réalisé ses avantages en matière de performances et de coûts.

AWS Inferentia2 offre un débit jusqu’à 4 fois plus élevé et une latence jusqu’à 10 fois plus basse par rapport à Inferentia. Les instances Amazon EC2 Inf2 basées sur Inferentia2 sont optimisées pour déployer des modèles de plus en plus complexes, tels que des grands modèles de langage (LLM) et des modèles de diffusion latente, à grande échelle. Les instances Inf2 sont les premières instances optimisées pour l'inférence dans Amazon EC2 à prendre en charge l'inférence distribuée à grande échelle avec une connectivité à ultra haute vitesse entre les accélérateurs. De nombreux clients, dont Leonardo.ai, Deutsche Telekom et Qualtrics, ont adopté des instances Inf2 pour leurs applications de DL et d’IA générative. 

AWS Neuron SDK aide les développeurs à déployer des modèles sur les accélérateurs AWS Inferentia (et à les former sur l’accélérateur AWS Trainium). Il s’intègre nativement avec les frameworks les plus utilisés, tels que PyTorch et TensorFlow, de sorte que vous pouvez continuer à utiliser vos flux de travail existants et à les exécuter sur les accélérateurs Inferentia.

Avantages d’Inferentia

Chaque accélérateur Inferentia de première génération comporte quatre NeuronCores de première génération, avec un maximum de 16 accélérateurs Inferentia par instance Inf1 EC2. Chaque accélérateur Inferentia2 dispose de deux NeuronCores de deuxième génération, avec un maximum de 12 accélérateurs Inferentia2 par instance Inf2 EC2. Chaque accélérateur Inferentia2 supporte jusqu'à 190 tera opérations flottantes par seconde (teraFLOPS) de performance FP16. L'Inferentia de première génération possède 8 Go de mémoire DDR4 par accélérateur et dispose également d'une grande quantité de mémoire sur puce. Inferentia2 offre 32 Go de HBM par accélérateur, ce qui augmente la mémoire totale de 4 fois et la bande passante mémoire de 10 fois par rapport à Inferentia.
AWS Neuron SDK s'intègre nativement aux frameworks ML les plus utilisés, tels que PyTorch et TensorFlow. Avec AWS Neuron, vous pouvez utiliser ces frameworks pour déployer de manière optimale des modèles de DL sur les deux accélérateurs AWS Inferentia et Neuron est conçu pour minimiser les changements de code et les liens avec les solutions spécifiques aux fournisseurs. Neuron vous aide à exécuter vos applications d’inférence pour la compréhension/le traitement du langage naturel (NLP), la traduction des langues, la génération de vidéos et d’images, la reconnaissance vocale, la personnalisation, la détection des fraudes, etc. sur les accélérateurs Inferentia.
Inferentia de première génération prend en charge les types de données FP16, BF16 et INT8. Inferentia2 ajoute un support supplémentaire pour FP32, TF32, et le nouveau type de données configurable FP8 (cFP8) pour fournir aux développeurs plus de flexibilité afin d'optimiser la performance et la précision. AWS Neuron prend des modèles FP32 de haute précision et les convertit automatiquement en types de données de moindre précision, tout en optimisant la précision et les performances. La conversion automatique réduit les délais de mise sur le marché en supprimant le besoin de reformation en basse précision.
Inferentia2 ajoute des optimisations matérielles pour les formats d'entrée dynamiques et des opérateurs personnalisés écrits en C++. Il prend également en charge l'arrondi stochastique, un mode d'arrondi par probabilités qui permet d'obtenir des performances élevées et une plus grande précision par rapport aux modes d'arrondi traditionnels.
Les instances Inf2 offrent jusqu'à 50 % de performance/watt de plus que les instances Amazon EC2 comparables, car elles et les accélérateurs Inferentia2 sous-jacents sont spécialement conçus pour exécuter des modèles DL à grande échelle. Les instances Inf2 vous aident à atteindre vos objectifs de durabilité lors du déploiement de modèles ultra-larges.

Vidéos

Découvrez les coulisses de l'infrastructure d'IA générative d'Amazon
Présentation des instances Amazon EC2 Inf2 optimisées par AWS Inferentia2
Comment quatre clients AWS ont réduit leurs coûts de machine learning et ont stimulé l'innovation grâce à AWS Inferentia