Instances Amazon EC2 Trn2 et UltraServers

Le calcul EC2 le plus puissant pour la formation et l’inférence en matière d’IA générative

Pourquoi choisir les instances Amazon EC2 Trn2 et les UltraServers ?

Les instances Amazon EC2 Trn2, alimentées par 16 puces AWS Trainium2, sont spécialement conçues pour l’IA générative et sont les instances EC2 les plus puissantes pour la formation et le déploiement de modèles comportant des centaines de milliards à plus de billions de paramètres. Les instances Trn2 offrent un rapport qualité/prix supérieur de 30 à 40 % à celui de la génération actuelle d’instances EC2 P5e et P5en basées sur GPU. Avec les instances Trn2, vous pouvez bénéficier de performances d’entraînement et d’inférence de pointe tout en réduisant les coûts, ce qui vous permet de réduire les temps de formation, d’itérer plus rapidement et de proposer des expériences en temps réel alimentées par l’IA. Vous pouvez utiliser les instances Trn2 pour entraîner et déployer des modèles, notamment des grands modèles de langage (LLM), des modèles multimodaux et des transformeurs de diffusion afin de créer des applications d’IA génératives de nouvelle génération.

Pour réduire les temps d’entraînement et fournir des temps de réponse révolutionnaires (latence par jeton) pour les modèles les plus exigeants et les plus modernes, vous pourriez avoir besoin de plus de calcul et de mémoire que ce qu’une seule instance peut fournir. Les serveurs Trn2 UltraServer utilisent NeuronLink, une interconnexion puce à puce propriétaire, pour connecter 64 puces Trainium2 sur quatre instances Trn2, quadruplant ainsi la bande passante du réseau, de mémoire et de réseau disponible sur un seul nœud et offrant des performances révolutionnaires sur AWS pour le deep learning et les charges de travail d’IA génératives. À titre d’inférence, les UltraServers contribuent à fournir un temps de réponse de pointe afin de créer les meilleures expériences en temps réel. En matière d’entraînement, les UltraServers augmentent la vitesse et l’efficacité de l’entraînement des modèles grâce à une communication collective plus rapide pour le parallélisme des modèles, par rapport aux instances autonomes.

Vous pouvez facilement démarrer sur les instances Trn2 et les serveurs Trn2 UltraServer grâce à la prise en charge native des cadres du machine learning (ML) courants tels que PyTorch et JAX.

Avantages

Les instances Trn2 sont les instances EC2 les plus puissantes. Elles vous aident à réduire vos temps de formation et à proposer une expérience d’inférence en temps réel à vos utilisateurs finaux. Les instances Trn2 sont dotées de 16 puces Trainium2 interconnectées à NeuronLink, notre interconnexion puce à puce propriétaire, pour fournir jusqu’à 20,8 pétaflops FP8 de calcul. Les instances Trn2 disposent d’un total de 1,5 To de HBM3 avec 46 téraoctets par seconde (To/s) de bande passante mémoire et 3,2 térabits par seconde (Tbit/s) de réseau Elastic Fabric Adapter (eFav3). Les serveurs Trn2 UltraServer (disponibles en version préliminaire) disposent de 64 puces Trainium2 connectées à NeuronLink et fournissent jusqu’à 83,2 pétaflops de calcul FP8, 6 To de mémoire totale à bande passante élevée avec 185 To/s de bande passante mémoire totale et 12,8 Tbit/s de réseau EFav3.

Pour permettre une formation distribuée efficace, les instances Trn2 fournissent 3,2 Tbit/s et les serveurs Trn2 UltraServer fournissent 12,8 Tbit/s de réseau eFAV3. EFA est basé sur l’AWS Nitro System, ce qui signifie que toutes les communications via EFA sont cryptées en transit sans aucune perte de performance. EFA utilise également un protocole sophistiqué de routage du trafic et de contrôle de la congestion qui lui permet de mettre à l’échelle de manière fiable des centaines de milliers de puces Trainium2. Les instances Trn2 et les UltraServers sont déployés dans des UltraClusters EC2 pour permettre un entraînement réparti à l’échelle sur des dizaines de milliers de puces Trainium sur un seul réseau non bloquant à l’échelle du pétabit.

Les instances Trn2 offrent un rapport qualité/prix supérieur de 30 à 40 % à celui de la génération actuelle d’instances EC2 P5e et P5en basées sur GPU.

Les instances Trn2 sont 3 fois plus économes en énergie que les instances Trn1. Ces instances et les puces sous-jacentes utilisent des processus de silicium avancés ainsi que des optimisations matérielles et logicielles pour fournir une efficacité énergétique élevée lors de l’exécution des charges de travail d’IA générative à grande échelle.

Le kit SDK AWS Neuron vous aide à extraire toutes les performances des instances Trn2 et des UltraServers, afin que vous puissiez vous concentrer sur la création et le déploiement de modèles et accélérer vos délais de mise sur le marché. Neuron s’intègre en mode natif à JAX, PyTorch et à des bibliothèques essentielles telles que Hugging Face, PyTorch Lightning et NeMo. Neuron inclut des optimisations prêtes à l’emploi pour l’entraînement et l’inférence distribués avec les bibliothèques open source PyTorch NxD Training et NxD Inference, tout en fournissant des informations détaillées pour le profilage et le débogage. Neuron prend également en charge OpenXLA, y compris les versions stables de HLO et GSPMD, ce qui permet aux développeurs PyTorch, XLA et JAX d’utiliser les optimisations du compilateur de Neuron pour Inferentia et Trainium. Grâce à Neuron, vous pouvez utiliser des instances Trn2 avec des services tels qu’Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster et AWS Batch, ainsi que des services tiers tels que Ray (Anyscale), Domino Data Lab et Datadog.

Caractéristiques

Les instances Trn2 sont dotées de 16 puces Trainium2 interconnectées à NeuronLink pour fournir jusqu’à 20,8 pétaflops FP8 de calcul. Les serveurs Trn2 UltraServer étendent la connectivité NeuronLink à 64 puces Trainium2 réparties sur quatre instances Trn2 pour fournir jusqu’à 83,2 pétaflops FP8 de calcul.

Les instances Trn2 fournissent 1,5 To de mémoire accélératrice avec 46 To/s de bande passante mémoire totale. Les serveurs Trn2 UltraServer offrent 6 To de mémoire accélératrice partagée avec 185 To/s de bande passante mémoire totale pour prendre en charge les modèles de base de très grande taille.

Pour prendre en charge la formation distribuée à l’échelle des modèles de base de très grande taille, les instances Trn2 fournissent 3,2 Tbit/s et les serveurs Trn2 UltraServer fournissent 12,8 Tbit/s de bande passante du réseau eFAV3. Associé à EC2 UltraClusters, l’eFAV3 offre une latence réseau inférieure à celle de l’eFAV2. Chaque instance Trn2 prend en charge jusqu’à 8 To et chaque Trn2 UltraServer prend en charge jusqu’à 32 To de stockage NVMe local pour un accès plus rapide à de grands jeux de données.

Les instances Trn2 et les UltraServers prennent en charge les types de données FP32, TF32, BF16, FP16 et les types de données FP8 (cFP8) configurables. Ils prennent également en charge des optimisations de pointe en matière d’IA, notamment une dispersion 4 fois plus faible (16:4), un arrondissement stochastique et des moteurs collectifs dédiés. Neuron Kernel Interface (NKI) permet un accès direct à l’architecture du jeu d’instructions (ISA) à l’aide d’un environnement basé sur Python avec une interface de type Triton, ce qui vous permet d’innover en matière d’architectures de modèles et de noyaux de calcul hautement optimisés qui surpassent les techniques existantes.

Neuron prend en charge plus de 100 000 modèles sur le concentrateur de modèles Hugging Face pour la formation et le déploiement sur Trn2, y compris des architectures de modèles populaires telles que Llama et Stable Diffusion. Neuron s’intègre nativement à JAX, PyTorch et à des outils, frameworks et bibliothèques essentiels tels que NeMo, Hugging Face, PyTorch Lightning, Ray, Domino Data Lab et Data Dog. Il optimise les modèles prêts à l’emploi pour la formation et l’inférence distribuées, tout en fournissant des informations détaillées pour le profilage et le débogage. Neuron s’intègre également à des services tels qu’Amazon SageMaker, Amazon EKS, Amazon ECS, AWS ParallelCluster et AWS Batch.

Témoignages de clients et de partenaires

Voici quelques exemples de la manière dont les clients et partenaires ont atteint leurs objectifs commerciales grâce aux instances Amazon EC2 Trn2.

  • Anthropic

    Chez Anthropic, des millions de personnes font confiance à Claude au quotidien pour leur travail. Nous annonçons deux avancées majeures avec AWS : tout d’abord, un nouveau « mode optimisé pour la latence » pour Claude 3.5 Haiku, qui s’exécute 60 % plus rapidement sur Trainium2 via Amazon Bedrock. Ensuite, le projet Rainier, un nouveau cluster composé de centaines de milliers de puces Trainium2 délivrant des centaines d’exaflops, soit plus de cinq fois la taille de notre cluster précédent. Le projet Rainier contribuera à dynamiser à la fois nos recherches et notre prochaine génération de mise à l’échelle. Pour nos clients, cela signifie plus d’intelligence, des prix plus bas et des vitesses plus rapides. Nous ne nous contentons pas de créer une IA plus rapide, nous créons une IA fiable qui se met à l’échelle.

    Tom Brown, directeur calcul chez Anthropic
  • Databricks

    Mosaic AI de Databricks permet aux organisations de créer et de déployer des systèmes d’agents de qualité. Il est construit de manière native au-dessus du lac de données, permettant aux clients de personnaliser facilement et en toute sécurité leurs modèles à l’aide de données d’entreprise et de fournir des résultats plus précis et spécifiques à un domaine. Grâce à la haute performance et à la rentabilité de Trainium, les clients peuvent mettre à l’échelle l’entraînement des modèles sur Mosaic AI à un faible coût. La disponibilité de Trainium2 constituera un avantage majeur pour Databricks et ses clients, car la demande pour Mosaic AI continue de croître dans tous les segments de clientèle et dans le monde entier. Databricks, l’une des plus grandes entreprises de données et d’IA au monde, prévoit d’utiliser TRN2 pour fournir de meilleurs résultats et réduire le coût total de possession jusqu’à 30 % pour ses clients.

    Naveen Rao, vice-président du service d’IA générative chez Databricks
  • poolside

    Chez Poolside, nous sommes prêts à construire un monde dans lequel l’IA sera à l’origine de la majorité des travaux à valeur économique et des progrès scientifiques. Nous pensons que le développement de logiciels sera la première capacité majeure des réseaux neuronaux à atteindre le niveau d’intelligence humaine, car c’est dans ce domaine que nous pouvons le mieux combiner les approches de recherche et d’apprentissage. Pour y parvenir, nous créons des modèles de base, une API et un assistant pour mettre la puissance de l’IA générative à la portée de vos développeurs (ou de leur clavier). L’infrastructure que nous utilisons pour créer et faire fonctionner nos produits est un élément essentiel de l’activation de cette technologie. Avec AWS Trainium2, nos clients seront en mesure d’étendre leur utilisation de Poolside à un rapport qualité/prix différent des autres accélérateurs d’IA. En outre, nous prévoyons de former les futurs modèles avec les serveurs Trainium2 UltraServer, avec des économies attendues de 40 % par rapport aux instances EC2 P5.

    Eiso Kant, directeur technique et cofondateur, de Poolside
  • Itaú Unibanco

    L’objectif d’Itaú Unibanco est d’améliorer la relation des gens par rapport à l’argent, en créant un impact positif sur leur vie tout en élargissant leurs possibilités de transformation. Chez Itaú Unibanco, nous pensons que chaque client est unique et nous nous attachons à répondre à leurs besoins grâce à des parcours numériques intuitifs, qui tirent parti de la puissance de l’IA pour s’adapter en permanence à leurs habitudes de consommation.

    Nous avons testé AWS Trainium et Inferentia pour diverses tâches, allant de l’inférence standard à des applications optimisées. Les performances de ces puces d’intelligence artificielle nous ont permis de franchir des étapes importantes dans notre recherche et notre développement. Pour les tâches d’inférence par lots et en ligne, nous avons constaté une amélioration du débit 7 fois supérieure à celle des GPU. Ces performances accrues favorisent l’expansion de nouveaux cas d’utilisation dans l’ensemble de l’organisation. La dernière génération de puces Trainium2 offre des fonctionnalités révolutionnaires à GenAI et ouvre la voie à l’innovation chez Itau.

    Vitor Azeka, responsable de la science des données chez Itaú Unibanco
  • NinjaTech AI

    Ninja est un agent d’IA complet pour une productivité illimitée : un simple abonnement, un accès illimité aux meilleurs modèles d’IA du monde ainsi qu’aux meilleures compétences d’IA telles que : l’écriture, le codage, le brainstorming, la génération d’images, la recherche en ligne. Ninja est une plateforme agentique qui propose « SuperAgent ». Cette plateforme utilise un mélange d’agents avec une précision de classe mondiale comparable (et dans certaines catégories, elle les surpasse) aux modèles de fondations pionnières. La technologie agentique de Ninja exige des accélérateurs les plus performants, afin d’offrir les expériences uniques en temps réel auxquelles nos clients s’attendent. 

    Nous sommes très enthousiastes à l’idée du lancement d’AWS TRN2, car nous pensons qu’il offrira les meilleures performances en matière de coût par jeton et la vitesse la plus rapide actuellement possible pour notre modèle de base Ninja LLM, basé sur Llama 3.1 405B. La faible latence de Trn2, associée à des prix compétitifs et à une disponibilité à la demande, est stupéfiante ; nous ne pouvons que nous réjouir de l’arrivée de Trn2 !

    Babak Pahlavan, fondateur et PDG de NinjaTech AI
  • Ricoh

    L’équipe de machine learning RICOH développe des solutions d’environnement de travail et des services de transformation numérique conçus pour gérer et optimiser le flux d’informations dans nos solutions d’entreprise.

    La migration vers les instances Trn1 a été facile et directe. Nous avons pu pré-entraîner notre paramètre 13B LLM en seulement 8 jours, en utilisant un cluster de 4 096 puces Trainium ! Après le succès obtenu avec notre petit modèle, nous avons optimisé un nouveau LLM plus grand basé sur Llama-3-Swallow-70B, et grâce à Trainium, nous avons pu réduire nos coûts de formation de 50 % et améliorer l’efficacité énergétique de 25 % par rapport à l’utilisation des dernières machines GPU d’AWS. Nous sommes ravis d’exploiter la dernière génération de puces AWS AI, Trainium2, pour continuer à fournir à nos clients les meilleures performances au moindre coût.

    Yoshiaki Umetsu, directeur, Centre de développement des technologies numériques, Ricoh
  • PyTorch

    Ce que j’ai le plus apprécié dans la bibliothèque d’inférence AWS Neuron NxD, c’est la fluidité avec laquelle elle s’intègre aux modèles PyTorch. L’approche de NxD est simple et conviviale. Notre équipe a pu intégrer les modèles PyTorch de HuggingFace avec un minimum de modifications de code en peu de temps. L’activation des fonctionnalités avancées telles que le traitement par lots en continu et le décodage spéculatif était simple. Cette facilité d’utilisation améliore la productivité des développeurs, ce qui permet aux équipes de se concentrer davantage sur l’innovation et moins sur les problèmes d’intégration.

    Hamid Shojanazeri, responsable de l’ingénierie des partenaires PyTorch chez Meta
  • Refact.ai

    Refact.ai propose des outils d’IA complets tels que la saisie automatique du code alimentée par la génération augmentée par extraction (RAG), fournissant des suggestions plus précises et un chat contextuel utilisant à la fois des modèles propriétaires et open source.

    Les clients ont constaté une augmentation de 20 % des performances et de 1,5 fois le nombre de jetons par dollar avec les instances EC2 Inf2 par rapport aux instances EC2 G5. Les fonctionnalités de réglage de Refact.ai améliorent encore la capacité de nos clients à comprendre et à s’adapter à la base de code et à l’environnement uniques de leur organisation. Nous sommes également ravis de proposer les fonctionnalités de Trainium2, qui permettront un traitement encore plus rapide et plus efficace de nos flux de travail. Cette technologie avancée permettra à nos clients d’accélérer leur processus de développement logiciel, en augmentant la productivité des développeurs tout en maintenant des normes de sécurité strictes pour leur base de code.

    Oleg Klimov PDG et fondateur de Refact.ai
  • Karakuri Inc.

    KARAKURI développe des outils d’IA pour améliorer l’efficacité du support client basé sur le Web et simplifier l’expérience client. Ces outils incluent des chatbots dotés de fonctions d’IA génératives, des outils de centralisation des FAQ et un outil de réponse aux e-mails, qui améliorent tous l’efficacité et la qualité du support client. Grâce à AWS Trainium, nous avons réussi à former KARAKURI LM 8x7B Chat v0.1. Pour les start-ups, comme la nôtre, nous devons optimiser le temps de création et les coûts nécessaires à l’entraînement des LLM. Avec le soutien d’AWS Trainium et de l’équipe AWS, nous avons pu développer un LLM de niveau pratique en peu de temps. De plus, en adoptant AWS Inferentia, nous avons pu créer un service d’inférence rapide et rentable. Nous sommes très enthousiastes à propos de Trainium2 car il permettra de révolutionner notre processus d’entraînement en réduisant notre temps d’entraînement par deux et en atteignant de nouveaux records en matière d’efficacité !

    Tomofumi Nakayama, cofondateur de Karakuri Inc.
  • Stockmark Inc.

    Avec pour mission de « réinventer le mécanisme de création de valeur et de faire progresser l’humanité », Stockmark aide de nombreuses entreprises à créer et à développer des activités innovantes en fournissant une technologie de pointe en matière de traitement du langage naturel. Le nouveau service d’analyse et de collecte de données de Stockmark, appelé Anews et SAT, est un service de structuration des données qui améliore considérablement les utilisations de l’IA générative en organisant toutes les formes d’informations stockées dans une organisation, nous ont obligés à repenser la façon dont nous avons construit et déployé des modèles pour soutenir ces produits. Avec 256 accélérateurs Trainium, nous avons développé et publié stockmark- 13b, un grand modèle de langage avec 13 milliards de paramètres, pré-entraîné à partir de zéro sur un corpus de jeux de données japonaises de 220 milliards de tokens. Les instances Trn1 nous ont aidés à réduire nos coûts de formation de 20 %. En nous appuyant sur Trainium, nous avons développé avec succès un LLM capable de répondre aux questions critiques des professionnels avec une précision et une rapidité sans précédent. Ce résultat est d’autant plus remarquable que les entreprises sont souvent confrontées à la difficulté d’obtenir des ressources informatiques adéquates pour le développement de modèles. Grâce à la rapidité impressionnante et à la réduction des coûts des instances Trn1, nous sommes impatients de découvrir les avantages supplémentaires que Trainium2 apportera à nos flux de travail et à nos clients.

    Kosuke Arima, directeur technique et cofondateur de Stockmark Inc.
  • Brave

    Brave est un navigateur et un moteur de recherche indépendants qui privilégient la protection de la vie privée et la sécurité des utilisateurs. Avec plus de 70 millions d’utilisateurs, nous proposons des protections de pointe qui rendent le Web plus sûr et plus convivial. Contrairement à d’autres plateformes qui ont abandonné les approches centrées sur l’utilisateur, Brave s’engage à donner la priorité à la confidentialité, à la sécurité et à la commodité. Les principales fonctionnalités incluent le blocage des scripts et des traceurs nuisibles, les résumés de pages assistés par l’IA et alimentés par des LLM, les services VPN intégrés, etc. Nous nous efforçons en permanence d’améliorer la rapidité et la rentabilité de nos services de recherche et de nos modèles d’IA. Pour y parvenir, nous sommes ravis de tirer parti des dernières fonctionnalités des puces d’IA AWS, notamment Trainium2, afin d’améliorer l’expérience utilisateur alors que nous nous adaptons à la gestion de milliards de requêtes de recherche par mois.

    Subu Sathyanarayana, vice-présidente de l’ingénierie chez Brave Software
  • Anyscale

    Anyscale est la société à l’origine de Ray, un moteur de calcul basé sur l’IA qui alimente le ML et les initiatives d’IA générative pour les entreprises. Grâce à la plateforme d’IA unifiée d’Anyscale pilotée par RayTurbo, les clients constatent un traitement des données pouvant être 4,5 fois plus rapide, une inférence par lots 10 fois moins coûteuse avec les LLM, une mise à l’échelle 5 fois plus rapide, une itération 12 fois plus rapide et des économies de coûts de 50 % pour l’inférence de modèles en ligne grâce à l’optimisation de l’utilisation des ressources.

    Chez Anyscale, nous nous engageons à fournir aux entreprises les meilleurs outils pour mettre à l’échelle les charges de travail liées à l’IA de manière efficace et rentable. Grâce à la prise en charge native des puces AWS Trainium et Inferentia, optimisée par notre environnement d’exécution RayTurbo, nos clients ont accès à des options performantes et rentables pour l’entraînement et la diffusion de modèle. Nous sommes désormais ravis d’unir nos forces à celles d’AWS sur Trainium2, offrant ainsi à nos clients de nouvelles opportunités d’innover rapidement et de proposer des expériences d’IA transformatrices hautement performantes à grande échelle.

    Robert Nishihara, cofondateur d’Anyscale
  • Datadog

    Datadog, est une plateforme d’observabilité et de sécurité pour les applications cloud, fournit AWS Trainium et Inferentia Monitoring aux clients afin d’optimiser les performances des modèles, d’améliorer l’efficacité et de réduire les coûts. L’intégration de Datadog fournit une visibilité complète sur les opérations de machine learning et les performances des puces sous-jacentes, permettant une résolution proactive des problèmes et une évolutivité fluide de l’infrastructure. Nous sommes ravis d’étendre notre partenariat avec AWS pour le lancement d’AWS Trainium2, qui aide les utilisateurs à réduire les coûts d’infrastructure de l’IA à hauteur de 50 % et à stimuler la performance de l’entraînement et du déploiement des modèles.

    Yrieix Garnier, vice-président de la société de produits, Datadog
  • Hugging Face

    Hugging Face est la principale plateforme ouverte pour les créateurs d’IA, avec plus de 2 millions de modèles, de jeux de données et d’applications d’IA partagés par une communauté de plus de 5 millions de chercheurs, de scientifiques des données, d’ingénieurs en machine learning et de développeurs de logiciels. Nous collaborons avec AWS depuis quelques années, ce qui a permis aux développeurs d’expérimenter plus facilement les avantages en matière de performances et de coûts d’AWS Inferentia et Trainium grâce à la bibliothèque open source Optimum Neuron, intégrée dans le point de terminaison d’inférence Hugging Face, et maintenant optimisée dans notre nouveau service d’auto-déploiement HUGS, disponible sur AWS Marketplace. Avec le lancement de Trainium2, nos utilisateurs pourront accéder à des performances encore plus élevées pour développer et déployer des modèles plus rapidement.

    Jeff Boudier, responsable des produits chez Hugging Face
  • Lightning AI

    Lightning AI, le créateur de PyTorch Lightning et de Lightning Studios, propose la plateforme de développement d’IA la plus intuitive et la plus complète pour l’IA d’entreprise. Lightning fournit des outils à code complet, à code réduit et sans code pour créer en toute rapidité des agents, des applications d’IA et des solutions d’IA générative. Conçu dans un souci de flexibilité, il fonctionne parfaitement sur votre cloud ou sur le nôtre en tirant parti de l’expertise et du soutien d’une communauté de développeurs forte de plus de 3 millions de personnes.

    Lightning prend désormais en charge de manière native les puces AWS AI, Trainium et Inferentia, qui sont intégrées à Lightning Studios et à nos outils open source tels que PyTorch Lightning, Fabric et LitServe. Cela permet aux utilisateurs de préformer, d’optimiser et de déployer à grande échelle, en optimisant les coûts, la disponibilité et les performances sans frais de commutation, et en profitant des avantages en matière de performances et de coûts des puces AWS AI, notamment la dernière génération de puces Trainium2, offrant des performances supérieures à moindre coût.

    Luca Antiga, directeur technique de Lightning AI
  • Domino Data Lab

    Domino orchestre tous les artefacts de science des données, y compris l’infrastructure, les données et les services sur AWS dans tous les environnements, complétant ainsi Amazon SageMaker par des fonctionnalités de gouvernance et de collaboration destinées à soutenir les équipes de science des données des entreprises. Domino est disponible via AWS Marketplace en tant qu’offre SaaS ou en mode autogéré.

    Les entreprises innovantes doivent équilibrer la complexité technique, les coûts et la gouvernance, en maîtrisant les options étendues de l’IA pour obtenir un avantage concurrentiel. Chez Domino, nous nous engageons à donner à nos clients l’accès à des technologies de pointe. Le calcul étant à l’origine de nombreuses innovations révolutionnaires, nous sommes fiers de permettre à nos clients d’accéder à Trainium2 afin qu’ils puissent former et déployer des modèles plus performants, à moindre coût et avec une meilleure efficacité énergétique.

    Nick Elprin, PDG et cofondateur de Domino Data Lab

Mise en route

La prise en charge de SageMaker pour les instances Trn2 sera bientôt disponible. Vous pourrez facilement entraîner des modèles sur des instances Trn2 à l’aide d’Amazon SageMaker HyperPod, qui fournit un cluster de calcul résilient, des performances de formation optimisées et une utilisation efficace des ressources de calcul, de réseau et de mémoire sous-jacentes. Vous pouvez également étendre le déploiement de votre modèle sur des instances Trn2 à l’aide de SageMaker pour gérer les modèles plus efficacement en production et réduire la charge opérationnelle.

Les AWS Deep Learning AMIs (DLAMI) fournissent aux chercheurs et aux professionnels du deep learning (DL) l’infrastructure et les outils nécessaires pour accélérer le DL sur AWS, à n’importe quelle échelle. Les pilotes AWS Neuron sont préconfigurés dans la DLAMI pour entraîner vos modèles DL de manière optimale sur les instances Trn2.

La prise en charge des conteneurs Deep Learning pour les instances Trn2 sera bientôt disponible. À l’aide de ces conteneurs, vous pourrez désormais déployer des instances Trn2 dans Amazon Elastic Kubernetes Service (Amazon EKS), un service Kubernetes entièrement géré, et dans Amazon Elastic Container Service (Amazon ECS), un service d’orchestration de conteneurs entièrement géré. Neuron est également disponible préinstallé dans les conteneurs AWS Deep Learning. Pour en savoir plus sur l’exécution de conteneurs sur des instances Trn2, consultez les tutoriels sur les conteneurs Neuron.

Informations sur le produit

Taille d’instance Disponible dans EC2 UltraServers Puces Trainium2 Accélérateur
mémoire

vCPU Mémoire
(To)
Storage d’instance (To) Bande passante du réseau (Tbit/s) Bande passante EBS (Go/s)
trn2.48xlarge Non 16 1,5 To 192 2 To 4 SSD NVMe 1,92 3,2 80
trn2u.48xlarge Oui (version préliminaire) 16 1,5 To 192 2 To 4 SSD NVMe 1,92 3,2 80