Amazon SageMaker HyperPod

Réduisez jusqu’à 40 % le temps nécessaire à l’entraînement des modèles de fondation et mettez à l’échelle efficacement sur plus d’un millier d’accélérateurs d’IA

Qu’est-ce qu’Amazon SageMaker HyperPod ?

Amazon SageMaker HyperPod permet d’éliminer les tâches fastidieuses liées à la création et à l’optimisation d’une infrastructure de machine learning (ML). Le service est préconfiguré avec les bibliothèques d’entraînement distribué de SageMaker. Ainsi, vous pouvez répartir automatiquement les charges de travail d’entraînement sur plus d’un millier d’accélérateurs d’IA de manière à traiter les charges de travail en parallèle, ce qui permet d’améliorer les performances du modèle. SageMaker HyperPod garantit la continuité de votre entraînement FM en enregistrant régulièrement des points de contrôle. Il détecte les défaillances matérielles, répare ou remplace l’instance défectueuse et reprend automatiquement l’entraînement au dernier point de contrôle enregistré, vous évitant ainsi d’avoir à gérer manuellement ce processus. L’environnement résilient vous permet d’entraîner des modèles pendant des semaines ou des mois sans interruption dans un système distribué, et de réduire jusqu’à 40 % le temps nécessaire à l’entraînement. SageMaker HyperPod est également hautement personnalisable, ce qui vous permet d’exécuter et de mettre à l’échelle efficacement les charges de travail de modèle de fondation, et de partager facilement la capacité de calcul entre les différentes charges de travail, de l’entraînement à grande échelle jusqu’à l’inférence.

Avantages de SageMaker HyperPod

Amazon SageMaker HyperPod est préconfiguré avec les bibliothèques d'entraînement distribuées Amazon SageMaker, ce qui vous permet de répartir automatiquement vos modèles et jeux de données d'entraînement entre les instances de cluster AWS afin de vous aider à mettre à l'échelle efficacement les charges de travail de formation.
Les bibliothèques d'entraînement distribué Amazon SageMaker optimisent votre travail de formation sur l'infrastructure réseau AWS et la topologie des clusters grâce à deux techniques : le parallélisme des données et le parallélisme des modèles. Le parallélisme des modèles divise les modèles trop grands pour tenir sur un seul GPU en plusieurs parties plus petites avant de les répartir sur plusieurs GPU à entraîner. Le parallélisme des données divise les jeux de données volumineux pour s'entraîner simultanément afin d'améliorer la vitesse d'entraînement.
SageMaker HyperPod crée un environnement d'entraînement plus résilient en détectant, diagnostiquant et corrigeant automatiquement les défaillances, ce qui vous permet d'entraîner des FM en continu pendant des mois sans interruption.

Bibliothèques d’entraînement distribué haute performance

Grâce aux bibliothèques d’entraînement distribué de SageMaker, vous pouvez exécuter des tâches d’entraînement de deep learning en parallèle, sur plusieurs modèles ou en répartissant vos données, de manière personnalisée, hautement évolutive et à moindres coûts. SageMaker HyperPod est préconfiguré avec les bibliothèques distribuées SageMaker. Avec seulement quelques lignes de code, vous pouvez activer le parallélisme des données dans vos scripts d'entraînement. SageMaker HyperPod accélère l'exécution d'entraînements distribués en répartissant automatiquement vos modèles et vos jeux de données d'entraînement entre les instances GPU AWS.

En savoir plus

Planification et orchestration des charges de travail

L’interface utilisateur de SageMaker HyperPod est hautement personnalisable à l’aide de Slurm ou d’Amazon EKS. Vous pouvez sélectionner et installer tous les cadres ou outils nécessaires. Tous les clusters sont provisionnés avec le type et le nombre d'instances que vous choisissez, et ils sont conservés pour votre utilisation sur toutes les charges de travail.

Surveillance de l'état et réparation du cluster automatiques

Si des instances deviennent défectueuses pendant une charge de travail d'entraînement, SageMaker HyperPod détecte automatiquement les nœuds défectueux et les remplace par des nœuds sains. Pour détecter le matériel défectueux, SageMaker HyperPod effectue régulièrement une série de surveillances de l'état du GPU et du réseau. 

Observabilité avancée pour de meilleures performances

Vous pouvez utiliser les outils de machine learning intégrés à SageMaker HyperPod pour améliorer les performances du modèle. Par exemple, Amazon SageMaker avec TensorBoard vous permet de gagner du temps de développement en visualisant l’architecture du modèle afin d’identifier et de résoudre les problèmes de convergence, tandis qu’Amazon SageMaker Debugger capture des métriques et établit le profil des tâches d’entraînement en temps réel. L’intégration à Amazon CloudWatch Container Insights fournit des données analytiques plus détaillées sur les performances, l’état et l’utilisation des clusters. 

En savoir plus »

Capacité de mise à l’échelle et utilisation des ressources optimisée

Vous pouvez gérer et exploiter des clusters SageMaker HyperPod grâce à une expérience administrateur fiable basée sur Kubernetes. Ainsi, qu’il s’agisse d’entraînement, d’ajustement, d’expérimentation ou d’inférence, vous êtes en mesure d’exécuter et de mettre à l’échelle efficacement les charges de travail de modèle de fondation. Vous pouvez facilement partager la capacité de calcul et basculer entre Slurm et EKS selon le type de charge de travail.