Publié le: May 17, 2024
AWS a annoncé aujourd'hui que Bottlerocket, le système d'exploitation basé sur Linux spécialement conçu pour les conteneurs, prend désormais en charge NVIDIA Fabric Manager, ce qui permet aux utilisateurs d'exploiter la puissance des configurations multi-GPU pour leurs charges de travail d'IA et de machine learning. Grâce à cette intégration, les utilisateurs de Bottlerocket peuvent désormais exploiter de manière fluide leurs GPU connectés en tant que structure de calcul haute performance pour une communication efficace et à faible latence entre tous les GPU de chacune de leurs instances P4/P5.
La sophistication croissante des modèles de deep learning a entraîné une augmentation exponentielle des ressources informatiques nécessaires pour les entraîner dans des délais raisonnables. Pour répondre à cette augmentation des demandes en termes de calcul, les clients exécutant des charges de travail d'IA et de machine learning se sont tournés vers des implémentations multi-GPU, tirant parti des technologies NVSwitch et NVLink de NVIDIA pour créer une structure de mémoire unifiée entre les GPU connectés. La prise en charge de Fabric Manager dans les variantes NVIDIA de Bottlerocket permet aux utilisateurs de configurer cette structure, ce qui permet d'utiliser tous les GPU comme un pool unique et performant plutôt que comme des unités individuelles. Cela permet aux utilisateurs de Bottlerocket d'exécuter des configurations multi-GPU sur des instances P4/P5, accélérant ainsi considérablement l'entraînement de réseaux neuronaux complexes.
Pour en savoir plus sur la prise en charge de Fabric Manager dans les variantes NVIDIA de Bottlerocket, rendez-vous sur le référentiel GitHub officiel de Bottlerocket.