Publié le: Oct 25, 2022
Amazon SageMaker Multi-Model Endpoint (MME) est une fonctionnalité entièrement gérée de SageMaker Inference qui permet de déployer des milliers de modèles sur un seul point de terminaison et de réduire les coûts en partageant les instances sur lesquelles les points de terminaison s'exécutent pour tous les modèles. Jusqu'à présent, MME n'était pris en charge que pour les modèles de machine learning (ML) qui s'exécutent sur des instances de CPU. Désormais, il est possible d'utiliser MME pour déployer des milliers de modèles de ML sur les instances basées sur GPU également, et de réduire potentiellement les coûts de 90 %.
MME charge et extrait dynamiquement les modèles de la mémoire du GPU en fonction du trafic entrant vers le point de terminaison. La clientèle réalise des économies avec MME car les instances GPU sont partagées par des milliers de modèles. Les modèles ML peuvent s'exécuter à partir de plusieurs cadres ML, notamment PyTorch, TensorFlow, XGBoost et ONNX. Les clients peuvent commencer par utiliser le NVIDIA Triton™ Inference Server et déployer des modèles sur les instances GPU de SageMaker en mode multi-modèle. Une fois le MME créé, les clients spécifient le modèle ML à partir duquel ils veulent obtenir l'inférence en invoquant le point de terminaison.
Multi Model Endpoints pour GPU est disponible dans toutes les régions AWS dans lesquelles Amazon SageMaker est proposé. Pour en savoir plus, consultez notre blog de lancement ainsi que l'annonce du NVIDIA Triton™ Inference Server. Rendez-vous également sur la page de documentation et débutez avec cet exemple de bloc-note.