Publicado en: Oct 25, 2022
Amazon SageMaker Multi-Model Endpoint (MME) es una capacidad completamente administrada de SageMaker Inference que permite a los clientes implementar miles de modelos en un solo punto de conexión y ahorrar costos al compartir instancias en las que los puntos de conexión se ejecutan en todos los modelos. Hasta hoy, MME solo era compatible con modelos de machine learning (ML) que se ejecutaban en instancias de CPU. Ahora, los clientes también pueden usar MME para implementar miles de modelos de ML en instancias basadas en la GPU y potencialmente ahorrar costos en un 90 %.
MME carga y descarga dinámicamente modelos de la memoria de la GPU en función del tráfico entrante al punto de conexión. Los clientes ahorran costos con MME porque miles de modelos comparten las instancias de la GPU. Los clientes pueden ejecutar modelos de ML desde múltiples marcos de ML, incluidos PyTorch, TensorFlow, XGBoost y ONNX. Los clientes pueden comenzar con el servidor de inferencias NVIDIA Triton™ e implementar modelos en las instancias de la GPU de SageMaker en modo “modelo múltiple”. Una vez que se crea el MME, los clientes especifican el modelo de ML del que quieren obtener la inferencia mientras invocan el punto de conexión.
Los puntos de conexión de los modelos múltiples para GPU están disponibles en todas las regiones de AWS donde está disponible Amazon SageMaker. Para obtener más información, consulte nuestro blog de lanzamiento y la presentación del servidor de inferencia NVIDIA Triton™. También visite la página de la documentación y comience con este cuaderno de ejemplo.