Publicado: Oct 25, 2022
O endpoint multimodelo (MME) do Amazon SageMaker é um recurso totalmente gerenciado do SageMaker Inference que permite que os clientes implantem milhares de modelos em um único endpoint e economizem custos compartilhando instâncias nas quais os endpoints são executados em todos os modelos. Até hoje, o MME era compatível apenas com modelos de machine learning (ML) executados em instâncias de CPU. Agora, os clientes também podem usar o MME para implantar milhares de modelos de ML em instâncias baseadas em GPU e economizar até 90% nos custos.
O MME carrega e descarrega dinamicamente modelos da memória da GPU com base no tráfego de entrada para o endpoint. Os clientes economizam custos com o MME, pois as instâncias de GPU são compartilhadas por milhares de modelos. Os clientes podem executar modelos de ML de várias estruturas de ML, incluindo PyTorch, TensorFlow, XGBoost e ONNX. Os clientes podem começar usando o NVIDIA Triton™ Inference Server e implantar modelos nas instâncias de GPU do SageMaker no modo “multimodelo”. Depois que o MME é criado, os clientes especificam o modelo de ML do qual desejam obter inferência ao chamar o terminal.
Os endpoints multimodelo de GPU estão disponíveis em todas as regiões da AWS nas quais o Amazon SageMaker é oferecido. Para saber mais, confira nosso blog de lançamento e o anúncio do NVIDIA Triton™ Inference Server. Visite também nossa página de documentação e dê os primeiros passos com este notebook de amostra.