게시된 날짜: Oct 25, 2022
Amazon SageMaker MME(다중 모델 엔드포인트)는 SageMaker Inference의 완전관리형 기능으로, 고객이 이 기능을 사용하면 단일 엔드포인트에 수천 개의 모델을 배포하고 엔드포인트가 실행되는 인스턴스를 모든 모델에서 공유하여 비용을 절감할 수 있습니다. 이제까지 MME는 CPU 인스턴스에서 실행되는 기계 학습(ML) 모델에서만 지원되었습니다. 이제 고객은 MME를 사용하여 GPU 기반 인스턴스에도 수천 개의 ML 모델을 배포할 수 있으며 비용을 90%까지 절감할 수 있습니다.
MME는 엔드포인트로 들어오는 트래픽을 기반으로 GPU 메모리에서 동적으로 모델을 로드 및 언로드합니다. 수천 개의 모델이 GPU 인스턴스를 공유하므로 고객은 MME를 통해 비용을 절감할 수 있습니다. 또한 PyTorch, TensorFlow, XGBoost, ONNX 등 여러 ML 프레임워크에서 ML 모델을 실행할 수 있습니다. 고객은 NVIDIA Triton™ Inference Server를 사용하여 시작하고 ‘다중 모델’ 모드에서 SageMaker의 GPU 인스턴스에 모델을 배포할 수 있습니다. MME가 생성되면 고객은 엔드포인트를 호출하는 동안 추론을 얻으려는 ML 모델을 지정합니다.
GPU용 다중 모델 엔드포인트는 Amazon SageMaker가 제공되는 모든 AWS 리전에서 사용할 수 있습니다. 자세히 알아보려면 출시 블로그 및 NVIDIA Triton™ Inference Server 발표를 참조하세요. 또한 설명서 페이지를 방문하여 이 샘플 노트북을 시작하세요.