Amazon SageMaker HyperPod

기초 모델을 학습하는 데 걸리는 시간을 최대 40% 줄이고 1,000가지 이상의 AI 가속기로 효율적으로 확장

SageMaker HyperPod란 무엇인가요?

Amazon SageMaker HyperPod 사용 시에는 기계 학습(ML) 인프라 구축 및 최적화와 관련된 획일적이며 번거로운 작업을 직접 처리할 필요가 없습니다. 또한 SageMaker의 분산 훈련 라이브러리로 사전 구성되어 있으므로 1,000개가 넘는 AI 액셀러레이터에서 훈련 워크로드를 자동 분할할 수 있습니다. 따라서 워크로드를 병렬로 처리하여 모델 성능을 개선할 수 있습니다. SageMaker HyperPod는 체크포인트를 주기적으로 저장하므로, FM 훈련을 중단하지 않고 계속 진행할 수 있습니다. 하드웨어 장애 발생 시 이를 자동으로 감지하고, 결함이 있는 인스턴스를 복구 또는 교체하고, 마지막으로 저장한 체크포인트에서 훈련을 재개하므로 이러한 프로세스를 수동으로 관리할 필요가 없습니다. 복원력이 뛰어난 환경을 통해 분산 환경에서 중단 없이 몇 주 또는 몇 달 동안 모델을 훈련시킬 수 있으므로 훈련 시간을 최대 40% 절약할 수 있습니다. 또한 SageMaker HyperPod는 고도로 사용자 지정할 수 있으므로 FM 워크로드를 효율적으로 실행 및 확장하고 대규모 훈련에서 추론에 이르는 다양한 워크로드 간에 컴퓨팅 용량을 쉽게 공유할 수 있습니다.

SageMaker HyperPod의 이점

Amazon SageMaker HyperPod는 Amazon SageMaker 분산 훈련 라이브러리로 사전 구성되기 때문에 모델 및 훈련 데이터 세트를 AWS 클러스터 인스턴스 간에 자동으로 분할하여 훈련 워크로드 규모를 효율적으로 조정할 수 있습니다.
SageMaker HyperPod는 Slurm과 Amazon Elastic Kubernetes Service(EKS) 등의 널리 사용되는 클러스터 관리 및 작업 스케줄링 시스템을 지원합니다. FM 훈련 및 추론 워크로드를 확장할 때 뛰어난 개발자 경험, 컨테이너화된 앱 관리 기능, 동적 클러스터 확장, 클라우드 네이티브 통합을 제공합니다. 또한 훈련과 추론 간에 리소스를 원활하게 공유하여 리소스 활용도를 더욱 최적화할 수 있습니다.
SageMaker HyperPod는 결함을 자동으로 감지, 진단 및 복구하여 복원력이 높은 훈련 환경을 제공하므로 중단 없이 몇 개월 동안 지속적으로 FM을 훈련할 수 있습니다.