Amazon SageMaker HyperPod

대규모 분산 훈련을 위해 특별히 구축된 인프라를 통해 파운데이션 모델 훈련 시간을 최대 40% 단축

SageMaker HyperPod란 무엇인가요?

AmazonSageMaker HyperPod는 파운데이션 모델(FM) 훈련을 위한 기계 학습(ML) 인프라를 구축하고 최적화하는 것과 관련된 힘든 작업을 제거하여 훈련 시간을 최대 40% 단축합니다. SageMaker HyperPod는 SageMaker의 분산 훈련 라이브러리로 사전 구성되어 있으므로 고객이 액셀러레이터 수천 개에서 훈련 워크로드를 자동 분할할 수 있습니다. 따라서 워크로드를 병렬로 처리하여 모델 성능을 개선할 수 있습니다. 또한 SageMaker HyperPod는 체크포인트를 주기적으로 저장하므로, FM 훈련을 중단하지 않고 계속 진행할 수 있습니다. 훈련 중에 하드웨어 장애가 발생하면 SageMaker HyperPod가 장애를 자동 감지하여 결함이 있는 인스턴스를 복구하거나 교체한 후 마지막으로 저장된 체크포인트부터 훈련을 재개합니다. 그러므로 고객이 프로세스를 수동으로 관리할 필요가 없으며, 분산 환경에서도 훈련을 몇 주나 몇 달 동안 중단하지 않고 계속 진행할 수 있습니다.

SageMaker HyperPod의 이점

Amazon SageMaker HyperPod는 Amazon SageMaker 분산 훈련 라이브러리로 사전 구성되기 때문에 모델 및 훈련 데이터 세트를 AWS 클러스터 인스턴스 간에 자동으로 분할하여 훈련 워크로드 규모를 효율적으로 조정할 수 있습니다.
Amazon SageMaker 분산 훈련 라이브러리는 데이터 병렬 처리와 모델 병렬 처리라는 두 가지 기술을 통해 AWS 네트워크 인프라 및 클러스터 토폴로지에 맞게 훈련 작업을 최적화합니다. 모델 병렬 처리는 단일 GPU에 맞지 않는 큰 모델을 작은 부분으로 나눈 다음 여러 GPU에 배포하여 훈련합니다. 데이터 병렬 처리는 대규모 데이터 세트를 분할하여 동시에 훈련함으로써 훈련 속도를 개선합니다.
SageMaker HyperPod는 결함을 자동으로 감지, 진단 및 복구하여 복원력이 높은 훈련 환경을 제공하므로 중단 없이 몇 개월 동안 지속적으로 FM을 훈련할 수 있습니다.

분산 훈련 라이브러리 최적화

SageMaker HyperPod는 SageMaker 분산 라이브러리로 사전 구성됩니다. 단 몇 줄의 코드로 훈련 스크립트에서 데이터 병렬 처리를 활성화할 수 있습니다. SageMaker HyperPod를 사용하면 모델과 훈련 데이터 세트를 여러 AWS GPU 인스턴스에 자동으로 분할하여 분산 훈련을 더 빠르게 수행할 수 있습니다.

자세히 알아보기 »

모델 성능 디버깅 및 개선

SageMaker HyperPod에서 특별히 구축된 ML 도구를 사용하여 훈련 성능을 개선할 수 있습니다. Amazon SageMaker with TensorBoard는 모델 아키텍처를 시각화하여 수렴되지 않는 검증 손실, 소실되는 그래디언트 등의 컨버전스 문제를 식별하고 해결함으로써 개발 시간을 절약하는 데 도움을 줍니다.

자세히 알아보기 »

워크로드 일정 지정 및 오케스트레이션

Slurm을 사용하여 SageMaker HyperPod 사용자 인터페이스를 고도로 사용자 지정할 수 있습니다. 필요한 프레임워크 또는 도구를 선택하여 설치할 수 있습니다. 모든 클러스터는 사용자가 선택한 인스턴스 유형과 개수로 프로비저닝되며 워크로드 전체에서 사용할 수 있도록 유지됩니다.

자동 클러스터 상태 확인 및 복구

훈련 워크로드 중에 인스턴스에 결함이 생기면 SageMaker HyperPod가 결함이 있는 노드를 자동으로 탐지하여 정상 노드로 교체합니다. 결함이 있는 하드웨어를 탐지하기 위해 SageMaker HyperPod는 정기적으로 GPU 및 네트워크 무결성에 대한 일련의 상태 확인을 실행합니다.