Amazon Web Services 한국 블로그
Amazon SageMaker HyperPod 작업 거버넌스: 모델 개발을 위한 컴퓨팅 사용 극대화
오늘은 학습, 미세 조정, 추론과 같은 생성형 AI 모델 개발 작업 전반에서 GPU 및 Tranium 사용률을 쉽게 중앙 집중식으로 관리하고 극대화할 수 있는 새로운 혁신, Amazon SageMaker HyperPod 작업 거버넌스의 정식 출시를 발표합니다.
고객들은 생성형 AI 프로젝트에 대한 투자를 빠르게 늘리고 있지만 제한된 컴퓨팅 리소스를 효율적으로 할당하는 데 어려움을 겪고 있다고 말합니다. 리소스 할당을 위한 동적인 중앙 집중식 거버넌스가 부족하면 일부 프로젝트는 리소스를 제대로 활용하지 못하는 반면 다른 프로젝트는 중단되어 비효율성이 발생합니다. 이런 상황에서는 비효율적인 리소스 사용으로 인해 관리자에게 지속적으로 다시 계획해야 한다는 부담이 있고, 데이터 과학자와 개발자의 업무가 지연되며, AI 혁신이 제때 제공되지 않고 비용이 초과되는 결과로 이어집니다.
SageMaker HyperPod 작업 거버넌스를 사용하면 사용률이 낮은 컴퓨팅 리소스로 인한 비용 초과를 방지하는 동시에 AI 혁신의 시장 출시 시간을 단축할 수 있습니다. 관리자는 몇 단계만 거치면 프로젝트 예산 및 작업 우선 순위에 따라 컴퓨팅 리소스 할당을 관리하는 할당량을 설정할 수 있습니다. 데이터 과학자나 개발자는 모델 훈련, 미세 조정 또는 평가와 같이 SageMaker HyperPod가 자동으로 예약하고 할당된 할당량 내에서 실행하는 작업을 생성할 수 있습니다.
SageMaker HyperPod 작업 거버넌스는 리소스를 관리하여, 우선 순위가 높은 작업에 즉각적인 주의가 필요한 경우 우선 순위가 낮은 작업에 드는 컴퓨팅을 자동으로 덜어줍니다. 우선 순위가 낮은 훈련 작업을 일시 중지하고, 체크포인트를 저장하고, 나중에 리소스를 사용할 수 있게 되면 다시 시작하는 것입니다. 또한 다른 팀의 대기 중인 작업을 가속화하는 데 팀의 할당량 내에 있는 유휴 컴퓨팅을 자동으로 사용할 수 있습니다.
데이터 과학자와 개발자는 작업 대기열을 지속적으로 모니터링하고, 보류 중인 작업을 확인하고, 필요에 따라 우선 순위를 조정할 수 있습니다. 또한 관리자는 예약된 작업을 모니터링 및 감사하고 팀 및 프로젝트 전반의 리소스 사용량을 계산할 수 있습니다. 따라서 할당을 조정하여 비용을 최적화하고 조직 전체의 리소스 가용성을 개선할 수 있습니다. 이러한 접근 방식을 통해 중요한 프로젝트를 적시에 완료하는 동시에 리소스 효율성을 극대화할 수 있습니다.
SageMaker HyperPod 작업 거버넌스 시작하기
HyperPod의 Amazon EKS 클러스터에서 작업 거버넌스를 사용할 수 있습니다. Amazon SageMaker AI 콘솔의 HyperPod 클러스터에서 클러스터 프로비저닝 및 관리를 위한 클러스터 관리를 찾아보세요. 관리자는 이 콘솔을 통해 HyperPod 클러스터의 운영 및 규모 조정을 간소화할 수 있습니다.
HyperPod 클러스터를 선택하면 클러스터 세부 정보 페이지에 새로운 대시보드, 작업 및 정책 탭이 표시됩니다.
1. 새 대시보드
새 대시보드에서는 클러스터 사용률, 팀 기반 및 작업 기반 지표에 대한 개요를 볼 수 있습니다.
먼저, 모든 인스턴스 그룹에서 GPU, vCPU, 메모리 사용률을 비롯한 중요 컴퓨팅 리소스에 대한 특정 시점 및 추세 기반 지표를 모두 볼 수 있습니다.
다음으로, GPU 사용률과 팀 간의 컴퓨팅 할당에 초점을 맞춰 팀별 리소스 관리에 대한 포괄적인 인사이트를 얻을 수 있습니다. 팀 및 클러스터 인스턴스 그룹에 대해 사용자 지정 가능한 필터를 사용하여 작업에 할당된 GPU/CPU, 빌려온 GPU/CPU, GPU/CPU 사용률과 같은 지표를 분석할 수 있습니다.
또한 실행 중인 작업 수, 보류 중인 작업 수, 선점된 작업 수, 평균 작업 런타임 및 대기 시간과 같은 지표를 사용하여 작업 성능 및 리소스 할당 효율성을 평가할 수 있습니다. SageMaker HyperPod 클러스터 리소스 및 소프트웨어 구성 요소를 포괄적으로 관찰하려면 Amazon CloudWatch Container Insights 또는 Amazon Managed Grafana와 통합할 수 있습니다.
2. 클러스터 정책 생성 및 관리
작업 우선 순위를 지정하고 리소스를 공정하게 분배하려면 중요한 워크로드를 우선시하고 컴퓨팅 할당에 정의된 팀 전체에 유휴 컴퓨팅을 분배하는 클러스터 정책을 구성할 수 있습니다.
클러스터 설정에서 우선 순위 클래스와 빌려온 컴퓨팅의 공정한 분배를 구성하려면 클러스터 정책 섹션에서 편집을 선택합니다.
대기열에 대기 중인 작업을 작업 우선 순위 지정 대상으로 승인하는 방법을 정의할 수 있습니다(기본적으로 선착순 또는 작업 순위 지정). 작업 순위 지정을 선택하면 대기열에 대기 중인 작업이 이 클러스터 정책에 정의된 우선 순위에 따라 승인됩니다. 우선 순위가 동일한 작업은 선착순으로 실행됩니다.
또한 유휴 컴퓨팅을 팀 전체에 할당하는 방식을 구성할 수 있습니다(기본적으로 선착순 또는 공정한 분배). 공정한 분배 설정을 통해 팀은 상대적 컴퓨팅 할당으로 구성된 할당된 가중치를 기반으로 유휴 컴퓨팅을 빌려올 수 있습니다. 이를 통해 모든 팀은 대기 중인 작업을 가속화하기 위해 유휴 컴퓨팅을 공정하게 분배받을 수 있니다.
정책 페이지의 컴퓨팅 할당 섹션에서 컴퓨팅 할당을 생성 및 편집하여 팀 간에 컴퓨팅 리소스를 분배하고, 팀에서 유휴 컴퓨팅을 빌려주고 빌려올 수 있는 설정을 활성화하고, 우선 순위가 낮은 자체 작업을 선점하도록 구성하고, 팀에 공정한 분배 가중치를 할당할 수 있습니다.
팀 섹션에서 팀 이름을 설정하면 데이터 과학 및 기계 학습(ML) 팀에서 사용할 해당 Kubernetes 네임스페이스가 생성됩니다. 팀 전체에 미사용 용량을 보다 공평하게 분배하기 위해 공정한 분배 가중치를 설정하고 작업 우선순위에 따른 선점 옵션을 활성화하여 우선 순위가 높은 작업이 우선 순위가 낮은 작업보다 먼저 처리되도록 할 수 있습니다.
컴퓨팅 섹션에서는 인스턴스 유형 할당량을 추가하고 팀에 할당할 수 있습니다. 또한 클러스터에서 아직 사용할 수 없는 인스턴스 유형에 할당량을 할당하여 향후 확장이 가능하도록 할 수 있습니다.
팀이 사용하지 않는 용량을 다른 팀에 빌려주도록 허용하여 유휴 컴퓨팅 리소스를 공유하도록 할 수 있습니다. 이 빌리기 모델은 상호적으로, 팀은 자신도 미사용 리소스를 다른 팀과 공유할 의향이 있는 경우에만 유휴 컴퓨팅을 빌릴 수 있습니다. 팀에서 할당된 할당량을 초과하여 컴퓨팅 리소스를 빌려올 수 있도록 하는 빌리기 한도를 지정할 수도 있습니다.
3. SageMaker HyperPod 클러스터에서 훈련 작업 실행하기
데이터 과학자는 HyperPod 명령줄 인터페이스(CLI) 명령을 사용하여 훈련 작업을 제출하고 팀에 할당된 할당량을 사용할 수 있습니다. HyperPod CLI를 사용하여 작업을 시작하고 할당이 있는 해당 네임스페이스를 지정할 수 있습니다.
$ hyperpod start-job --name smpv2-llama2 --namespace hyperpod-ns-ml-engineers
Successfully created job smpv2-llama2
$ hyperpod list-jobs --all-namespaces
{
"jobs": [
{
"Name": "smpv2-llama2",
"Namespace": "hyperpod-ns-ml-engineers",
"CreationTime": "2024-09-26T07:13:06Z",
"State": "Running",
"Priority": "fine-tuning-priority"
},
...
]
}
작업 탭에서는 클러스터의 모든 작업을 볼 수 있습니다. 각 작업은 정책에 따라 우선 순위와 필요한 용량이 다릅니다. 우선 순위가 더 높은 다른 작업을 실행하면 기존 작업이 일시 중단되고 해당 작업이 먼저 실행될 수 있습니다.
이제 우선 순위가 낮은 작업을 실행하는 동안 우선 순위가 높은 훈련 작업이 추가되면 어떤 일이 발생하는지 보여주는 데모 동영상을 살펴보겠습니다.
자세히 알아보려면 Amazon SageMaker AI 개발자 안내서의 SageMaker HyperPod 작업 거버넌스를 참조하세요.
지금 이용 가능
이제 미국 동부(버지니아 북부), 미국 동부(오하이오), 미국 서부(오리건) AWS 리전에서 Amazon SageMaker HyperPod 작업 거버넌스를 사용할 수 있습니다. 추가 비용 없이 HyperPod 작업 거버넌스를 사용할 수 있습니다. 자세히 알아보려면 SageMaker HyperPod 제품 페이지를 방문하세요.
Amazon SageMaker AI 콘솔에서 HyperPod 작업 거버넌스를 사용해 보고 피드백을 전달하려면 SageMaker용 AWS re:Post를 이용하거나 평소 교류하는 AWS Support 담당자를 통해 피드백을 보내주세요.
– Channy
추신: HyperPod 테스트 환경을 만드는 데 도움을 주신 AWS의 선임 생성형 AI 전문가 솔루션 아키텍트 Nisha Nadkarni 님께 특별히 감사드립니다.