Amazon EC2 Capacity Blocks for ML

Amazon EC2 UltraClusters에서 가속 컴퓨팅 인스턴스를 예약하여 ML 워크로드 실행

영업 팀 문의

Amazon EC2 ML용 용량 블록을 선택해야 하는 이유

ML용 Amazon Elastic Compute Cloud(Amazon EC2) 용량 블록을 사용하면 향후에 시작할 가속 컴퓨팅 인스턴스 시작일을 쉽게 예약할 수 있습니다. 용량 블록은 각각 최신 NVIDIA H200 Tensor Core GPU, NVIDIA H100 Tensor Core GPU, NVIDIA A100 Tensor Core GPU로 구동되는 Amazon EC2 P5en, P5e, P5 및 P4d 인스턴스와 AWS Trainium으로 구동되는 Trn2 및 Trn1 인스턴스를 지원합니다. EC2 용량 블록은 고성능 기계 학습(ML) 워크로드용으로 설계된 Amazon EC2 UltraClusters에 콜로케이션됩니다. 가속 컴퓨팅 인스턴스를 최대 6개월 동안 1~64개 인스턴스(512개의 GPU 또는 1,024개의 Trainium 칩)의 클러스터 크기로 예약할 수 있으므로 광범위한 ML 워크로드를 실행할 수 있는 유연성을 제공합니다. EC2 용량 블록 기능은 최대 8주 전에 예약할 수 있습니다.

이점

확신을 가지고 계획

향후 가속 컴퓨팅 인스턴스 가용 용량을 확보하여 확신을 가지고 ML 개발을 계획할 수 있습니다.

지연 시간이 짧고 처리량이 높은 네트워크 연결

분산 훈련을 위해 Amazon EC2 UltraClusters의 콜로케이션을 통해 지연 시간이 짧고 처리량이 높은 네트워크 연결을 확보할 수 있습니다.

고성능

기계 학습을 위해 Amazon EC2에서 최고 성능의 가속 컴퓨팅 인스턴스에 예측 가능한 방식으로 액세스할 수 있습니다.

사용 사례

가속 컴퓨팅 인스턴스를 사용하여 ML 모델을 훈련하거나 미세 조정

ML 모델 훈련 및 미세 조정을 완료하기 위해 예약한 가속 컴퓨팅 인스턴스에 중단 없이 액세스할 수 있습니다.

관리형 인프라를 사용하여 비용 효율적인 생성형 AI 모델 훈련을 실행하세요

용량 블록을 기반으로 하는 Amazon SageMaker HyperPod의 유연한 교육 계획을 사용하면 훈련 요구 사항에 따라 여러 컴퓨팅 용량 블록에서 훈련 작업을 자동으로 예약하고 실행하여 모델 훈련 일정 및 예산을 충족할 수 있습니다.

실험 실행에 필요한 시간 동안 가속 컴퓨팅 인스턴스 확보

짧은 기간 동안 가속 컴퓨팅 인스턴스가 필요한 실험을 실행하고 프로토타입을 구축할 수 있습니다..

향후 ML 애플리케이션 수요 급증에 대비

고객에게 서비스를 제공할 수 있는 적절한 용량을 예약하여 성장 요구 사항을 충족합니다.

NVIDIA

전 세계 기업이 생성형 AI를 도입하여 비즈니스를 재편함에 따라 가속 컴퓨팅에 대한 수요가 기하급수적으로 증가하고 있습니다. AWS의 새로운 EC2 ML용 용량 블록으로 전 세계 AI 회사는 이제 한 번에 서버 한 대만이 아니라 AWS에서만 사용할 수 있는 전용 규모로 H100을 임대할 수 있습니다. 이를 통해 빠르고 비용 효율적으로 대규모 언어 모델을 훈련시키고 필요할 때 정확히 클라우드에서 추론을 실행할 수 있습니다.

NVIDIA 하이퍼스케일 및 HPC 컴퓨팅 담당 부사장, Ian Buck
Arcee

Arcee는 우리가 SLM이라고 부르는 작고 전문적이며 안전하고 확장 가능한 언어 모델을 개발하고 발전시킬 수 있는 AI 플랫폼을 제공합니다. Amazon EC2 ML용 용량 블록은 필요할 때 신뢰할 수 있는 GPU 용량 액세스를 제공하기 때문에 AWS에서의 SLM 훈련을 위한 ML 컴퓨팅 환경에서 중요한 부분입니다. 따라서 우리 내부 팀과 고객 모두 유연성의 이점을 누릴 수 있습니다. 장기 약정 없이 며칠 내에 GPU 클러스터를 사용할 수 있다는 것은 우리에게는 획기적인 일이었습니다.

Arcee CEO 겸 공동 창립자, Marc McQuade
Amplify Partners

우리는 딥 러닝 및 대규모 언어 모델을 활용하여 획기적인 혁신을 시장에 내놓는 몇몇 창업자와 제휴했습니다. GPU 컴퓨팅 파워에 예측 가능하고 시기적절하게 액세스할 수 있어야 창업자가 아이디어를 빠르게 실현할 수 있을 뿐 아니라 계속해서 비전을 반복하고 고객에게 제공하는 가치를 늘릴 수 있다고 생각합니다. EC2 용량 블록을 통해 최대 512개의 NVIDIA H100 GPU를 사용할 수 있다는 것은 공급이 제약된 현재의 환경에서 획기적입니다. EC2 용량 블록이 장기 자본 약정 없이 필요할 때 필요한 GPU 컴퓨팅 파워를 스타트업에 제공할 것이라고 믿기 때문입니다. GPU 용량 블록과 업계 최고의 기계 학습 및 생성형 AI 서비스 포트폴리오를 활용하여 AWS를 기반으로 구축하는 창업자를 지원할 수 있기를 기대합니다.

Amplify Partners 운영 파트너, Mark LaRosa
Canva

현재 Canva는 1억 5천만 명 이상의 월간 활성 사용자가 어디에나 게시할 수 있는 매력적인 시각적 자산을 창작할 수 있도록 지원하고 있습니다. 우리는 사용자가 아이디어를 자유롭고 빠르게 실험할 수 있도록 EC2 P4de 인스턴스를 사용하여 새로운 생성형 AI 도구를 지원하는 다중 모달 모델을 훈련시켜 왔습니다. 더 큰 모델을 훈련시키려면 훈련 실행 중에 수백 개의 GPU를 예측 가능한 방식으로 확장할 수 있어야 합니다. P5 인스턴스를 지원하는 EC2 용량 블록을 AWS에서 출시한다니 정말 기대됩니다. 이제 지연 시간이 짧은 EC2 UltraCluster에 있는 최대 512개의 NVIDIA H100 GPU에 예측 가능하게 액세스할 수 있게 되어 이전보다 더 큰 모델을 훈련시킬 수 있습니다.

Canva 데이터 플랫폼 책임자, Greg Roodt
Dashtoon

Dashtoon은 최첨단 AI와 창의성을 결합하여 예술적 기술이나 기술 지식에 관계없이 스토리텔러를 디지털 만화를 창작할 수 있는 아티스트로 바꿔 놓음으로써 일러스트레이션 콘텐츠 제작의 기존 장벽을 허물고 있습니다. 우리 앱을 사용하여 만화를 소비하는 월간 활성 사용자(MAU)는 8만 명을 넘고, 창작자들은 Dashtoon Studio에서 매일 10만 개 이상의 이미지를 생성하고 있습니다. 우리는 처음부터 AWS를 사용해 왔는데, Amazon EC2 P5 인스턴스를 사용하여 Stable Diffusion XL, GroundingDINO, Segment Anything을 비롯한 다중 모달 모델을 훈련시키고 미세 조정합니다. NVIDIA H100 GPU 기반 P5 인스턴스를 사용할 때 NVIDIA A100 GPU 기반의 동급 P4d 인스턴스를 사용할 때보다 성능이 3배 향상되었습니다. 훈련 데이터세트 크기가 다양한데, 모델 훈련 규모를 조정하려는 경우에 Amazon EC2 ML용 용량 블록을 사용하면 예측 가능하고 짧은 리드 타임(빠르면 다음 날)으로 GPU 요구 사항을 유연하게 충족할 수 있어 사용자를 위한 새 기능 출시에 걸리는 시간을 줄일 수 있습니다. EC2 용량 블록을 계속 활용하여 혁신을 가속화할 수 있게 되어 매우 기쁩니다.

Dashtoon 공동 창립자 겸 최고 기술 책임자, Soumyadeep Mukherjee
Leonardo.Ai

Leonardo의 우리 팀은 생성형 AI를 활용하여 창의적 전문가와 마니아들이 최고의 품질, 속도, 스타일 일관성을 갖춘 시각적 자산을 제작할 수 있도록 지원합니다. 미세 조정된 AI 모델 세트와 강력한 도구가 우리 기반으로, 생성 전과 후에 세분화된 제어를 제공합니다. 우리는 모델 구축과 훈련뿐 아니라 모델 호스팅에도 광범위한 AWS 서비스를 활용하여 수백만 명의 월간 활성 고객의 사용을 지원하고 있습니다. ML용 EC2 용량 블록 출시를 기쁘게 생각합니다. 훈련과 실험을 위해 GPU 용량에 탄력적으로 액세스하는 한편 컴퓨팅 요구 사항을 더 잘 충족할 수 있는 다른 EC2 인스턴스로 전환할 수 있는 옵션은 유지할 수 있습니다.

Leonardo.Ai CTO, Peter Runham
OctoAI

OctoAI는 애플리케이션 빌더가 생성형 AI의 간편한 실행, 조정, 규모 조정을 통해 모델 실행을 최적화하고 자동화를 사용하여 서비스 규모를 조정하고 엔지니어링 부담을 줄일 수 있도록 지원합니다. 짧은 기간 동안 GPU 용량을 스케일 업할 수 있는 능력은 매우 중요합니다. 특히 제품 출시의 일환으로 ML 애플리케이션을 0명에서 수백만 명의 사용자로 빠르게 확장하려는 고객과 협력할 때는 더욱 그렇습니다. ML용 EC2 용량 블록을 사용하면 고객의 계획된 스케일 업에 맞춰 다양한 크기의 GPU 클러스터를 예측 가능한 방식으로 스핀업할 수 있으며, 장기 용량 약정이나 온프레미스 배포와 비교할 때 잠재적인 비용 절감 효과를 얻을 수 있습니다.

OctoAI CEO, Luis Ceze
Snorkel

Snorkel의 AI 데이터 개발 플랫폼은 기업이 빠르게 AI를 생성하고 사용할 수 있도록 지원합니다. 컴퓨팅 집약적인 LLM의 정보를 더 작은 전문 모델로 추출하는 작업이 포함되는 경우가 점점 더 많아지고 있어 개발 과정에서 단기적으로 많은 컴퓨팅이 필요합니다. GPU 용량 확보 면에서 ML용 EC2 용량 블록은 기존 옵션 대비 상당한 개선을 제공할 잠재력이 있습니다. 단기적 GPU 용량에 대한 액세스 보장과 EC2 UltraCluster의 뛰어난 네트워킹 성능은 기업이 현재와 장래에 지원해야 하는 AI 개발 워크플로의 중요한 원동력입니다.

Snorkel 공동 창립자 겸 기술 책임자, Braden Hancock