Amazon Web Services 한국 블로그
Amazon EC2 P5en 인스턴스 출시: NVIDIA H200 Tensor Core GPU 및 EFAv3 네트워킹 탑재
오늘 AWS에서만 사용할 수 있는 올코어 터보 주파수 3.2GHz(최대 코어 터보 주파수 3.8GHz)를 지원하는 맞춤형 4세대 Intel Xeon Scalable 프로세서와 NVIDIA H200 Tensor Core GPU를 사용하는 Amazon Elastic Compute Cloud(Amazon EC2) P5en 인스턴스의 정식 출시를 발표합니다. 해당 프로세서는 PCIe Gen5를 통해 50% 더 높은 메모리 대역폭과 CPU와 GPU 간에 최대 4배의 처리량을 제공하므로 기계 학습(ML)의 학습 및 추론 워크로드 성능 향상에 도움이 됩니다.
Nitro v5를 사용해 최대 3,200Gbps를 지원하는 3세대 Elastic Fabric Adapter(EFAv3)를 사용하는 P5en은 이전 세대의 EFA와 Nitro를 사용하는 P5에 비해 지연 시간이 최대 35% 단축되었습니다. 이를 통해 딥 러닝, 생성형 AI, 실시간 데이터 처리, 고성능 컴퓨팅(HPC) 애플리케이션과 같은 분산 학습 워크로드의 집단 통신 성능을 개선할 수 있습니다.
P5en 인스턴스의 사양은 다음과 같습니다.
인스턴스 크기 | vCPU | 메모리(GiB) | GPU(H200) | 네트워크 대역폭(Gbps) | GPU 피어 투 피어(GB/s) | 인스턴스 스토리지(TB) | EBS 대역폭(Gbps) |
p5en.48xlarge | 192 | 2,048 | 8 | 3,200 | 900 | 8×3.84 | 100 |
9월 9일에는 1,128GB의 고대역폭 GPU 메모리, 3세대 AMD EPYC 프로세서, 2TiB의 시스템 메모리 및 30TB의 로컬 NVMe 스토리지를 탑재한 8개의 NVIDIA H200 GPU를 사용하는 Amazon EC2 P5e 인스턴스를 출시했습니다. 해당 인스턴스는 EFAv2를 통해 최대 3,200Gbps까지 지원하는 총 네트워크 대역폭을 제공하며 GPUDirect RDMA를 지원하여 노드 간 통신에서 CPU를 우회하여 지연 시간을 단축하고 효율적인 스케일 아웃 성능을 구현할 수 있습니다.
P5en 인스턴스를 사용하면 추론 및 네트워크 지연 시간을 더욱 단축하여 광범위한 GPU 가속 애플리케이션에서 전반적인 효율성을 높일 수 있습니다. P5en 인스턴스는 P5 인스턴스에 비해 로컬 스토리지 성능을 최대 2배, Amazon Elastic Block Store(Amazon EBS) 대역폭을 최대 25% 향상시켜 모델 가중치 캐싱에 로컬 스토리지를 사용하는 사용자의 추론 지연 시간을 더욱 단축합니다.
특히 대규모 데이터세트나 빈번한 데이터 교환이 필요한 워크로드의 경우 CPU와 GPU 간 데이터 전송에 시간이 많이 소요될 수 있습니다. PCIe 5세대는 P5e 및 P5e 인스턴스에 비해 CPU와 GPU 간에 최대 4배의 대역폭을 제공하므로 복잡한 대규모 언어 모델(LLM) 및 멀티모달 파운데이션 모델(FM)과 시뮬레이션, 제약 발견, 일기 예보 및 금융 모델링과 같은 메모리 집약적인 HPC 애플리케이션의 모델 훈련, 미세 조정 및 추론 지연 시간을 더욱 단축할 수 있습니다.
Amazon EC2 P5en 인스턴스 시작하기
미국 동부(오하이오), 미국 서부(오리건) 및 아시아 태평양(도쿄) AWS 리전에서 사용 가능한 EC2 P5en 인스턴스는 ML용 EC2 용량 블록, 온디맨드 및 Savings Plan 구매 옵션을 통해 사용할 수 있습니다.
옵션으로 용량 예약을 사용하여 P5en 인스턴스를 사용하는 방법을 소개합니다. EC2 용량 블록을 예약하려면 미국 동부(오하이오) AWS 리전의 Amazon EC2 콘솔에서 Capacity Reservations(용량 예약)를 선택합니다.
Purchase Capacity Blocks for ML(ML용 용량 블록 구매)을 선택한 다음, 총 용량을 선택하고 p5en.48xlarge 인스턴스용 EC2 용량 블록이 필요한 기간을 지정합니다. EC2 용량 블록을 예약할 수 있는 총 일수는 1~14일, 21일 또는 28일입니다. EC2 용량 블록은 최대 8주 전에 미리 구매할 수 있습니다.
Find Capacity Blocks(용량 블록 찾기)를 선택하면 AWS는 지정한 날짜 범위의 사양을 충족하는 가장 저렴한 가격의 제품을 반환합니다. EC2 용량 블록 세부 정보, 태그 및 총 가격 정보를 검토한 후 Purchase(구매)를 선택합니다.
이제 EC2 용량 블록이 성공적으로 예약되었습니다. EC2 용량 블록의 총 가격은 선불로 청구되며 구매 후 가격은 변동하지 않습니다. 결제 대금은 EC2 용량 블록을 구매한 후 12시간 이내에 계정에 청구됩니다. 자세히 알아보려면 Amazon EC2 사용 설명서에서 ML용 용량 블록을 참조하십시오.
구매한 용량 블록 내에서 인스턴스를 실행하려면 AWS Management Console, AWS Command Line Interface(AWS CLI) 또는 AWS SDK를 사용합니다.
다음은 16개의 P5en 인스턴스를 실행하여 EFAv3의 이점을 극대화하기 위한 샘플 AWS CLI 명령입니다. 이 구성은 8개의 프라이빗 IP 주소와 함께 최대 3,200Gbps의 EFA 네트워킹 대역폭과 최대 800Gbps의 IP 네트워킹 대역폭을 제공합니다.
$ aws ec2 run-instances --image-id ami-abc12345 \
--instance-type p5en.48xlarge \
--count 16 \
--key-name MyKeyPair \
--instance-market-options MarketType='capacity-block' \
--capacity-reservation-specification CapacityReservationTarget={CapacityReservationId=cr-a1234567}
--network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=1,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=2,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=3,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=4,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=5,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=6,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=7,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=8,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=9,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=10,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=11,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=12,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=13,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=14,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=15,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=16,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=17,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=18,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=19,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=20,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=21,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=22,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=23,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=24,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=25,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=26,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=27,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=28,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa" \
"NetworkCardIndex=29,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=30,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only" \
"NetworkCardIndex=31,DeviceIndex=1,Groups=security_group_id,SubnetId=subnet_id,InterfaceType=efa-only"
...
P5en 인스턴스를 시작할 때는 EC2 P5en 인스턴스를 지원하도록 AWS Deep Learning AMI(DLAMI)를 선택합니다. DLAMI는 사전 구성된 환경에서 확장 가능하고 안전한 분산 ML 애플리케이션을 신속하게 구축할 수 있는 인프라와 도구를 ML 실무자와 연구원에게 제공합니다.
Amazon Elastic Container Service(Amazon ECS) 또는 Amazon Elastic Kubernetes Service(Amazon EKS)용 라이브러리를 사용한 AWS Deep Learning Containers로 P5en 인스턴스에서 컨테이너화된 ML 애플리케이션을 실행할 수 있습니다.
대규모 데이터세트에 빠르게 액세스하려면 최대 30TB의 로컬 NVMe SSD 스토리지 또는 Amazon Simple Storage Service(Amazon S3)를 통해 사실상 무제한의 비용 효율적인 스토리지를 사용할 수 있습니다. 또한 P5en 인스턴스의 Amazon FSx for Lustre 파일 시스템을 사용하여 대규모 딥 러닝 및 HPC 워크로드에 필요한 수백 GB/s의 처리량과 수백만의 초당 입출력 작업량(IOPS)을 바탕으로 데이터에 액세스할 수 있습니다.
정식 출시
미국 동부(오하이오), 미국 서부(오리건) 및 아시아 태평양(도쿄) AWS 리전과 미국 동부(애틀랜타) 로컬 존 us-east-1-atl-2a에서 사용 가능한 Amazon EC2 P5en 인스턴스는 ML용 EC2 용량 블록, 온디맨드 및 Savings Plan 구매 옵션을 통해 지금 바로 사용할 수 있습니다. 자세한 내용은 Amazon EC2 요금 페이지를 방문하십시오.
Amazon EC2 콘솔에서 Amazon EC2 P5en 인스턴스를 사용해 보십시오. 자세한 내용은 Amazon EC2 P5 인스턴스 페이지를 참조하고, 피드백을 전달하려면 EC2용 AWS re:Post를 이용하거나 평소 교류하는 AWS Support 담당자를 통해 보내주십시오.
– Channy