為什麼選擇 Amazon EC2 P5 執行個體?
採用 NVIDIA H100 Tensor Core GPU 的 Amazon Elastic Compute Cloud (Amazon EC2) P5 執行個體,以及採用 NVIDIA H200 Tensor Core GPU 的 P5e 和 P5en 執行個體,可在 Amazon EC2 中提供最高效能,供深度學習 (DL) 和高效能運算 (HPC) 應用程式使用。與上一代的 GPU 型 EC2 執行個體相比,此執行個體可讓您以快 4 倍的時間找出解決方案,且訓練 ML 模型的成本可降低達 40%。這些執行個體可協助您以更快的步調反覆運作解決方案,並加速上市時程。您可以使用 P5、P5e 和 P5en 執行個體來訓練及部署日趨複雜的大型語言模型 (LLM) 和擴散模型,為需求最嚴苛的生成式人工智慧 (AI) 應用提供支援。這些應用包括問題回答、程式碼產生、影片和影像產生和語音識別。您也可以使用這些執行個體大規模部署需求嚴苛的 HPC 應用程式,包括製藥探索、地震分析、天氣預報和財務模型等領域。
為了提供這些效能改進並節省成本,P5 和 P5e 執行個體搭載 NVIDIA H100 和 H200 Tensor Core GPU,相較於上一代的 GPU 型執行個體,CPU 效能和系統記憶體都高出 2 倍,本機儲存空間則多出 4 倍。P5en 執行個體將 NVIDIA H200 Tensor Core GPU 與高效能 Intel Sapphire Rapids CPU 搭配使用,並在 CPU 和 GPU 之間啟用 Gen5 PCIe。與 P5e 和 P5 執行個體相比,P5en 執行個體的 CPU 和 GPU 之間的頻寬最高提升 2 倍,網路延遲也更低,進而改善分散式訓練效能。P5 和 P5e 執行個體透過第二代 Elastic Fabric Adapter (EFA) 提供高達 3,200 Gbps 的網路速度。使用 Nitro v5 和第三代 EFA 的 P5en 執行個體,與使用前一代 EFA 和 Nitro 的 P5 執行個體相比,延遲最多降低 35%。這有助於提升分散式訓練工作負載的集體通訊效能,例如深度學習、生成式 AI、即時資料處理和高效能運算 (HPC) 應用程式。為了以低延遲提供大規模運算,這些執行個體部署在 Amazon EC2 UltraClusters 中,可擴展至 20,000 個 H100 或 H200 GPU,並以 PB 級無阻塞網路互連。EC2 UltraClusters 中的 P5、P5e 和 P5en 執行個體可以提供多達 20 個 exaflop 的彙總運算能力,效能相當於超級電腦。
Amazon EC2 P5 執行個體
優勢
功能
客戶見證
以下是客戶和合作夥伴如何透過 Amazon EC2 P4 執行個體實現業務目標的範例。
-
Anthropic
Anthropic 建置了可靠、可解釋和可操縱的 AI 系統,這將提供很多為商業和公共利益創造價值的機會。
-
Cohere
Cohere 是語言 AI 的領導先驅,使每個開發人員和企業都能使用領先全球的自然語言處理 (NLP) 技術打造絕佳產品,同時保持其資料隱私和安全性
-
Hugging Face
Hugging Face 正著手將良好的 ML 大眾化。
產品詳細資訊
執行個體大小 | vCPU | 執行個體記憶體 (TiB) | GPU | GPU 記憶體 | 網路頻寬 (Gbps) | GPUDirect RDMA | GPU 端對端 | 執行個體儲存體 (TB) | EBS 頻寬 (Gbps) |
---|---|---|---|---|---|---|---|---|---|
p5.48xlarge | 192 | 2 | 8 H100 | 640 GB HBM3 |
3200 Gbps EFA | 是 | 900 GB/s NVSwitch | 8 x 3.84 NVMe SSD | 80 |
p5e.48xlarge | 192 | 2 | 8 H200 | 1128 GB HBM3e |
3200 Gbps EFA | 是 | 900 GB/s NVSwitch | 8 x 3.84 NVMe SSD | 80 |
p5en.48xlarge | 192 | 2 | 8 H200 | 1128 GB HBM3e | 3200 Gbps EFA | 是 | 900 GB/s NVSwitch | 8 x 3.84 NVMe SSD | 100 |
ML 使用案例入門
HPC 使用案例入門
P5、P5e 和 P5en 執行個體是執行工程模擬、運算金融、地震分析、分子建模、基因體、轉譯和其他 GPU 型 HPC 工作負載的理想平台。HPC 應用程式通常需要高速網路效能、快速儲存、大量記憶體、超強運算能力,也可能需要以上所有特點。這三種執行個體全都支援 EFA,可讓 HPC 應用程式利用訊息傳遞介面 (MPI) 擴展至數千個 GPU。AWS Batch 和 AWS ParallelCluster 可協助 HPC 開發人員能迅速建置並擴展分散式 HPC 應用程式。
進一步了解