Amazon EC2 P5 实例

适用于深度学习和 HPC 应用程序的基于 GPU 的最高性能实例

为什么选择 Amazon EC2 P5 实例?

Amazon Elastic Compute Cloud(Amazon EC2)P5 实例由 NVIDIA H100 Tensor Core GPU 提供技术支持,P5e 和 P5en 实例由 NVIDIA H200 Tensor Core GPU 提供技术支持,可在 Amazon EC2 中为深度学习(DL)和高性能计算(HPC)应用程序提供最高性能。与上一代基于 GPU 的 EC2 实例相比,这些实例可帮助您将问题解决时间缩短多达 4 倍,并将训练机器学习模型的成本降低高达 40%。这些实例可帮助您更快地迭代解决方案,加快上市速度。您可以使用 P5、P5e 和 P5en 实例来训练和部署日益复杂的大型语言模型(LLM)和扩散模型,为要求最苛刻的生成式人工智能(AI)应用程序提供支持。这些应用程序包括问题解答、代码生成、视频和图像生成、语音识别。您还可以使用这些实例在药物发现、地震分析、天气预报和财务建模领域大规模部署要求苛刻的 HPC 应用程序。

为了实现这些性能改进和成本节约,与上一代基于 GPU 的实例相比,P5 和 P5e 实例搭配 NVIDIA H100 和 H200 Tensor Core GPU,CPU 性能提高了 2 倍,系统内存提高了 2 倍,本地存储空间增加了 4 倍。P5en 实例将 NVIDIA H200 Tensor Core GPU 与高性能 Intel Sapphire Rapids CPU 配对,在 CPU 和 GPU 之间启用 Gen5 PCIe。与 P5e 和 P5 实例相比,P5en 实例提供的 CPU 和 GPU 之间的带宽高达 2 倍,网络延迟更低,从而提高了分布式训练性能。P5 和 P5e 实例支持使用第二代 Elastic Fabric Adapter(EFA)提供高达 3,200 Gbps 的网络连接。与使用上一代 EFA 和 Nitro 的 P5 相比,P5en 采用 Nitro v5 和第三代 EFA,在延迟方面改善了 35%。这有助于提高分布式训练工作负载的集体通信性能,如深度学习、生成式人工智能、实时数据处理和高性能计算 (HPC) 应用程序。为了以低延迟提供大规模计算,Amazon EC2 UltraClusters 中部署了这些实例,可以纵向扩展到 20,000 个与 PB 级非阻塞网络互连的 H100 或 H200 GPU。EC2 UltraClusters 中的 P5、P5e 和 P5en 实例可提供高达每秒 20 百万兆级的聚合计算能力,性能相当于一台超级计算机。

Amazon EC2 P5 实例

优势

P5、P5e 和 P5en 实例可以大规模训练超大型生成式人工智能模型,并提供比上一代基于 GPU 的 EC2 实例高出 4 倍的性能。

P5、P5e 和 P5en 实例将训练时间和制定解决方案的时间从几周缩短到短短几天。这可以帮助您以更快的速度进行迭代,加快上市速度。

与上一代基于 GPU 的 EC2 实例相比,P5、P5e 和 P5en 实例在 DL 训练和 HPC 基础设施成本上最高可节省 40%。

P5、P5e 和 P5en 实例提供高达 3200 Gbps 的 EFA 网络连接。这些实例部署在 EC2 UltraClusters 中,提供每秒 20 百万兆级的聚合计算能力。

功能

P5 实例提供多达 8 个 NVIDIA H100 GPU,每个实例总共提供高达 640GB 的 HBM3 GPU 内存。P5e 和 P5en 实例提供多达 8 个 NVIDIA H200 GPU,每个实例总共提供高达 1128 GB 的 HBM3e GPU 内存。两种实例均支持高达 900 GB/s 的 NVSwitch GPU 互连(每个实例中总共为 3.6TB/s 的二分段带宽),因此每个 GPU 可以在单跳延迟的情况下与同一个实例中的每个 GPU 通信。

NVIDIA H100 和 H200 GPU 采用了新的转换器引擎,可以智能方式管理并以动态方式选择 FP8 和 16 位计算。与上一代 A100 GPU 相比,此功能有助于在 LLM 上提供更快的 DL 训练加速。对于 HPC 工作负载,与 A100 GPU 相比,NVIDIA H100 和 H200 GPU 具有新的 DPX 指令,可以进一步加速动态编程算法。

P5、P5e 和 P5en 实例可提供高达 3200 Gbps 的 EFA 网络连接。EFA 还结合了 NVIDIA GPUDirect RDMA,可在服务器与操作系统旁路之间实现低延迟 GPU 至 GPU 通信。

P5、P5e 和 P5en 实例支持适用于 Lustre 的 Amazon FSx 文件系统,因此您能够以大规模 DL 和 HPC 工作负载所需的数百 GB/s 吞吐量和数百万 IOPS 访问数据。每个实例还支持高达 30TB 的本地 NVMe SSD 存储,从而对大型数据集进行快速访问。您还可以通过 Amazon Simple Storage Service(Amazon S3)使用几乎无限且经济实惠的存储。

客户评价

以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。

  • Anthropic

    Anthropic 构建了可靠、可解释和可操纵的 AI 系统,这些系统将有许多机会创造商业价值并让公众受益。

    在 Anthropic,我们正在努力构建可靠、可解释和可操纵的 AI 系统。虽然当今的大型通用人工智能系统可以带来巨大的好处,但它们也是不可预测的、不可靠的和不透明的。我们的目标是解决这些问题,并部署人们认为有用的系统。我们组织是世界上为数不多的在 DL 研究领域建立基础模型的组织之一。这些模型非常复杂,为了开发和训练这些先进模型,我们需要将它们高效地分布在大型 GPU 集群中。目前,我们正在广泛使用 Amazon EC2 P4 实例,我们对 P5 实例的推出感到振奋。我们期望,与 P4d 实例相比,它们能够提供可观的性价比优势,并且能达到构建下一代 LLM 和相关产品所需的大规模的需要。

    Tom Brown,Anthropic 联合创始人
  • Cohere

    Cohere 是语言人工智能领域的领先先驱,它使每位开发人员和每个企业都能使用世界领先的自然语言处理(NLP)技术构建令人惊叹的产品,同时保持数据的私密性和安全性

    Cohere 在帮助所有企业利用语言人工智能的力量以自然和直观的方式探索、生成、搜索和处理信息方面处于领先地位,并在最适合每个客户的数据环境中跨多个云平台引领部署。搭载 NVIDIA H100 的 Amazon EC2 P5 实例将利用其计算能力与 Cohere 最先进的 LLM 和生成式人工智能能力相结合,挖掘企业更快地创建、发展和扩展的能力。

    Aidan Gomez,Cohere 首席执行官
  • Hugging Face

    Hugging Face 的使命是让出色的 ML 大众化。

    作为 ML 领域发展最快的开源社区,我们现在在我们的平台上为 NLP、计算机视觉、生物学、强化学习等提供了超过 150000 个预训练模型和 25000 个数据集。借助 LLM 和生成式人工智能的重大进步,我们正在与 AWS 合作,为构建面向未来的开源模型做出贡献。我们期待通过 Amazon SageMaker 在带有 EFA 的 UltraClusters 中大规模使用 Amazon EC2 P5 实例,以加快交付适合所有人的新基础人工智能模型。

    Julien Chaumond,Hugging Face 首席技术官兼联合创始人

产品详细信息

实例大小 vCPU 实例内存(TiB) GPU   GPU 内存 网络带宽(Gbps) GPUDirect RDMA GPU 对等 实例存储(TB) EBS 带宽(Gbps)
p5.48xlarge 192 2 8 H100 640 GB
HBM3
3200 Gbps EFA 900 GB/s NVSwitch 8 个 3.84 NVMe SSD 80
p5e.48xlarge 192 2 8 H200 1128GB
HBM3e
3200 Gbps EFA 900 GB/s NVSwitch 8 个 3.84 NVMe SSD 80
p5en.48xlarge 192 2 8 H200 1128 GB HBM3e 3200 Gbps EFA 900 GB/s NVSwitch 8 个 3.84 NVMe SSD 100

机器学习应用场景入门

SageMaker 是一项完全托管的服务,用于构建、训练和部署 ML 模型。借助 SageMaker HyperPod,您就可以更轻松地扩展至数十、数百或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置和管理弹性训练集群的问题。

DLAMI 可以为机器学习从业人员和研究人员提供基础设施和各种工具,从而加快在云中进行任意规模的深度学习的速度。 Deep Learning Containers 是预先安装了深度学习框架的 Docker 映像,可以让您跳过从头构建和优化环境的复杂流程,从而简化自定义 ML 环境的部署。

如果您更愿意通过容器编排服务管理自己的容器化工作负载,则可以使用 Amazon EKSAmazon ECS 部署 P5、P5e 和 P5en 实例。

HPC 应用场景入门

P5、P5e 和 P5en 实例是一个非常适合运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载的平台。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。所有三种实例类型都支持 EFA,使使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速地构建和扩展分布式 HPC 应用程序。

了解更多