Amazon EC2 P5 实例

适用于深度学习和 HPC 应用程序的基于 GPU 的最高性能实例

为什么选择 Amazon EC2 P5 实例?

Amazon Elastic Compute Cloud(Amazon EC2)P5 实例由 NVIDIA H100 Tensor Core GPU 提供支持,P5e 实例由 NVIDIA H200 Tensor Core GPU 提供支持,在 Amazon EC2 中为深度学习(DL)和高性能计算(HPC)应用程序提供最高性能。与上一代基于 GPU 的 EC2 实例相比,这些实例可帮助您将问题解决时间缩短多达 4 倍,并将训练机器学习模型的成本降低高达 40%。这些实例可帮助您更快地迭代解决方案,加快上市速度。您可以使用 P5 和 P5e 实例来训练和部署日益复杂的大型语言模型(LLM)和扩散模型,为要求最苛刻的生成式人工智能(AI)应用程序提供支持。这些应用程序包括问题解答、代码生成、视频和图像生成、语音识别。您还可以使用这些实例在药物发现、地震分析、天气预报和财务建模领域大规模部署要求苛刻的 HPC 应用程序。

为了实现这些性能改进和成本节约,与上一代基于 GPU 的实例相比,P5 和 P5e 实例搭配 NVIDIA H100 和 H200 Tensor Core GPU,CPU 性能提高了 2 倍,系统内存提高了 2 倍,本地存储空间增加了 4 倍。这些实例为分布式训练和紧密耦合的 HPC 工作负载提供市场领先的横向扩展功能,使用第二代 Elastic Fabric Adapter(EFAv2)技术实现了高达 3200 Gbps 的网络连接。为了以低延迟提供大规模计算,Amazon EC2 UltraClusters 中部署了 P5 和 P5e 实例,可以纵向扩展到 20000 个 H100 或 H200 GPU。这些实例通过 PB 级的非阻塞网络互连。EC2 UltraClusters 中的 P5 和 P5e 实例可提供高达每秒 20 百万兆级的聚合计算能力,性能相当于一台超级计算机。

Amazon EC2 P5 实例

优势

P5 和 P5e 实例可以大规模训练超大型生成式人工智能模型,并提供比上一代基于 GPU 的 EC2 实例高出 4 倍的性能。

P5 和 P5e 实例将训练时间和制定解决方案的时间从几周缩短到短短几天。这可以帮助您以更快的速度进行迭代,加快上市速度。

与上一代基于 GPU 的 EC2 实例相比,P5 和 P5e 实例在 DL 训练和 HPC 基础设施成本上最高节省了 40%。

P5 和 P5e 实例提供高达 3200 Gbps 的 EFAv2 网络连接。这些实例部署在 EC2 UltraClusters 中,提供每秒 20 百万兆级的聚合计算能力。

功能

P5 实例提供多达 8 个 NVIDIA H100 GPU,每个实例总共提供高达 640GB 的 HBM3 GPU 内存。P5e 实例提供多达 8 个 NVIDIA H200 GPU,每个实例总共提供高达 1128GB 的 HBM3e GPU 内存。两种实例均支持高达 900 GB/s 的 NVSwitch GPU 互连(每个实例中总共为 3.6TB/s 的二分段带宽),因此每个 GPU 可以在单跳延迟的情况下与同一个实例中的每个 GPU 通信。

NVIDIA H100 和 H200 GPU 采用了新的转换器引擎,可以智能方式管理并以动态方式选择 FP8 和 16 位计算。与上一代 A100 GPU 相比,此功能有助于在 LLM 上提供更快的 DL 训练加速。对于 HPC 工作负载,与 A100 GPU 相比,NVIDIA H100 和 H200 GPU 具有新的 DPX 指令,可以进一步加速动态编程算法。

P5 和 P5e 实例可提供高达 3200 Gbps 的 EFAv2 网络连接。EFAv2 可将分布式训练工作负载的集体通信性能提高多达 50%。EFAv2 还结合 NVIDIA GPUDirect RDMA 以在服务器与操作系统旁路之间实现低延迟 GPU 至 GPU 通信。

P5 和 P5e 实例支持适用于 Lustre 的 Amazon FSx 文件系统,因此您可以以大规模 DL 和 HPC 工作负载所需的数百 GB/s 吞吐量和数百万 IOPS 访问数据。每个 P5 和 P5e 实例还支持高达 30 TB 的本地 NVMe SSD 存储,以对大型数据集进行快速访问。您还可以通过 Amazon Simple Storage Service(Amazon S3)使用几乎无限且经济实惠的存储。

客户评价

以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。

  • Anthropic

    Anthropic 构建了可靠、可解释和可操纵的 AI 系统,这些系统将有许多机会创造商业价值并让公众受益。

    在 Anthropic,我们正在努力构建可靠、可解释和可操纵的 AI 系统。虽然当今的大型通用人工智能系统可以带来巨大的好处,但它们也是不可预测的、不可靠的和不透明的。我们的目标是解决这些问题,并部署人们认为有用的系统。我们组织是世界上为数不多的在 DL 研究领域建立基础模型的组织之一。这些模型非常复杂,为了开发和训练这些先进模型,我们需要将它们高效地分布在大型 GPU 集群中。目前,我们正在广泛使用 Amazon EC2 P4 实例,我们对 P5 实例的推出感到振奋。我们期望,与 P4d 实例相比,它们能够提供可观的性价比优势,并且能达到构建下一代 LLM 和相关产品所需的大规模的需要。

    Tom Brown,Anthropic 联合创始人
  • Cohere

    Cohere 是语言人工智能领域的领先先驱,它使每位开发人员和每个企业都能使用世界领先的自然语言处理(NLP)技术构建令人惊叹的产品,同时保持数据的私密性和安全性

    Cohere 在帮助所有企业利用语言人工智能的力量以自然和直观的方式探索、生成、搜索和处理信息方面处于领先地位,并在最适合每个客户的数据环境中跨多个云平台引领部署。搭载 NVIDIA H100 的 Amazon EC2 P5 实例将利用其计算能力与 Cohere 最先进的 LLM 和生成式人工智能能力相结合,挖掘企业更快地创建、发展和扩展的能力。

    Aidan Gomez,Cohere 首席执行官
  • Hugging Face

    Hugging Face 的使命是让出色的 ML 大众化。

    作为 ML 领域发展最快的开源社区,我们现在在我们的平台上为 NLP、计算机视觉、生物学、强化学习等提供了超过 150000 个预训练模型和 25000 个数据集。借助 LLM 和生成式人工智能的重大进步,我们正在与 AWS 合作,为构建面向未来的开源模型做出贡献。我们期待通过 Amazon SageMaker 在带有 EFA 的 UltraClusters 中大规模使用 Amazon EC2 P5 实例,以加快交付适合所有人的新基础人工智能模型。

    Julien Chaumond,Hugging Face 首席技术官兼联合创始人

产品详细信息

实例大小 vCPU 实例内存(TiB) GPU   GPU 内存 网络带宽(Gbps) GPUDirect RDMA GPU 对等 实例存储(TB) EBS 带宽(Gbps)
p5.48xlarge 192 2 8 H100 640 GB
HBM3
3200 Gbps EFA 900 GB/s NVSwitch 8 个 3.84 NVMe SSD 80
p5e.48xlarge 192 2 8 H200 1128GB
HBM3e
3200 Gbps EFA 900 GB/s NVSwitch 8 个 3.84 NVMe SSD 80

机器学习应用场景入门

SageMaker 是一项完全托管的服务,用于构建、训练和部署 ML 模型。将其与 P5 实例配合使用,您可以轻松扩展至数十、数百或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置集群和数据管道的问题。

DLAMI 可以为机器学习从业人员和研究人员提供基础设施和各种工具,从而加快在云中进行任意规模的深度学习的速度。 Deep Learning Containers 是预先安装了深度学习框架的 Docker 映像,可以让您跳过从头构建和优化环境的复杂流程,从而简化自定义 ML 环境的部署。

如果您更愿意通过容器编排服务管理自己的容器化工作负载,则可以使用 Amazon EKSAmazon ECS 部署 P5 实例。

HPC 应用场景入门

P5 实例是一个非常适合运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载的平台。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。P5 实例支持 EFAv2,令使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速地构建和扩展分布式 HPC 应用程序。

了解详情