AWS Inferentia

在 Amazon EC2 中以最低的成本获得深度学习和生成式人工智能推理所需的高性能

通过 AWS Neuron 开始使用 AWS Inferentia 芯片

为什么选择 Inferentia？

AWS Inferentia 芯片由 AWS 设计，旨在以最低的成本在 Amazon EC2 中为您的深度学习（DL）和生成式人工智能推理应用程序提供高性能。

第一代 AWS Inferentia 芯片为 Amazon Elastic Compute Cloud（Amazon EC2）Inf1 实例提供支持，与同类 Amazon EC2 实例相比，该实例的吞吐量可提高多达 2.3 倍，每次推理的成本可降低多达 70%。许多客户，包括 Finch AI、Sprinklr、Money Forward 和 Amazon Alexa，都采用了 Inf1 实例并实现了其性能和成本优势。

与 Inferentia 相比，AWS Inferentia2 芯片的吞吐量提高了 4 倍，延迟低至前者的 1/10。基于 Inferentia2 的 Amazon EC2 Inf2 实例经过优化，可以大规模部署日益复杂的模型，例如大型语言模型（LLM）和潜在扩散模型。Inf2 实例是 Amazon EC2 中的首个推理优化实例，可通过芯片之间的超高速连接支持横向扩展分布式推理。包括 Leonardo.ai、德国电信和 Qualtrics 在内许多客户已在其深度学习和生成式人工智能应用程序中采用了 Inf2 实例。

AWS Neuron SDK 可以帮助开发人员在两个 AWS Inferentia 芯片上部署模型，并且可以在 AWS Trainium 芯片上训练它们。它与 PyTorch 和 TensorFlow 等热门框架原生集成，让您可以继续使用现有的代码和工作流程，并且在 Inferentia 芯片上运行。

AWS Inferentia 的好处

针对高吞吐量和低延迟进行了优化

每个第一代 Inferentia 芯片都搭载了四个第一代 NeuronCore，每个 EC2 Inf1 实例最多有 16 个 Inferentia 芯片。每个 Inferentia2 芯片都搭载了两个第二代 NeuronCore，每个 EC2 Inf2 实例最多有 12 个 Inferentia2 芯片。每个 Inferentia2 芯片支持高达每秒 190 万亿次浮点运算（TFLOPS）的 FP16 性能。第一代 Inferentia 每个芯片都有 8 GB 的 DDR4 内存，并且还具有大容量片上内存。Inferentia2 为每个芯片提供 32 GB 的 HBM，与 Inferentia 相比，总内存增加了 4 倍，内存带宽增加了 10 倍。

对 ML 框架的原生支持

AWS Neuron SDK 与 PyTorch 和 TensorFlow 等流行的 ML 框架原生集成。借助 AWS Neuron，您可以使用这些框架在两个 AWS Inferentia 芯片上以最佳方式部署 DL 模型，并且 Neuron 设计为最大程度地减少代码更改以及与特定于供应商的解决方案的绑定。 Neuron 可帮助您在 Inferentia 芯片上运行推理应用程序，以实现自然语言处理（NLP）/理解、语言翻译、文本摘要、视频和图像生成、语音识别、个性化、欺诈检测等。

具有自动转换功能的广泛数据类型

第一代 Inferentia 支持 FP16、BF16 和 INT8 数据类型。Inferentia2 添加了对 FP32、TF32 和新的可配置 FP8（cFP8）数据类型的额外支持，为开发人员提供了更大的灵活性，可以优化性能和准确性。AWS Neuron 采用高精度 FP32 模型，并自动将它们转换为精度较低的数据类型，同时优化了准确性和性能。Autocasting 通过消除对低精度再培训的需求来缩短上市时间。

最先进的深度学习功能

Inferentia2 为动态输入大小和用 C++ 编写的自定义运算符添加了硬件优化。它还支持随机舍入，这是一种概率舍入方式，与传统舍入模式相比可实现高性能和更高的精度。

专为可持续性打造

与同类的 Amazon EC2 实例相比，Inf2 实例可实现高达 50% 的性能功耗比提升，因为它们和底层 Inferentia2 芯片专为大规模运行 DL 模型而构建。Inf2 实例可帮助您在部署超大型模型时实现可持续发展目标。

视频

探秘 Amazon 的生成式人工智能基础设施

介绍由 AWS Inferentia2 提供支持的 Amazon EC2 Inf2 实例

四位 AWS 客户如何使用 AWS Inferentia 降低 ML 成本并推动创新

资源

使用 AWS Inferentia 和 AWS Trainium 在 Amazon SageMaker JumpStart 中经济高效地微调和部署 Llama 2 模型

使用 QLoRA 对 Llama 2 进行微调，然后使用 AWS Inferentia2 将其部署到 Amazon SageMaker 上

使用 AWS Inferentia2 最大程度地提高稳定扩散性能并降低推理成本

利用 Amazon SageMaker 上的 AWS Inferentia2 和 AWS Trainium，实现低成本、高质量的生成式人工智能推理

字节跳动使用 AWS Inferentia 实现了高达 60% 的推理成本节省，同时减少了延迟并提高了吞吐量

Amazon Search 如何使用 AWS Inferentia 将 ML 推理成本降低 85%

Additional resources

使用 AWS Neuron 并从 TensorFlow、PyTorch 或 MXNet 中开始使用 AWS Inferentia

Additional resources

AWS Neuron 功能路线图

Additional resources

使用这些简单的教程开始在 AWS Inferentia 上进行推理

AWS Inferentia 入门

开始在控制台中构建

推理示例/教程（Inf2/Trn1）