AWS Inferentia

在 Amazon EC2 中以最低成本獲得高效能，用於深度學習和生成式 AI 推論

以 AWS Neuron 開始使用 AWS Inferentia 晶片

為什麼選擇 Inferentia？

AWS Inferentia 晶片由 AWS 設計，可在 Amazon EC2 中以最低成本提供高效能，用於深度學習 (DL) 和生成式 AI 推論應用程式。

第一代 AWS Inferentia 晶片採用 Amazon Elastic Compute Cloud (Amazon EC2) Inf1 執行個體技術，相較於同類 Amazon EC2 執行個體，其輸送量提升高達 2.3 倍，每次推論成本降低高達 70%。許多客戶，包括 Finch AI、Sprinklr、Money Forward 和 Amazon Alexa，都採用 Inf1 執行個體，並實現其效能和成本優勢。

與 Inferentia 相比，AWS Inferentia2 晶片的輸送量提升高達 4 倍，延遲降低高達 10 倍。基於 Inferentia2 的 Amazon EC2 Inf2 執行個體經過最佳化，可大規模部署日益複雜的模型，例如大型語言模型 (LLM) 和潛在擴散模型。Inf2 執行個體是 Amazon EC2 中的首個推論最佳化執行個體，可透過晶片之間的超高速連線，支援橫向擴展分散式推論。包括 Leonardo.ai、Deutsche Telekom 和 Qualtrics 在內的許多客戶已為其 DL 和生成式 AI 應用程式採用 Inf2 執行個體。

AWS Neuron SDK 可協助開發人員在 AWS Inferentia 晶片上部署模型 (並在 AWS Trainium 晶片上對其進行訓練)。其與 PyTorch 和 TensorFlow 等熱門架構原生整合，因此您可以繼續使用現有程式碼和工作流程，並在 Inferentia 晶片上執行。

AWS Inferentia 的優勢

針對高輸送量和低延遲最佳化

每個第一代 Inferentia 晶片都有四個第一代 NeuronCore，而每個 EC2 Inf1 執行個體最多有 16 個 Inferentia 晶片。每個 Inferentia2 晶片都有兩個第二代 NeuronCore，而每個 EC2 Inf2 執行個體最多有 12 個 Inferentia2 晶片。每個 Inferentia2 晶片支援高達每秒 190T 浮點運算 (TFLOPS) 的 FP16 效能。第一代 Inferentia 晶片均配備 8 GB 的 DDR4 記憶體，並且還具有大量片上記憶體。每個 Inferentia2 晶片提供 32 GB 的 HBM，相較於 Inferentia，記憶體總計提升了 4 倍，記憶體頻寬增加了 10 倍。

對 ML 架構的原生支援

AWS Neuron SDK 與 PyTorch 和 TensorFlow 等常用的 ML 架構原生整合。透過 AWS Neuron，您可以使用這些架構在 AWS Inferentia 晶片上最佳化部署 DL 模型，而 Neuron 的設計目的是將程式碼變更和繫結至供應商特定的解決方案降至最低。 Neuron 可協助您在 Inferentia 晶片上執行自然語言處理 (NLP)/理解、語言翻譯、文字摘要、影片和影像產生、語音辨識、個人化、詐欺偵測等推論應用程式。

具有自動轉換功能的廣泛資料類型

第一代 Inferentia 支援 FP16、BF16 和 INT8 資料類型。Inferentia2 新增對 FP32、TF32 和新的可設定 FP8 (cFP8) 資料類型的額外支援，為開發人員提供更大的靈活性來最佳化效能和準確性。AWS Neuron 採用高精度 FP32 模型，並自動將其轉換為精度較低的資料類型，同時最佳化準確性和效能。Autocasting 透過消除對低精度再訓練的需求，來縮短上市時間。

最先進的 DL 功能

Inferentia2 針對動態輸入大小和採用 C++ 編寫的自訂運算子，新增了硬體最佳化。其還支援隨機舍入，這是一種概率舍入方式，相較於傳統舍入模式可實現高效能和更高的精度。

為永續發展而建置

相較於 Amazon EC2 執行個體，Inf2 執行個體提供高達 50% 的效能功耗比提升，因為它們和基礎 Inferentia2 晶片是專為大規模執行 DL 模型而建置的。Inf2 執行個體可協助您在部署超大型模型時，實現永續發展目標。

影片

幕後探究 Amazon 的生成式 AI 基礎設施

採用 AWS Inferentia2 技術的 Amazon EC2 Inf2 執行個體簡介

四位 AWS 客戶如何利用 AWS Inferentia 降低 ML 成本並推動創新

資源

在 Amazon SageMaker JumpStart 中使用 AWS Inferentia 和 AWS Trainium 以具成本效益的方式微調和部署 Llama 2 模型

閱讀部落格

使用 QLoRA 微調 Llama 2，並在配備 AWS Inferentia2 的 Amazon SageMaker 上部署

閱讀部落格

使用 AWS Inferentia2 最大化 Stable Diffusion 效能並降低推論成本

閱讀部落格

使用 Amazon SageMaker 上的 AWS Inferentia2 和 AWS Trainium，以最低成本實現生成式 AI 推論的高效能

閱讀部落格

ByteDance 使用 AWS Inferentia 節省高達 60% 的推論成本，同時降低延遲並增加輸送量

閱讀部落格

Amazon 搜尋如何使用 AWS Inferentia 將機器學習推理成本降低 85%

閱讀部落格

Additional resources

使用 AWS Neuron，並從 TensorFlow、PyTorch 或 MXNet 開始使用 AWS Inferentia

進一步了解

Additional resources

AWS Neuron 功能藍圖

進一步了解

Additional resources

使用這些簡易教學課程開始在 AWS Inferentia 上推論

進一步了解

開始使用 AWS Inferentia

開始在主控台進行建置

推論範例/教學課程 (Inf2/Trn1)

進一步了解