Amazon EC2 UltraServer

大規模 AI 訓練與推論

為什麼選擇 Amazon EC2 UltraServer?

Amazon Elastic Compute Cloud (Amazon EC2) UltraServer 非常適合尋求萬億參數規模模型的最高 AI 訓練和推論效能的客戶。UltraServers 使用專用的高頻寬、低延遲加速器互連來連線多個 EC2 執行個體,使您能夠利用跨 EC2 執行個體的緊密耦合加速器網格,以及存取遠多於獨立 EC2 之心個體的運算能力和記憶體。

EC2 UltraServer 非常適合需要比獨立 EC2 執行個體所能提供更多記憶體和記憶體頻寬的最大型模型。UltraServer 設計使用執行個體內加速器連線,將多個執行個體連線至一個節點,從而解鎖全新功能。對於推論而言,UltraServer 可協助提供業界領先的回應時間,進而創造出最佳的即時體驗。對於訓練而言,與獨立執行個體相比,UltraServers 會透過更快的協同通訊來提高模型平行性的模型訓練速度和效率。EC2 UltraServer 支援 EFA 聯網,在 EC2 UltraCluster 中部署時,可在單個 PB 級無封鎖網路上實現跨數萬個加速器的擴展分散式訓練。透過為訓練和推論提供更高效能,UltraServer 可縮短上市時間,並協助您提供由最高效能的下一代基礎模型提供支援的即時應用程式。

優勢

UltraServer 透過將更大規模的一組加速器與高頻寬、低延遲互連進行連線,提供比獨立 EC2 執行個體更多的運算能力和記憶體,從而實現對具有數千億到數萬億個參數的模型的高效訓練和推論。

UltraServer 可針對超大型模型進行即時推論,這些模型需要超過單一 EC2 執行個體所能提供的大量記憶體和記憶體頻寬資源。

與獨立執行個體相比,UltraServer 可提供更快的集體通訊以實現模型平行處理,從而協助您縮短訓練時間。

功能

您可以將執行個體啟動至 UltraServer 至,並在這些執行個體中利用專用的高頻寬和低延遲加速器互連。UltraServer 可以存取更多與此專用互連連線的加速器,相比獨立 EC2 執行個體,可在單一節點中提供更多的運算能力和記憶體。

在 EC2 UltraCluster 中部署的 EC2 UltraServer 與 PB 規模 EFA 網路互連,以提高分散式訓練工作負載的效能。

您可以將 EC2 UltraServer 與高效能儲存解決方案搭配使用,例如 Amazon FSx for Lustre,這是在最受歡迎的高效能平行檔案系統上建置的全受管共用儲存空間。您也可以透過 Amazon Simple Storage Service (Amazon S3) 使用幾乎無限制且具成本效益的儲存空間。

EC2 UltraServer 建置在 AWS Nitro System 之上,該系統是建置區塊的豐富集合,可將許多傳統虛擬化功能卸載至專用的硬體和軟體。Nitro 提供高效能、高可用性和高安全性,同時還能減少虛擬化負荷。

支援的執行個體

Trn2 執行個體

AWS Trainium2 晶片的支援下,Trn2 UltraServer 組態中的 Trn2 執行個體 (提供預覽版) 可讓您擴展到最多 64 個 Trainium2 晶片,這些晶片透過 NeuronLink (用於 AWS AI 晶片的專用高頻寬、低延遲互連) 連線。在 Amazon EC2 中,Trn2 UltraServer 為生成式 AI 訓練和推論提供突破性的效能。

進一步了解