Amazon SageMaker HyperPod

利用專門建置的大規模分散式訓練基礎架構,縮短最多 40% 的基礎模型訓練時間

什麼是 SageMaker HyperPod?

AmazonSageMaker HyperPod 消除了建立和優化用於訓練基礎模型 (FM) 的機器學習 (ML) 基礎架構所需的無差別繁重工作,從而縮短高達 40% 的訓練時間。SageMaker HyperPod 預先配置 SageMaker 的分散式訓練庫,使客戶能夠自動分割訓練工作負載至數千個加速器,以實現平行處理,提高模型效能。SageMaker HyperPod 還可以透過定期保存檢查點,確保客戶能夠不間斷持續 FM 訓練。當訓練期間發生硬體故障時,SageMaker HyperPod 會自動偵測故障、修復或取代故障執行個體,並從上次儲存的檢查點繼續訓練,使客戶不需要手動管理此過程,有助於在分散式環境中連續進行數週或數月的訓練而不受中斷。

SageMaker HyperPod 的優勢

Amazon SageMaker HyperPod 已使用 Amazon SageMaker 分散式訓練程式庫進行預先設定,讓您可在 AWS 叢集執行個體中自動分割模型和訓練資料集,有助您有效率地擴展訓練工作負載。
Amazon SageMaker 分散式訓練程式庫會透過兩種技術來最佳化 AWS 網路基礎架構和叢集拓樸的訓練任務:資料平行化和模型平行化。模型平行性會將由於過大而不適合在單個 GPU 上訓練的模型拆分成較小的多個部分,然後將其分佈到多個 GPU 上進行訓練。資料平行性分割大型資料集以並行訓練,從而提升訓練速度。
SageMaker HyperPod 會透過自動偵測、診斷和復原故障,支援更具彈性的訓練環境,讓您可連續數月不中斷地訓練 FM。

優化的分散式訓練

SageMaker HyperPod 預先配置了 SageMaker 分散式庫。只需幾行程式碼,您即可在訓練指令碼中啟用資料平行性。SageMaker HyperPod 透過在 AWS GPU 執行個體之間自動分割模型和訓練資料集,讓您更快執行分散式訓練。

進一步了解 »

工作負載排程和協同運作

SageMaker HyperPod 使用者介面可使用 Slurm 進行高度自訂。您可以選擇並安裝任何需要的框架或工具。所有叢集都會以您選擇的執行個體類型和數量佈建,並在工作負載間保留供您使用。

偵錯並改善模型效能

您可以在 SageMaker HyperPod 中使用專門構建的機器學習工具,以提升訓練效能。配備 TensorBoard 的 Amazon SageMaker 可藉由視覺化模型架構,以識別和修復融合問題,例如驗證損失不融合或梯度消失,來協助您節省開發時間。

進一步了解 »

自動叢集運作狀態檢查和修復

如果任何執行個體在訓練工作負載期間出現故障,SageMaker HyperPod 會自動偵測並以正常節點替換故障節點。為了偵測硬體故障,SageMaker HyperPod 定期執行一系列 GPU 和網路完整性的運作狀態檢查。