Amazon Lab126 建立 HPC 解決方案來協助團隊加速開發和創新
2020
當今有些最受歡迎的消費性技術裝置誕生於 Amazon Lab126。設在加州的研究和開發組織打造了這類高規格裝置,例如 Amazon Kindle 電子書閱讀器和 Amazon Echo 智慧喇叭。
Amazon Lab126 裝置團隊使用高效能運算 (HPC) 功能和機器學習功能來擴展設計環境,以加速產品開發、獲得效率及加快上市時間。不過,其老舊、昂貴的內部部署 HPC 環境可能無法交付團隊所需的可擴展性和易用性。「我們執行長時間執行的大型模擬,例如查看消費性裝置在特定條件下的機械反應和熱反應」Amazon Lab126 的架構團隊資深經理 Shankar Ganapathysubramanian 如此表示。「我們需要更多運算容量才能支援這些工作負載。」 Amazon Lab126 的無線工程資深經理補充說明「我們過去一直建構及建置更多客戶面向的解決方案,而內部部署 HPC 環境並未提供我們所需的可擴展性和易用性。」
Amazon 設計和工程團隊在各種應用方面執行模擬和建模。例如計算流體力學、有限元素分析、電子設計自動化和計算電磁學。自助式功能是支援各種團隊的重要需求。Amazon Lab126 的資深系統/軟體開發工程師 Mickael Crozes 表示「不同的團隊有不同的運算容量需求,而我們缺少滿足所有需求的靈活性。我們想要集中處理 HPC 資源,讓每個團隊都能依照需求存取自己的環境。我們無法在每個團隊有需要時為其啟動新的 HPC 叢集。
「藉助 HPC on AWS,我們現在可以支援更多裝置,探索全新技術,以及更好地了解裝置在現場的表現。」
Amit Gaikwad
Amazon Lab126 無線工程資深經理
在 AWS 上建置可擴展的 HPC 架構
為了解決其內部客戶需求,Amazon Lab126 團隊選擇在 2017 年底於 Amazon Web Services (AWS) 上建立新的雲端 HPC 環境。「我們評估了第三方 HPC 服務,但 AWS 最終是從運算執行個體類型的可擴展性和靈活性方面來提供最佳技術」Crozes 如此表示。「我們也很信賴 AWS 擁有我們的運算及主控我們的資料」。
在 2018 年,Amazon Lab126 在 AWS 上建置了富有彈性的 HPC 參考架構,這個架構取代了其內部部署 HPC 解決方案,並且讓 AWS 型的多使用者研發環境能夠擴展 HPC 和機器學習等工作負載。新的架構透過快速的網路骨幹、不受限的儲存體及預算和成本管理,整合並簡化了大量運算的 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體。其依賴 Amazon Elastic Block Store (Amazon EBS) 和 Amazon Elastic File System (Amazon EFS) 進行資料儲存。Amazon Lab126 還會使用 Amazon FSx for Lustre 來處理 I/O 最密集的工作負載,以及使用 AWS Backup 讓叢集更具錯誤恢復能力。Crozes 表示「AWS Backup 是將生產環境防護自動化的完美解決方案。我們需要經過多次反覆運算才能建立這類解決方案,以保護所有團隊的資料、管理保留/生命週期,而且容易使用。」
執行 HPC 任務的速度快三倍
Lab126 產品設計師和工程師都在新的 HPC 叢集上看到效能提升。例如,無線裝置連線團隊改善了結構性裝置掉落模擬的週期時間,此種模擬研究行動電話撞擊地面或其他表面時的行為方式。「我們發現在 AWS 上使用擴展運算 HPC 架構,整個設計週期的速度加快三倍」Ganapathysubramanian 如此表示。「我們現在可以執行更多模擬,因為平行處理工作負載變得更容易。使用內部部署 HPC 解決方案,通常需要兩週的時間來產生資料。我們現在可以在數小時內完成。」
在 AWS 上使用新架構,Amazon 裝置設計師和工程師可以根據需求擴展,以符合特定工作負載的需求。「我們有非常大量的執行時間需要大量運算,以分析無線連線資料」Gaikwad 如此表示。「使用此解決方案,我們全球的工程師都可以將解決方案的速度調升到比之前快三倍。而且他們也可輕易調降,如果一項任務不需要 100 個 GPU,他們就不必使用這些 GPU。」
簡化上線程序
不需 IT 資源的協助,Amazon Lab126 設計技術團隊也可以在 HPC 叢集上線支援新的 Amazon 裝置工程團隊—在一天內達成,而不像以往需要數週的時間。「我們現在有集中式的彈性 HPC 環境,不論使用者的工作負載需求為何,均可針對所有使用者無縫運作」Crozes 如此表示。「這已大幅降低上線程序的複雜度。這裡有很多人都不是 HPC 專家,所以此種易用性有助於他們專注於其特定設計專業知識。」
Amazon 裝置團隊現在可以在 AWS 上執行完全電腦輔助的工程工作流程 (模型設計/網格處理、模擬和後處理視覺化)。這是可能的,因為目前在家工作的工程師和設計師有自己的專屬超級電腦,以及只要點點滑鼠就能使用強大的雲端式工作站。
推動產品創新
因為 AWS 型 HPC 環境的可擴展性和簡易性,所以 Amazon 裝置團隊會花費較少時間進行硬體管理,而花較多時間進行創新。「藉助 HPC on AWS,我們現在可以支援更多裝置,探索全新技術,以及更好地了解裝置在現場的表現。」Gaikwad 如此表示。例如,Amazon 裝置無線連線團隊最近因為其研究在最低射頻干擾的情況下將無線系統最佳化,而榮獲了 DesignCon Best Paper Award。
Ganapathysubramanian 表示「需要先執行大量工作,我們才能進行模擬,例如從幾何計算建立模型。在 AWS 上使用擴展運算架構的自動化,我們降低了此手動工作的複雜度,讓工程師能專注於加值型工作。AWS 上的 HPC 正協助我們想像新商機。例如,在某些較新的 Amazon Echo 產品中,我們已能夠整合熱設計結構、更輕鬆連接 AWS 上儲存的不同資料,以將多個產品功能的設計最佳化。」
Amazon Lab126 現在正進入其 HPC 解決方案的下一個階段,並由 AWS 上擴展運算架構提供技術支援。「我們將繼續滿足客戶的需求」Amazon Lab126 的設計技術資深經理 Jake Boswell 如此表示。「我們期待讓參考架構變得更加簡單,並將架構延伸至其他區域來支援創新。」
若要進一步了解,請造訪 aws.amazon.com/solutions/implementations/scale-out-computing-on-aws 和 aws.amazon.com/hpc。
關於 Amazon Lab126
設於加州森尼韋爾的 Amazon Lab126 是 Amazon 研究和開發團隊,負責為 Amazon 設計及策劃消費性電子裝置。該實驗室 (包含 Amazon 裝置硬體、軟體和營運團隊) 已開發高規格的產品,例如 Amazon Echo 和 Amazon Kindle。
AWS 的優勢
- 執行 HPC 任務和擴展工作負載的速度快三倍
- 讓新使用者在一天內上線,而不需數週的時間
- 可根據每個團隊的需求啟動新 HPC 叢集
- 帶動產品設計創新
使用的 AWS 服務
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) 是一種 Web 服務,可在雲端提供安全、可調整大小的運算容量。該服務旨在降低開發人員進行 Web 規模雲端運算的難度。
Amazon Elastic File System
Amazon Elastic File System (Amazon EFS) 提供簡單、可擴展、全受管的彈性 NFS 檔案儲存,可與 AWS 雲端服務和內部部署資源搭配使用。
Amazon Elastic Block Store
Amazon Elastic Block Store (EBS) 是易於使用的高效能區塊儲存服務,專為與 Amazon Elastic Compute Cloud (EC2) 搭配使用而設計,能以任何規模同時用於輸送量和交易密集型工作負載。
AWS Backup
AWS Backup 是全受管備份服務,可輕鬆集中管理與自動化 AWS 服務資料的備份作業。
開始使用
各行各業各種規模的公司每天都在使用 AWS 來變革其業務。聯絡我們的專家,立即開始使用 AWS 雲端服務。