Amazon SageMaker Feature Store

全受管機器學習特徵庫服務

什麼是 Amazon SageMaker Feature Store?

Amazon SageMaker Feature Store 是全受管、專門打造的儲存庫,用於存放、共用及管理機器學習 (ML) 模型特徵。特徵是在訓練和推論期間使用的 ML 模型輸入。例如,在推薦音樂播放清單的應用程式中,特徵可能包括歌曲評分、收聽時長和聽眾人口統計資料。特徵被多個團隊重複使用,特徵品質對於確保高度準確的模型至關重要。此外,當用於批次離線訓練模型的特徵適用於即時推論時,很難保持兩個特徵存放區同步。SageMaker Feature Store 提供安全且統一的存放區,可在 ML 生命週期中大規模處理、標準化和使用特徵。

運作方式

運作方式:Amazon SageMaker Feature Store

SageMaker Feature Store 的優勢

將資料轉換為 ML 特徵,並建置支援 MLOps 實務且加快模型部署的特徵管道
存放、共用和管理用於訓練和推論的 ML 模型特徵庫,以促進跨 ML 應用程式的特徵重複使用
從任何資料來源擷取特徵,包括串流和批次,如應用程式日誌、服務日誌、點擊流、感應器,以及來自 AWS 或第三方資料來源的表格資料

特徵管理

特徵處理和擷取

您可以從各種來源,例如應用程式和服務日誌、點擊流、感應器,以及來自 Amazon S3、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake 的表格式資料,將資料擷取至 Amazon SageMaker Feature Store 中。使用特徵處理,您可以指定批次資料來源和特徵轉換函數 (例如,產品瀏覽次數或時段時間彙總),SageMaker Feature Store 會在擷取時將資料轉換為 ML 特徵。藉助 Amazon SageMaker Data Wrangler,您可以將特徵直接發佈至 Amazon SageMaker Feature Store。使用 Apache Spark 連接器,您只需單行程式碼即可批次擷取大量資料。

螢幕擷取畫面

特徵儲存、編製型錄、搜尋和重複使用

Amazon SageMaker Feature Store 標記和索引特徵群組,以便透過 Amazon SageMaker Studio 的可視介面輕鬆探索。透過瀏覽特徵型錄,團隊可探索其能夠放心重複使用的現有特徵,並避免重複管道。Amazon SageMaker Feature Store 預設使用 AWS Glue Data Catalog,但如有需要,您可以使用不同的型錄。您還可以使用熟悉的 SQL 和 Amazon Athena,或者您選擇的其他查詢工具來查詢特徵。

影像描述特徵群組目錄

特徵一致性

Amazon SageMaker Feature Store 支援用於訓練的離線儲存,以及用於即時推論的線上儲存。訓練和推論是極為不同的使用案例,每種情形的儲存要求都不同。在訓練期間,模型通常使用完整的資料集,可能需要數小時才能完成,而推論則需要在幾毫秒內完成,並且通常會使用資料的子集。當結合使用時,Amazon SageMaker Feature Store 可確保離線和線上資料集保持同步,這一點至關重要,因為如果出現分歧,則會對模型準確性產生負面影響。

影像描述特徵群組的建立

時間移動

資料科學家可能需要使用過去特定時間的精確特徵值集來訓練模型,而不會有包含超過該時間的資料 (亦稱為特徵洩露) 風險,例如診斷前的患者醫療資料。Amazon SageMaker Feature Store Offline API 支援時間點查詢,以擷取每個特徵在相關歷史時間的狀態。 

影像顯示 Feature Store Offline API 查詢的流程,擷取每個特徵在相關歷史時間的狀態

安全性和管控

譜系追蹤

為了有把握地啟用特徵重複使用,資料科學家需要了解特徵是如何建置的,以及哪些模型和端點正在使用它們。SageMaker Feature Store 可讓資料科學家透過 SageMaker Lineage 追蹤他們在 Amazon SageMaker Studio 中的特徵。SageMaker Lineage 可讓您追蹤排定的管道執行、視覺化上游歷程以追溯特徵的資料來源,以及檢視特徵處理程式碼。

影像顯示 SageMaker Studio 中特徵群組的譜系

ML 操作

特徵存放區是 MLOps 生命週期中的關鍵組成部分。他們管理資料集和特徵管道,加速資料科學任務,並消除多次建立相同特徵的重複工作。Amazon SageMaker Feature Store 可在整個 MLOps 生命週期作為獨立服務,或以整合方式與其他 SageMaker 服務配合使用。

安全與合規

為支援安全與合規需求,您可能需要對共用 ML 特徵的存取方式進行精細控制。這些需求通常超出資料表和資料欄級存取控制,而是單獨的資料列級存取控制。例如,您可能希望讓客戶代表僅查看銷售表中其帳戶的資料列,並屏蔽信用卡號等敏感資料前綴。Amazon SageMaker Feature Store 與 AWS Lake Formation 一起可用於實作精細存取控制,以保護特徵存放區資料,並根據角色授予存取權。

影像顯示如何使用 SageMaker 特徵存放區和 AWS Lake Formation 來實作精細存取控制

最新消息

  • 日期 (最新到最舊)
找不到結果
1