什麼是 Amazon SageMaker Feature Store?
運作方式
SageMaker Feature Store 的優勢
特徵管理
特徵處理和擷取
您可以從各種來源,例如應用程式和服務日誌、點擊流、感應器,以及來自 Amazon S3、Amazon Redshift、AWS Lake Formation、Snowflake 和 Databricks Delta Lake 的表格式資料,將資料擷取至 Amazon SageMaker Feature Store 中。使用特徵處理,您可以指定批次資料來源和特徵轉換函數 (例如,產品瀏覽次數或時段時間彙總),SageMaker Feature Store 會在擷取時將資料轉換為 ML 特徵。藉助 Amazon SageMaker Data Wrangler,您可以將特徵直接發佈至 Amazon SageMaker Feature Store。使用 Apache Spark 連接器,您只需單行程式碼即可批次擷取大量資料。
特徵儲存、編製型錄、搜尋和重複使用
Amazon SageMaker Feature Store 標記和索引特徵群組,以便透過 Amazon SageMaker Studio 的可視介面輕鬆探索。透過瀏覽特徵型錄,團隊可探索其能夠放心重複使用的現有特徵,並避免重複管道。Amazon SageMaker Feature Store 預設使用 AWS Glue Data Catalog,但如有需要,您可以使用不同的型錄。您還可以使用熟悉的 SQL 和 Amazon Athena,或者您選擇的其他查詢工具來查詢特徵。
特徵一致性
Amazon SageMaker Feature Store 支援用於訓練的離線儲存,以及用於即時推論的線上儲存。訓練和推論是極為不同的使用案例,每種情形的儲存要求都不同。在訓練期間,模型通常使用完整的資料集,可能需要數小時才能完成,而推論則需要在幾毫秒內完成,並且通常會使用資料的子集。當結合使用時,Amazon SageMaker Feature Store 可確保離線和線上資料集保持同步,這一點至關重要,因為如果出現分歧,則會對模型準確性產生負面影響。
時間移動
資料科學家可能需要使用過去特定時間的精確特徵值集來訓練模型,而不會有包含超過該時間的資料 (亦稱為特徵洩露) 風險,例如診斷前的患者醫療資料。Amazon SageMaker Feature Store Offline API 支援時間點查詢,以擷取每個特徵在相關歷史時間的狀態。
安全性和管控
譜系追蹤
為了有把握地啟用特徵重複使用,資料科學家需要了解特徵是如何建置的,以及哪些模型和端點正在使用它們。SageMaker Feature Store 可讓資料科學家透過 SageMaker Lineage 追蹤他們在 Amazon SageMaker Studio 中的特徵。SageMaker Lineage 可讓您追蹤排定的管道執行、視覺化上游歷程以追溯特徵的資料來源,以及檢視特徵處理程式碼。
ML 操作
特徵存放區是 MLOps 生命週期中的關鍵組成部分。他們管理資料集和特徵管道,加速資料科學任務,並消除多次建立相同特徵的重複工作。Amazon SageMaker Feature Store 可在整個 MLOps 生命週期作為獨立服務,或以整合方式與其他 SageMaker 服務配合使用。
安全與合規
為支援安全與合規需求,您可能需要對共用 ML 特徵的存取方式進行精細控制。這些需求通常超出資料表和資料欄級存取控制,而是單獨的資料列級存取控制。例如,您可能希望讓客戶代表僅查看銷售表中其帳戶的資料列,並屏蔽信用卡號等敏感資料前綴。Amazon SageMaker Feature Store 與 AWS Lake Formation 一起可用於實作精細存取控制,以保護特徵存放區資料,並根據角色授予存取權。