在主控台中使用 Amazon SageMaker Feature Store
重要
允許 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 建立 Amazon SageMaker 資源的自訂 IAM 政策也必須授與許可,才能將標籤新增至這些資源。需要將標籤新增至資源的許可,因為 Studio 和 Studio Classic 會自動標記它們建立的任何資源。如果 IAM 政策允許 Studio 和 Studio Classic 建立資源,但不允許標記,則在嘗試建立資源時可能會發生 "AccessDenied" 錯誤。如需更多詳細資訊,請參閱 提供標記 SageMaker AI 資源的許可。
提供許可來建立 SageMaker 資源的 Amazon SageMaker AI 的 AWS 受管政策 已包含建立這些資源時新增標籤的許可。
您可以在主控台上使用 Amazon SageMaker Feature Store 來建立、檢視、更新和監控您的特徵群組。本指南中的監控包括檢視管道執行和特徵群組的歷程。本指南提供如何從主控台完成這些任務的指示。
如需使用 Amazon SageMaker API 和 適用於 Python (Boto3) 的 AWS SDK 的 Feature Store 範例和資源,請參閱 Amazon SageMaker Feature Store 資源。
從主控台建立特徵群組
建立功能群組過程有四個步驟:
-
輸入功能群組資訊。
-
輸入功能定義。
-
輸入所需的功能。
-
輸入功能群組標籤。
考慮下列哪個選項適合您的使用案例:
-
建立線上儲存、離線儲存或兩者。如需線上儲存與離線儲存之間差異的詳細資訊,請參閱功能儲存概念。
-
使用預設AWS Key Management Service金鑰或您自己的 KMS 金鑰。預設金鑰為AWS KMS金鑰 (SSE-KMS)。您可以在離線儲存區 Amazon S3 儲存貯體上設定使用 Amazon S3 儲存貯體金鑰,以降低AWS KMS請求成本。在為您的特徵群組使用儲存貯體之前,必須先啟用 Amazon S3 儲存貯體金鑰。如需有關使用 Amazon S3 儲存貯體金鑰降低成本的詳細資訊,請參閱使用 Amazon S3 儲存貯體金鑰降低 SSE-KMS 的成本。
您可以在線上和離線儲存中使用相同的金鑰,也可以為每個儲存使用唯一的金鑰。如需 AWS KMS 的相關資訊,請參閱 AWS Key Management Service。
-
如果您建立離線儲存:
-
決定是要建立 Amazon S3 儲存貯體還是使用現有儲存貯體。使用現有儲存貯體時,您需要知道 Amazon S3 儲存貯體 URL 或 Amazon S3 儲存貯體名稱和資料集目錄名稱 (如果適用)。
-
選擇要用來指定 IAM 角色的 Amazon Resource Name (ARN)。如需如何尋找角色和連接政策的詳細資訊,請參閱 將政策新增至您的 IAM 角色。
-
決定要使用 AWS Glue (預設) 還是 Apache Iceberg 資料表格式。在大多數使用案例中,您會使用 Apache Iceberg 資料表格式。如需資料表格式的詳細資訊,請參閱 搭配適用 SDK for Python (Boto3) 使用功能存放區。
-
您可以使用主控台檢視特徵群組的歷程。在主控台上使用 Feature Store 的指示會有所不同,取決於您是否已啟用 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 做為預設體驗。
-
遵循 啟動 Amazon SageMaker Studio 中的指示開啟 Studio 主控台。
-
從左側導覽窗格中,選擇資料以展開下拉式清單。
-
從下拉式清單中,選擇特徵商店。
-
選擇建立特徵群組。
-
在特徵群組詳細資訊之下,輸入特徵群組名稱。
-
(選用) 輸入特徵群組說明。
-
在特徵群組儲存組態下,從下拉式清單中選擇儲存組態。如需儲存組態的相關資訊,請參閱 特徵商店儲存組態。
-
如果您已選擇啟用線上儲存:
-
如果您只啟用線上儲存,您可以從下拉式清單中選擇儲存類型。如需線上儲存儲存類型的相關資訊,請參閱 線上儲存。
-
(選用) 透過切換到開啟並指定存留時間持續時間值和單位,來套用存留時間 (TTL)。建立特徵群組後,這將加入至功能群組的所有記錄的預設 TTL 持續時間。如需 TTL 的詳細資訊,請參閱 存留時間 (TTL) 記錄持續時間。
-
-
如果您已選擇啟用離線儲存:
-
在 Amazon S3 儲存貯體名稱下,手動輸入新的儲存貯體名稱,或輸入現有的儲存貯體 URL。
-
從資料表格式下拉式清單中,選擇資料表格式。在大多數使用情況下,您應該使用 Apache Iceberg 資料表格式。如需資料表格式的詳細資訊,請參閱 搭配適用 SDK for Python (Boto3) 使用功能存放區。
-
在 IAM 角色 ARN 下,選擇要附加到此特徵群組的 IAM 角色 ARN。如需如何尋找角色和連接政策的詳細資訊,請參閱 將政策新增至您的 IAM 角色。
-
如果您已選擇啟用離線儲存資料表格式和 AWS Glue (預設) 資料表格式,您可以在資料目錄下選擇下列兩個選項之一:
-
為您的 AWS Glue Data Catalog 使用預設值。
-
提供現有的資料目錄名稱、資料表名稱和資料庫名稱,以擴充現有的 AWS Glue Data Catalog。
-
-
-
在線上儲存加密金鑰或離線儲存加密金鑰下拉式清單下,選擇下列其中一個選項:
-
使用 AWS 受管 AWS KMS key (預設)
-
輸入 AWS KMS key ARN,然後在離線儲存加密金鑰 ARN 下輸入您的 AWS KMS 金鑰 ARN。如需 AWS KMS 的詳細資訊,請參閱 AWS Key Management Service。
-
-
如果適用,您可以選擇輸送量模式,這會影響向您收費的方式。在輸送量模式下,從下拉式清單中選擇模式,並在可用時輸入讀取和寫入容量。如需輸送量模式的相關資訊,例如何時可以套用模式和容量單位,請參閱 輸送量模式。
-
在指定了所有必要資訊之後,就可以使用繼續按鈕。選擇 繼續。
-
在指定功能定義下,您有兩個選項可為功能提供結構定義:JSON 編輯器或資料表編輯器。
-
JSON 編輯器:在 JSON 索引標籤中,輸入或複製並貼上 JSON 格式的特徵定義。
-
資料表編輯器:在資料表索引標籤中,輸入特徵名稱並為特徵群組中的每個特徵選擇相應的資料類型。選擇+ 新增功能定義以包含更多功能。請注意,您無法從特徵群組中移除特徵定義。不過,您可以在特徵群組建立之後新增和更新特徵定義。
在表示記錄識別碼和事件時間的特徵群組中至少必須有兩個特徵:
-
記錄特徵類型可以是字串、小數或整數。
-
事件時間特徵類型必須是字串或小數。但是,如果您選擇了 Iceberg 資料表格式,則事件時間必須是字串。
-
-
在包含所有特徵之後,請選擇繼續。
-
在選取必要特徵下,您必須指定記錄識別碼和事件時間特徵。做法是分別在記錄識別碼特徵名稱和事件時間特徵名稱下拉式清單下選擇特徵名稱。
-
在選擇記錄識別碼和事件時間特徵之後,請選擇繼續。
-
(選用) 若要新增特徵群組的標籤,請選擇新增標籤。然後,分別在金鑰和值下輸入標籤金鑰和對應值。
-
選擇 繼續。
-
在檢閱特徵群組下,檢閱功能群組資訊。若要編輯任何步驟,請選擇與該步驟相對應的編輯按鈕。這將帶您進入相應的編輯步驟。若要返回步驟 5,請選擇繼續,直到返回步驟 5。
-
在完成特徵群組的設定之後,請選擇建立特徵群組。
如果在設定期間發生問題,頁面底部會出現快顯警示訊息,其中包含解決問題的秘訣。您可以返回先前的步驟,透過為發生衝突的步驟選擇編輯來修正問題。
如果特徵群組已成功建立,頁面底部會出現綠色快顯訊息。新的特徵群組也會出現在您的特徵群組目錄中。
從主控台檢視特徵群組詳細資訊
在 Feature Store 中成功建立了特徵群組之後,您可以檢視特徵群組的詳細資訊。
您可以使用主控台或 Amazon SageMaker Feature Store API,來檢視特徵群組詳細資訊。透過主控台使用特徵存放區的指示取決於您是否已啟用 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 作為預設體驗。
-
遵循 啟動 Amazon SageMaker Studio 中的指示開啟 Studio 主控台。
-
在左側導覽窗格中,選擇資料以展開下拉式清單。
-
從下拉式清單中,選擇 Feature Store。
-
(選用) 若要檢視您的特徵群組,請選擇我的帳戶。若要檢視共用特徵群組,請選擇跨帳戶。
-
在特徵群組目錄標籤下,從清單中選擇您的特徵群組名稱。這會開啟功能群組頁面。
-
在功能選項卡上,您可以找到所有功能的清單。使用篩選條件來精簡您的清單。選擇一個功能來檢視其詳細資訊。
-
在詳細資訊索引標籤和資訊子索引標籤下,您可以檢閱特徵群組資訊。這包括最新執行、離線儲存設定、線上儲存設定等。
-
在詳細資訊索引標籤和標籤子索引標籤下,您可以檢閱特徵群組標籤。選擇新增標籤以新增標籤,或選擇移除以移除標籤。
-
在管道執行索引標籤下,您可以檢視特徵群組的相關聯管道或管道執行。
-
在歷程索引標籤下,您可以檢視特徵群組的歷程。
從主控台更新特徵群組
在 Feature Store 中成功建立了特徵群組之後,您可以更新特徵群組。
您可以使用主控台或 Amazon SageMaker Feature Store API 來更新特徵群組。透過主控台使用特徵存放區的指示取決於您是否已啟用 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 作為預設體驗。
-
遵循 啟動 Amazon SageMaker Studio 中的指示開啟 Studio 主控台。
-
在左側導覽窗格中,選擇資料以展開下拉式清單。
-
從下拉式清單中,選擇 Feature Store。
-
(選用) 若要檢視您的特徵群組,請選擇我的帳戶。若要檢視共用特徵群組,請選擇跨帳戶。
-
在特徵群組目錄標籤下,搜尋並從清單中選擇您的特徵群組名稱。這會開啟功能群組頁面。
-
選擇更新特徵群組。
-
(選用) 如果適用,您可以變更輸送量模式,這會影響向您收費的方式。在輸送量模式下,從下拉式清單中選擇模式,並在可用時輸入讀取和寫入容量。如需輸送量模式的相關資訊,例如何時可以套用模式和容量單位,請參閱 輸送量模式。
-
(選擇性) 如果您的特徵群組使用線上儲存,您可以更新預設的存留時間 (TTL)。如果特徵群組尚未啟用 TTL,請將 存留時間 (TTL) 下的切換按鈕切換為 開啟。在存留時間持續時間下,您可以指定 TTL 值和單位。更新功能群組更新後,這將加入至特徵群組的所有記錄的預設 TTL 持續時間。
-
(選擇性) 您可以將功能定義新增至功能群組,但請注意,您無法從功能群組中移除功能定義。若要新增特徵定義,請選擇 + 新增特徵定義,然後在名稱欄下指定新特徵定義名稱,並在類型欄下選取特徵類型。
-
選擇儲存變更。
-
若要確認您的變更,請選擇確認。
從主控台檢視管道執行
您可以在管道執行下檢視特徵或特徵群組的最新管道執行資訊。您也可以取得管道、執行、程式碼和其他有用執行資訊的連結。
您可以使用主控台來檢視管道執行。透過主控台使用特徵存放區的指示取決於您是否已啟用 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 作為預設體驗。
-
遵循 啟動 Amazon SageMaker Studio 中的指示開啟 Studio 主控台。
-
在左側導覽窗格中,選擇資料以展開下拉式清單。
-
從下拉式清單中,選擇 Feature Store。
-
(選用) 若要檢視您的特徵群組,請選擇我的帳戶。若要檢視共用特徵群組,請選擇跨帳戶。
-
選擇要查看其管道執行的特徵群組或特徵。
-
選擇管道執行標籤。
-
從選取一個管道下拉式清單搜尋管道。
-
您可以檢視管道、執行和程式碼詳細資訊的連結。您也可以檢視執行擁有者、狀態、日期和持續時間。
從主控台檢視歷程
您可以檢視功能群組的歷程。歷程包括功能處理工作流程的執行程式碼、使用的資料來源以及它們如何擷取至功能群組或功能的資訊。
您可以使用主控台檢視特徵群組的歷程。透過主控台使用 Feature Store 的指示取決於您是否已啟用 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 做為預設體驗。
-
遵循 啟動 Amazon SageMaker Studio 中的指示開啟 Studio 主控台。
-
從左側導覽窗格中,選擇資料以展開下拉式清單。
-
從下拉式清單中,選擇 Feature Store。
-
(選用) 若要檢視您的特徵群組,請選擇我的帳戶。若要檢視共用特徵群組,請選擇跨帳戶。
-
選擇特徵群組或特徵以檢視其歷程詳細資訊。
-
選擇歷程頁標。
-
選擇功能群組或配管節點以展開節點。其中包含有關功能群組或管道的詳細資訊。
-
您可以使用畫面左下方的按鈕來放大、縮小或置中歷程圖表。
-
您可以在選擇和拖曳畫面時,在歷程圖中移動。若要使用節點做為焦點移動歷程圖,您可以按 Tab 或 Shift+Tab 在節點之間切換。
-
如果適用,您可以導覽歷程上游 (左、更早) 或下游 (右、最新)。做法是選擇節點,然後選擇查詢上游歷程或查詢下游歷程。