本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 SageMaker AI 中選擇正確資料準備工具的建議
機器學習中的資料準備是指收集、預先處理和組織原始資料,以使其適合進行分析和建模的程序。此步驟確保資料採用機器學習演算法可有效學習的格式。資料準備任務可能包括處理缺少值、移除極端值、擴展功能、編碼分類變數、評估潛在偏差並採取步驟來緩解這些偏差、將資料分割為訓練和測試集、標記和其他必要的轉換,以最佳化後續機器學習任務的資料品質和可用性。
選擇功能
使用 Amazon SageMaker AI 進行資料準備有 3 個主要使用案例。選擇符合您要求的使用案例,然後參考對應的建議功能。
使用案例
以下是為機器學習執行資料準備時的主要使用案例。
-
使用案例 1:對於偏好視覺化介面的使用者,SageMaker AI 提供透過點按式環境探索、準備和設計模型訓練特徵的方法。
-
使用案例 2:對於熟悉編碼的使用者,如果他們想要更靈活地控制資料準備,SageMaker AI 會將工具整合到其編碼環境,以進行探索、轉換和特徵工程。
-
使用案例 3:對於專注於可擴展資料準備的使用者,SageMaker AI 提供無伺服器功能,利用 Hadoop/Spark 生態系統進行巨量資料的分散式處理。
推薦功能
下表概述 SageMaker AI 功能的關鍵考量和權衡,這些功能與機器學習的每個資料準備使用案例相關。若要開始使用,請識別符合您要求的使用案例,並導覽至其建議的 SageMaker AI 功能。
| 描述項 | 使用案例 1 | 使用案例 2 | 使用案例 3 |
|---|---|---|---|
| SageMaker AI 功能 | Amazon SageMaker Canvas 內的 Data Wrangler | 在 Studio 中使用 SQL 進行資料準備 | Studio 中的 使用 EMR Serverless 準備資料 應用程式 |
| Description | SageMaker Canvas 是一種視覺化低程式碼環境,用於在 SageMaker AI 中建置、訓練和部署機器學習模型。其整合式 Data Wrangler 工具可讓使用者透過點按式互動來結合、轉換和清理資料集。 | Studio 中的 SQL 延伸模組可讓使用者連線至 Amazon Redshift、Snowflake、Athena 和 Amazon S3,以編寫臨機操作 SQL 查詢,並在 JupyterLab 筆記本中預覽結果。您可以使用 Python 和 Pandas 操控這些查詢的輸出,以進行額外的處理、視覺化和將其轉換為可用於機器學習模型開發的格式。 | EMR Serverless 與 Amazon SageMaker Studio 之間的整合為使用 Apache Spark 和 Apache Hive 等開放原始碼架構的機器學習提供了可擴展的無伺服器環境,以進行大規模資料準備。使用者可以直接從其 Studio 筆記本存取 EMR Serverless 應用程式和資料,以大規模執行其資料準備任務。 |
| 最佳化 | 使用視覺化界面,您可以在其中:
針對表格式資料任務進行最佳化,例如處理缺少值、編碼分類變數,以及套用資料轉換。 |
對於其資料位於 Amazon Redshift、Snowflake、Athena 或 Amazon S3 中的使用者,而且他們想要結合探索性 SQL 和 Python 進行資料分析和準備,而不需要學習 Spark。 | 對於偏好無伺服器體驗的使用者,其會透過自動資源佈建和終止來擴展圍繞 Apache Spark 發展的短時間執行或間歇性互動式工作負載,同時利用 SageMaker AI 的機器學習功能。 |
| 考量事項 |
|
|
|
| 建議的環境 | 開始使用 SageMaker Canvas | 啟動 Studio | 啟動 Studio |
其他選項
SageMaker AI 提供下列其他選項,讓您準備資料以用於機器學習模型。
-
使用 Amazon EMR 進行資料準備:對於長時間執行、運算密集的大規模資料處理任務,請考慮使用來自 SageMaker Studio 的 Amazon EMR 叢集。Amazon EMR 叢集旨在處理大量平行化,而且可以擴展到數百或數千個節點,使其非常適合需要 Apache Spark、Hadoop、Hive 和 Presto 等架構的巨量資料工作負載。Amazon EMR 與 SageMaker Studio 的整合可讓您利用 Amazon EMR 的可擴展性和效能,同時在 SageMaker Studio 環境內集中管理完整的 ML 實驗、模型訓練和部署。
-
使用 Glue 互動式工作階段準備資料:您可以從 AWS Glue 互動式工作階段使用 Apache Spark 型無伺服器引擎,在 SageMaker Studio 中彙總、轉換和準備來自多個來源的資料。
-
使用 Amazon SageMaker Clarify 處理任務識別訓練資料的偏差:SageMaker Clarify 會分析您的資料並偵測多個面向的潛在偏差。例如,您可以使用 Studio 中的 Clarify API 來偵測訓練資料是否包含性別、種族或年齡等群組之間的不平衡表示法或標記偏差。Clarify 可以協助您在訓練模型之前識別這些偏差,以避免將偏差傳播到模型的預測中。
-
建立、存放和共用功能:Amazon SageMaker Feature Store 可最佳化機器學習精選特徵的探索和重複使用。它提供集中式儲存庫來存放特徵資料,您可以搜尋和擷取此資料以進行模型訓練。以標準化格式存放特徵可讓 ML 專案重複使用這些特徵。特徵存放區會管理特徵的完整生命週期,包括歷程追蹤、統計資料和稽核軌跡,以進行可擴展且受管理的機器學習特徵工程。
-
使用人類參與迴圈標記資料:您可以使用 SageMaker Ground Truth 來管理訓練資料集的資料標記工作流程。
-
使用 SageMaker Processing API:在執行探索性資料分析並建立資料轉換步驟之後,您可以使用 SageMaker AI Processing 任務生產您的轉換程式碼,並使用 SageMaker 模型建置管道自動化您的準備工作流程。