資料準備 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料準備

注意

先前,Amazon SageMaker Data Wrangler 是 SageMaker Studio Classic 體驗的一部分。現在,如果您更新為使用新的 Studio 體驗,則必須使用 SageMaker Canvas 存取 Data Wrangler 並接收最新的功能更新。如果您一直使用 Studio Classic 中的 Data Wrangler,但想要遷移到 Canvas 中的 Data Wrangler,您可能必須授予其他許可,才能建立和使用 Canvas 應用程式。如需詳細資訊,請參閱(選用) 從 Studio Classic 中的 Data Wrangler 遷移至 SageMaker Canvas

若要了解如何從 Studio Classic 中的 Data Wrangler 遷移您的資料流程,請參閱 (選用) 將資料從 Studio Classic 遷移至 Studio

使用 Amazon SageMaker Canvas 中的 Amazon SageMaker Data Wrangler 來準備、特徵化和分析您的資料。您可以將 Data Wrangler 資料準備流程整合到您的機器學習 (ML) 工作流程中,幾乎不使用程式碼,簡化和精簡資料預先處理和特徵工程。您也可以新增自己的 Python 指令碼和轉換來自訂工作流程。

  • 資料流程——建立資料流程來定義一系列機器學習資料準備步驟。您可以使用一個流程來合併不同資料來源的資料集、識別要套用至資料集的轉換數量和類型,以及定義可整合至機器學習管道的資料準備工作流程。

  • 轉換——使用字串、向量和數值資料格式化工具等標準轉換來清理及轉換資料集。使用文字、日期/時間內嵌項目和分類編碼等轉換,將資料特徵化。

  • 產生資料洞見 - 使用 Data Wrangler 資料品質和洞見報告,自動驗證資料品質並偵測資料中的異常情況。

  • 分析——在流程中的任何時間點分析您的資料集中的特徵。Data Wrangler 包含散佈圖和長條圖等內建資料視覺化工具,以及目標洩漏分析和快速建模等資料分析工具,以了解特徵相互關聯性。

  • 匯出——將資料準備工作流程匯出至其他位置。以下為範例位置:

    • Amazon Simple Storage Service (Amazon S3) 儲存貯體

    • Amazon SageMaker Feature Store——將特徵及其資料存放在集中式存放區中。

  • 自動化資料準備 - 從您的資料流程建立機器學習工作流程。

    • Amazon SageMaker Pipelines - 建置工作流程,管理 SageMaker AI 資料準備、模型訓練和模型部署任務。

    • 序列推論管道 - 從您的資料流程建立序列推論管道。使用它對新資料進行預測。

    • Python 指令碼——將資料及其轉換存放在自訂工作流程的 Python 指令碼中。