

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 Amazon SageMaker Data Wrangler 準備機器學習資料
<a name="data-wrangler"></a>

**重要**  
Amazon SageMaker Data Wrangler 已整合至 Amazon SageMaker Canvas。在 SageMaker Canvas 的新 Data Wrangler 體驗中，除了視覺化介面之外，您還可以使用自然語言介面來探索和轉換您的資料。如需 SageMaker Canvas 中 Data Wrangler 的詳細資訊，請參閱[資料準備](canvas-data-prep.md)。

Amazon SageMaker Data Wrangler (Data Wrangler) 是 Amazon SageMaker Studio Classic 的一種功能，提供端對端解決方案來匯入、準備、轉換、特徵化和分析資料。您可以將 Data Wrangler 資料準備流程整合到您的機器學習 (ML) 工作流程中，幾乎不使用程式碼，簡化和精簡資料預先處理和特徵工程。您也可以新增自己的 Python 指令碼和轉換來自訂工作流程。

Data Wrangler 提供下列核心功能，協助您分析和準備機器學習應用程式的資料。
+ **匯入** – 連線至 Amazon Simple Storage Service (Amazon S3)、 Amazon Athena (Athena)、Amazon Redshift、Snowflake 和 Databricks 並匯入資料。
+ **資料流程**——建立資料流程來定義一系列機器學習資料準備步驟。您可以使用一個流程來合併不同資料來源的資料集、識別要套用至資料集的轉換數量和類型，以及定義可整合至機器學習管道的資料準備工作流程。
+ **轉換**——使用字串、向量和數值資料格式化工具等標準*轉換*來清理及轉換資料集。使用文字、日期/時間內嵌項目和分類編碼等轉換，將資料特徵化。
+ **產生資料洞見**——使用 Data Wrangler 資料洞見和品質報告，自動驗證資料品質並偵測資料中的異常情況。
+ **分析**——在流程中的任何時間點分析您的資料集中的特徵。Data Wrangler 包含散佈圖和長條圖等內建資料視覺化工具，以及目標洩漏分析和快速建模等資料分析工具，以了解特徵相互關聯性。
+ **匯出**——將資料準備工作流程匯出至其他位置。以下為範例位置：
  + Amazon Simple Storage Service (Amazon S3) 儲存貯體
  + Amazon SageMaker Pipelines - 使用 Pipelines 自動化模型部署。您可以將已轉換的資料直接匯出至管道。
  + Amazon SageMaker Feature Store——將特徵及其資料存放在集中式存放區中。
  + Python 指令碼——將資料及其轉換存放在自訂工作流程的 Python 指令碼中。

要開始使用 Data Wrangler，請參閱[開始使用 Data Wrangler](data-wrangler-getting-started.md)。

**重要**  
Data Wrangler 不再支援 Jupyter Lab 第 1 版 (JL1)。若要存取最新功能和更新，請更新至 Jupyter Lab 第 3 版。如需升級的詳細資訊，請參閱[從主控台檢視和更新應用程式的 JupyterLab 版本](studio-jl.md#studio-jl-view)。

**重要**  
本指南中的資訊和程序使用最新版本的 Amazon SageMaker Studio Classic。如需將 Studio Classic 更新至最新版本的詳細資訊，請參閱[Amazon SageMaker Studio Classic UI 概觀](studio-ui.md)。

您必須使用 Studio Classic 1.3.0 版或更新版本。請使用以下程序開啟 Amazon SageMaker Studio Classic，並查看您正在執行的版本。

若要開啟 Studio Classic 並檢查其版本，請參閱以下程序。

1. 透過 Amazon SageMaker Studio Classic，使用 [先決條件](data-wrangler-getting-started.md#data-wrangler-getting-started-prerequisite) 中的步驟存取 Data Wrangler。

1. 在您要用來啟動 Studio Classic 的使用者旁邊，請選取**啟動應用程式**。

1. 選擇 **Studio**。

1. Studio Classic 載入後，請依序選取**檔案**、**新增**、**終端機**。  
![步驟 4 中所述的 Studio Classic 內容功能表選項。](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/mohave/terminal.png)

1. 一旦您啟動了 Studio Classic，請依序選取**檔案**、**新增**、**終端機**。

1. 請輸入 `cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"`，列印 Studio Classic 執行個體的版本。您必須具有 Studio Classic 1.3.0 版才能使用 Snowflake。  
![在 Studio Classic 中開啟的終端機視窗，其中複製並貼上來自步驟 6 的命令。](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/mohave/cat-command.png)

您可以從 AWS 管理主控台內更新 Amazon SageMaker Studio Classic。如需更新 Studio Classic 的詳細資訊，請參閱 [Amazon SageMaker Studio Classic UI 概觀](studio-ui.md)。

**Topics**
+ [開始使用 Data Wrangler](data-wrangler-getting-started.md)
+ [Import (匯入)](data-wrangler-import.md)
+ [建立和使用 Data Wrangler 流程](data-wrangler-data-flow.md)
+ [取得有關資料和資料品質的洞察](data-wrangler-data-insights.md)
+ [在資料流程上自動訓練模型](data-wrangler-autopilot.md)
+ [轉換資料](data-wrangler-transform.md)
+ [分析與視覺化](data-wrangler-analyses.md)
+ [重複使用不同資料集的資料流量](data-wrangler-parameterize.md)
+ [Export (匯出)](data-wrangler-data-export.md)
+ [使用 Amazon SageMaker Studio Classic 筆記本中的互動式資料準備小工具取得資料洞見](data-wrangler-interactively-prepare-data-notebook.md)
+ [安全與許可](data-wrangler-security.md)
+ [版本備註](data-wrangler-release-notes.md)
+ [疑難排解](data-wrangler-trouble-shooting.md)
+ [增加 Amazon EC2 執行個體限制](data-wrangler-increase-instance-limit.md)
+ [更新 Data Wrangler](data-wrangler-update.md)
+ [關閉 Data Wrangler](data-wrangler-shut-down.md)