

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 匯出資料
<a name="canvas-export-data"></a>

匯出資料，將來自資料流程的轉換套用至完整匯入的資料集。您可以將資料流程中的任何節點匯出至下列位置：
+ SageMaker Canvas 資料集
+ Amazon S3

如果您想要在 Canvas 中訓練模型，您可以將完整轉換的資料集匯出為 Canvas 資料集。如果您想要在 SageMaker Canvas 外部的機器學習工作流程中使用轉換的資料，您可以將資料集匯出至 Amazon S3。

## 匯出至 Canvas 資料集
<a name="canvas-export-data-canvas"></a>

使用下列程序從資料流程中的節點匯出 SageMaker Canvas 資料集。

**將流程中的節點匯出為 SageMaker Canvas 資料集**

1. 導覽至您的資料流程。

1. 選擇您要匯出的節點旁的省略符號圖示。

1. 在內容功能表中，將滑鼠懸停在**匯出**上方，然後選取**將資料匯出至 Canvas 資料集**。

1. 在**匯出至 Canvas 資料集**側邊面板中，輸入新資料集的**資料集名稱**。

1. 如果您想要 SageMaker Canvas 處理和儲存完整的資料集，請保持選取**處理整個資料集**選項。關閉此選項只會將轉換套用至您在資料流程中使用的範例資料。

1. 選擇 **Export** (匯出)。

您現在應該能夠前往 Canvas 應用程式的**資料集**頁面，並查看新的資料集。

## 匯出至 Amazon S3
<a name="canvas-export-data-s3"></a>

將您的資料匯出至 Amazon S3 時，您可以擴展以轉換和處理任何大小的資料。如果應用程式的記憶體可以處理資料集的大小，Canvas 會自動在本機處理您的資料。如果您的資料集大小超過 5 GB 的本機記憶體容量，則 Canvas 會代表您啟動遠端任務，以佈建其他運算資源並更快速地處理資料。根據預設，Canvas 會使用 Amazon EMR Serverless 來執行這些遠端任務。不過，您可以手動設定 Canvas 以使用 EMR Serverless 或 SageMaker Processing 任務搭配您自己的設定。

**注意**  
執行 EMR Serverless 任務時，該任務預設會繼承 Canvas 應用程式的 IAM 角色、KMS 金鑰設定和標籤。

以下摘要說明 Canvas 中遠端任務的選項：
+ **EMR Serverless**：這是 Canvas 用於遠端任務的預設選項。EMR Serverless 會自動佈建和擴展運算資源以處理您的資料，讓您不必擔心為工作負載選擇正確的運算資源。如需 EMR Serverless 的詳細資訊，請參閱 [EMR Serverless 使用者指南](https://docs.aws.amazon.com/emr/latest/EMR-Serverless-UserGuide/emr-serverless.html)。
+ **SageMaker Processing**：SageMaker Processing 任務提供更進階選項，並精細控制用來處理資料的運算資源。例如，您可以指定運算執行個體的類型和計數、在您自己的 VPC 中設定任務，以及控制網路存取、自動化處理任務等。如需自動處理任務的詳細資訊，請參閱[建立自動處理新資料的排程](canvas-data-export-schedule-job.md)。如需 SageMaker 處理任務的更多一般資訊，請參閱[使用 SageMaker Processing 的資料轉換工作負載](processing-job.md)。

匯出至 Amazon S3 時支援下列檔案類型：
+ CSV
+ Parquet

若要開始使用，請檢閱下列先決條件。

### EMR Serverless 任務的先決條件
<a name="canvas-export-data-emr-prereqs"></a>

若要建立使用 EMR Serverless 資源的遠端任務，您必須擁有必要的許可。您可以透過 Amazon SageMaker AI 網域或使用者設定檔設定授予許可，也可以手動設定使用者的 IAM AWS 角色。如需如何授予使用者執行大型資料處理之許可的指示，請參閱[授予使用者在整個 ML 生命週期使用大型資料的許可](canvas-large-data-permissions.md)。

如果您不想要設定這些政策，但仍需要透過 Data Wrangler 處理大型資料集，您也可以使用 SageMaker Processing 任務。

使用下列程序將您的資料匯出至 Amazon S3。若要設定遠端任務，請遵循選用的進階步驟。

**將流程中的節點匯出至 Amazon S3**

1. 導覽至您的資料流程。

1. 選擇您要匯出的節點旁的省略符號圖示。

1. 在內容功能表中，將滑鼠懸停在**匯出**上方，然後選取**將資料匯出至 Amazon S3**。

1. 在**匯出至 Amazon S3** 側邊面板中，您可以變更新資料集的**資料集名稱**。

1. 針對 **S3 位置**，輸入您要將資料集匯出至其中的 Amazon S3 位置。您可以輸入 S3 位置或 S3 存取點的 S3 URI、別名或 ARN。如需存取點的詳細資訊，請參閱《Amazon S3 使用者指南》**中的[使用 Amazon S3 Access Points 管理資料存取](https://docs.aws.amazon.com/AmazonS3/latest/userguide/access-points.html)。

1. (選用) 針對**進階設定**，指定下列欄位的值：

   1. **檔案類型** - 所匯出資料的檔案格式。

   1. **分隔符號** - 用來分隔檔案中值的分隔符號。

   1. **壓縮** - 用來減少檔案大小的壓縮方法。

   1. **分割區數量** - Canvas 寫入為任務輸出的資料集檔案數量。

   1. **選擇資料欄** - 您可以從資料中選擇要包含在分割區中的資料欄子集。

1. 如果您想要 Canvas 將資料流程轉換套用至整個資料集並匯出結果，請保留選取的**處理整個資料集**選項。如果您取消選取此選項，Canvas 只會將轉換套用至互動式 Data Wrangler 資料流程中所使用的資料集範例。
**注意**  
如果您只匯出資料的範例，Canvas 會在應用程式中處理您的資料，而且不會為您建立遠端任務。

1. 如果您想要 Canvas 自動判定要使用 Canvas 應用程式記憶體還是 EMR Serverless 任務執行任務，請保留選取的**自動任務組態**選項。如果您取消選取此選項並手動設定任務，則可以選擇使用 EMR Serverless 或 SageMaker 處理任務。如需如何設定 EMR Serverless 或 SageMaker Processing 任務的指示，請在匯出您的資料之前參閱此程序後的一節。

1. 選擇 **Export** (匯出)。

下列程序說明如何在將完整資料集匯出至 Amazon S3 時，手動設定 EMR Serverless 或 SageMaker 處理的遠端任務設定。

------
#### [ EMR Serverless ]

若要在匯出至 Amazon S3 時設定 EMR Serverless 任務，請執行下列動作：

1. 在 [匯出至 Amazon S3] 側邊面板中，關閉**自動任務組態**選項。

1. 選取 **EMR Serverless**。

1. 針對 **任務名稱**，輸入 EMR Serverless 任務的名稱。名稱可以包含字母、數字、連字號和底線。

1. 針對 **IAM 角色**，輸入使用者的 IAM 執行角色。此角色應具備執行 EMR Serverless 應用程式所需的許可。如需詳細資訊，請參閱[授予使用者在整個 ML 生命週期使用大型資料的許可](canvas-large-data-permissions.md)。

1. （選用） 對於 **KMS 金鑰**，指定 的金鑰 ID 或 ARN AWS KMS key 來加密任務日誌。如果您未輸入金鑰，Canvas 會使用 EMR Serverless 的預設金鑰。

1. (選用) 針對**監控組態**，輸入您要日誌發佈至其中的 Amazon CloudWatch Logs 日誌群組名稱。

1. (選用) 針對**標籤**，將中繼資料標籤新增至由金鑰/值對組成的 EMR Serverless 任務。這些標籤可以用來分類和搜尋任務。

1. 選擇 **Export** (匯出)，啟動工作。

------
#### [ SageMaker Processing ]

若要在匯出至 Amazon S3 時設定 SageMaker 處理任務，請執行下列動作：

1. 在**匯出至 Amazon S3** 側邊面板中，關閉**自動任務組態**選項。

1. 選取 **SageMaker 處理**。

1. 針對**任務名稱**，輸入 SageMaker AI 處理任務的名稱。

1. 針對**執行個體類型**，選取要執行處理任務的運算執行個體類型。

1. 針對**執行個體計數**，指定要啟動的執行個體數量。

1. 針對 **IAM 角色**，輸入使用者的 IAM 執行角色。此角色應具必要的許可，讓 SageMaker AI 可以代表您建立和執行處理任務。如果您將 [AmazonSageMakerFullAccess](https://docs.aws.amazon.com/aws-managed-policy/latest/reference/AmazonSageMakerFullAccess.html) 政策連接到 IAM 角色，則會授予這些許可。

1. 針對**磁碟區大小**，輸入連接至每個處理執行個體的 ML 儲存磁碟區的儲存大小，以 GB 為單位。根據預期的輸入和輸出資料大小選擇大小。

1. (選用) 針對**磁碟區 KMS 金鑰**，指定 KMS 金鑰來加密儲存磁碟區。如果未指定金鑰，則會使用預設的 Amazon EBS 加密金鑰。

1. (選用) 針對 **KMS 金鑰**，指定 KMS 金鑰來加密處理任務所使用的輸入和輸出 Amazon S3 資料來源。

1. (選用) 針對 **Spark 記憶體組態**，執行下列動作：

   1. 針對處理任務協調和排程的 Spark 驅動程式節點，輸入 **驅動程式記憶體 (以 MB 為單位)**。

   1. 針對在任務中執行個別任務的 Spark 執行器節點，輸入**執行器記憶體 (以 MB 為單位)**。

1. (選用) 針對 **網路組態**，執行下列動作：

   1. 針對**子網路組態**，輸入要在其中啟動處理執行個體的 VPC 子網路 ID。根據預設，任務會使用預設 VPC 的設定。

   1. 針對**安全群組組態**，輸入安全群組 ID，以控制傳入和傳出連線規則。

   1. 開啟**啟用容器間流量加密**選項，以在任務期間加密處理容器之間的網路通訊。

1. (選用) 針對**關聯排程**，您可以選擇建立 Amazon EventBridge 排程，讓處理任務定期執行。選擇**建立新排程**並填寫對話方塊。如需填寫本節並依排程執行處理任務的詳細資訊，請參閱[建立自動處理新資料的排程](canvas-data-export-schedule-job.md)。

1. (選用) 將**標籤**新增為金鑰值對，以便您可以分類和搜尋處理任務。

1. 選擇**匯出**以啟動處理任務。

------

匯出您的資料後，您應該會在指定的 Amazon S3 位置找到完全處理的資料集。