本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
匯出資料
匯出資料,將來自資料流程的轉換套用至完整匯入的資料集。您可以將資料流程中的任何節點匯出至下列位置:
-
SageMaker Canvas 資料集
-
Amazon S3
如果您想要在 Canvas 中訓練模型,您可以將完整轉換的資料集匯出為 Canvas 資料集。如果您想要在 SageMaker Canvas 外部的機器學習工作流程中使用轉換的資料,您可以將資料集匯出至 Amazon S3。
匯出至 Canvas 資料集
使用下列程序從資料流程中的節點匯出 SageMaker Canvas 資料集。
將流程中的節點匯出為 SageMaker Canvas 資料集
-
導覽至您的資料流程。
-
選擇您要匯出的節點旁的省略符號圖示。
-
在內容功能表中,將滑鼠懸停在匯出上方,然後選取將資料匯出至 Canvas 資料集。
-
在匯出至 Canvas 資料集側邊面板中,輸入新資料集的資料集名稱。
-
如果您想要 SageMaker Canvas 處理和儲存完整的資料集,請保持選取處理整個資料集選項。關閉此選項只會將轉換套用至您在資料流程中使用的範例資料。
-
選擇 Export (匯出)。
您現在應該能夠前往 Canvas 應用程式的資料集頁面,並查看新的資料集。
匯出至 Amazon S3
將您的資料匯出至 Amazon S3 時,您可以擴展以轉換和處理任何大小的資料。如果應用程式的記憶體可以處理資料集的大小,Canvas 會自動在本機處理您的資料。如果您的資料集大小超過 5 GB 的本機記憶體容量,則 Canvas 會代表您啟動遠端任務,以佈建其他運算資源並更快速地處理資料。根據預設,Canvas 會使用 Amazon EMR Serverless 來執行這些遠端任務。不過,您可以手動設定 Canvas 以使用 EMR Serverless 或 SageMaker Processing 任務搭配您自己的設定。
注意
執行 EMR Serverless 任務時,該任務預設會繼承 Canvas 應用程式的 IAM 角色、KMS 金鑰設定和標籤。
以下摘要說明 Canvas 中遠端任務的選項:
-
EMR Serverless:這是 Canvas 用於遠端任務的預設選項。EMR Serverless 會自動佈建和擴展運算資源以處理您的資料,讓您不必擔心為工作負載選擇正確的運算資源。如需 EMR Serverless 的詳細資訊,請參閱 EMR Serverless 使用者指南。
-
SageMaker Processing:SageMaker Processing 任務提供更進階選項,並精細控制用來處理資料的運算資源。例如,您可以指定運算執行個體的類型和計數、在您自己的 VPC 中設定任務,以及控制網路存取、自動化處理任務等。如需自動處理任務的詳細資訊,請參閱建立自動處理新資料的排程。如需 SageMaker 處理任務的更多一般資訊,請參閱使用 SageMaker Processing 的資料轉換工作負載。
匯出至 Amazon S3 時支援下列檔案類型:
-
CSV
-
Parquet
若要開始使用,請檢閱下列先決條件。
EMR Serverless 任務的先決條件
若要建立使用 EMR Serverless 資源的遠端任務,您必須擁有必要的許可。您可以透過 Amazon SageMaker AI 網域或使用者設定檔設定授予許可,也可以手動設定使用者的 IAM AWS角色。如需如何授予使用者執行大型資料處理之許可的指示,請參閱授予使用者在整個 ML 生命週期使用大型資料的許可。
如果您不想要設定這些政策,但仍需要透過 Data Wrangler 處理大型資料集,您也可以使用 SageMaker Processing 任務。
使用下列程序將您的資料匯出至 Amazon S3。若要設定遠端任務,請遵循選用的進階步驟。
將流程中的節點匯出至 Amazon S3
-
導覽至您的資料流程。
-
選擇您要匯出的節點旁的省略符號圖示。
-
在內容功能表中,將滑鼠懸停在匯出上方,然後選取將資料匯出至 Amazon S3。
-
在匯出至 Amazon S3 側邊面板中,您可以變更新資料集的資料集名稱。
-
針對 S3 位置,輸入您要將資料集匯出至其中的 Amazon S3 位置。您可以輸入 S3 位置或 S3 存取點的 S3 URI、別名或 ARN。如需存取點的詳細資訊,請參閱《Amazon S3 使用者指南》中的使用 Amazon S3 Access Points 管理資料存取。
-
(選用) 針對進階設定,指定下列欄位的值:
-
檔案類型 - 所匯出資料的檔案格式。
-
分隔符號 - 用來分隔檔案中值的分隔符號。
-
壓縮 - 用來減少檔案大小的壓縮方法。
-
分割區數量 - Canvas 寫入為任務輸出的資料集檔案數量。
-
選擇資料欄 - 您可以從資料中選擇要包含在分割區中的資料欄子集。
-
-
如果您想要 Canvas 將資料流程轉換套用至整個資料集並匯出結果,請保留選取的處理整個資料集選項。如果您取消選取此選項,Canvas 只會將轉換套用至互動式 Data Wrangler 資料流程中所使用的資料集範例。
注意
如果您只匯出資料的範例,Canvas 會在應用程式中處理您的資料,而且不會為您建立遠端任務。
-
如果您想要 Canvas 自動判定要使用 Canvas 應用程式記憶體還是 EMR Serverless 任務執行任務,請保留選取的自動任務組態選項。如果您取消選取此選項並手動設定任務,則可以選擇使用 EMR Serverless 或 SageMaker 處理任務。如需如何設定 EMR Serverless 或 SageMaker Processing 任務的指示,請在匯出您的資料之前參閱此程序後的一節。
-
選擇 Export (匯出)。
下列程序說明如何在將完整資料集匯出至 Amazon S3 時,手動設定 EMR Serverless 或 SageMaker 處理的遠端任務設定。
匯出您的資料後,您應該會在指定的 Amazon S3 位置找到完全處理的資料集。