匯出資料 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

匯出資料

匯出資料,將來自資料流程的轉換套用至完整匯入的資料集。您可以將資料流程中的任何節點匯出至下列位置:

  • SageMaker Canvas 資料集

  • Amazon S3

如果您想要在 Canvas 中訓練模型,您可以將完整轉換的資料集匯出為 Canvas 資料集。如果您想要在 SageMaker Canvas 外部的機器學習工作流程中使用轉換的資料,您可以將資料集匯出至 Amazon S3。

匯出至 Canvas 資料集

使用下列程序從資料流程中的節點匯出 SageMaker Canvas 資料集。

將流程中的節點匯出為 SageMaker Canvas 資料集
  1. 導覽至您的資料流程。

  2. 選擇您要匯出的節點旁的省略符號圖示。

  3. 在內容功能表中,將滑鼠懸停在匯出上方,然後選取將資料匯出至 Canvas 資料集

  4. 匯出至 Canvas 資料集側邊面板中,輸入新資料集的資料集名稱

  5. 如果您想要 SageMaker Canvas 處理和儲存完整的資料集,請保持選取處理整個資料集選項。關閉此選項只會將轉換套用至您在資料流程中使用的範例資料。

  6. 選擇 Export (匯出)。

您現在應該能夠前往 Canvas 應用程式的資料集頁面,並查看新的資料集。

匯出至 Amazon S3

將您的資料匯出至 Amazon S3 時,您可以擴展以轉換和處理任何大小的資料。如果應用程式的記憶體可以處理資料集的大小,Canvas 會自動在本機處理您的資料。如果您的資料集大小超過 5 GB 的本機記憶體容量,則 Canvas 會代表您啟動遠端任務,以佈建其他運算資源並更快速地處理資料。根據預設,Canvas 會使用 Amazon EMR Serverless 來執行這些遠端任務。不過,您可以手動設定 Canvas 以使用 EMR Serverless 或 SageMaker Processing 任務搭配您自己的設定。

注意

執行 EMR Serverless 任務時,該任務預設會繼承 Canvas 應用程式的 IAM 角色、KMS 金鑰設定和標籤。

以下摘要說明 Canvas 中遠端任務的選項:

  • EMR Serverless:這是 Canvas 用於遠端任務的預設選項。EMR Serverless 會自動佈建和擴展運算資源以處理您的資料,讓您不必擔心為工作負載選擇正確的運算資源。如需 EMR Serverless 的詳細資訊,請參閱 EMR Serverless 使用者指南

  • SageMaker Processing:SageMaker Processing 任務提供更進階選項,並精細控制用來處理資料的運算資源。例如,您可以指定運算執行個體的類型和計數、在您自己的 VPC 中設定任務,以及控制網路存取、自動化處理任務等。如需自動處理任務的詳細資訊,請參閱建立自動處理新資料的排程。如需 SageMaker 處理任務的更多一般資訊,請參閱使用 SageMaker Processing 的資料轉換工作負載

匯出至 Amazon S3 時支援下列檔案類型:

  • CSV

  • Parquet

若要開始使用,請檢閱下列先決條件。

EMR Serverless 任務的先決條件

若要建立使用 EMR Serverless 資源的遠端任務,您必須擁有必要的許可。您可以透過 Amazon SageMaker AI 網域或使用者設定檔設定授予許可,也可以手動設定使用者的 IAM AWS角色。如需如何授予使用者執行大型資料處理之許可的指示,請參閱授予使用者在整個 ML 生命週期使用大型資料的許可

如果您不想要設定這些政策,但仍需要透過 Data Wrangler 處理大型資料集,您也可以使用 SageMaker Processing 任務。

使用下列程序將您的資料匯出至 Amazon S3。若要設定遠端任務,請遵循選用的進階步驟。

將流程中的節點匯出至 Amazon S3
  1. 導覽至您的資料流程。

  2. 選擇您要匯出的節點旁的省略符號圖示。

  3. 在內容功能表中,將滑鼠懸停在匯出上方,然後選取將資料匯出至 Amazon S3

  4. 匯出至 Amazon S3 側邊面板中,您可以變更新資料集的資料集名稱

  5. 針對 S3 位置,輸入您要將資料集匯出至其中的 Amazon S3 位置。您可以輸入 S3 位置或 S3 存取點的 S3 URI、別名或 ARN。如需存取點的詳細資訊,請參閱《Amazon S3 使用者指南》中的使用 Amazon S3 Access Points 管理資料存取

  6. (選用) 針對進階設定,指定下列欄位的值:

    1. 檔案類型 - 所匯出資料的檔案格式。

    2. 分隔符號 - 用來分隔檔案中值的分隔符號。

    3. 壓縮 - 用來減少檔案大小的壓縮方法。

    4. 分割區數量 - Canvas 寫入為任務輸出的資料集檔案數量。

    5. 選擇資料欄 - 您可以從資料中選擇要包含在分割區中的資料欄子集。

  7. 如果您想要 Canvas 將資料流程轉換套用至整個資料集並匯出結果,請保留選取的處理整個資料集選項。如果您取消選取此選項,Canvas 只會將轉換套用至互動式 Data Wrangler 資料流程中所使用的資料集範例。

    注意

    如果您只匯出資料的範例,Canvas 會在應用程式中處理您的資料,而且不會為您建立遠端任務。

  8. 如果您想要 Canvas 自動判定要使用 Canvas 應用程式記憶體還是 EMR Serverless 任務執行任務,請保留選取的自動任務組態選項。如果您取消選取此選項並手動設定任務,則可以選擇使用 EMR Serverless 或 SageMaker 處理任務。如需如何設定 EMR Serverless 或 SageMaker Processing 任務的指示,請在匯出您的資料之前參閱此程序後的一節。

  9. 選擇 Export (匯出)。

下列程序說明如何在將完整資料集匯出至 Amazon S3 時,手動設定 EMR Serverless 或 SageMaker 處理的遠端任務設定。

EMR Serverless

若要在匯出至 Amazon S3 時設定 EMR Serverless 任務,請執行下列動作:

  1. 在 [匯出至 Amazon S3] 側邊面板中,關閉自動任務組態選項。

  2. 選取 EMR Serverless

  3. 針對 任務名稱,輸入 EMR Serverless 任務的名稱。名稱可以包含字母、數字、連字號和底線。

  4. 針對 IAM 角色,輸入使用者的 IAM 執行角色。此角色應具備執行 EMR Serverless 應用程式所需的許可。如需詳細資訊,請參閱授予使用者在整個 ML 生命週期使用大型資料的許可

  5. (選用) 對於 KMS 金鑰,指定 的金鑰 ID 或 ARN AWS KMS key來加密任務日誌。如果您未輸入金鑰,Canvas 會使用 EMR Serverless 的預設金鑰。

  6. (選用) 針對監控組態,輸入您要日誌發佈至其中的 Amazon CloudWatch Logs 日誌群組名稱。

  7. (選用) 針對標籤,將中繼資料標籤新增至由金鑰/值對組成的 EMR Serverless 任務。這些標籤可以用來分類和搜尋任務。

  8. 選擇 Export (匯出),啟動工作。

SageMaker Processing

若要在匯出至 Amazon S3 時設定 SageMaker 處理任務,請執行下列動作:

  1. 匯出至 Amazon S3 側邊面板中,關閉自動任務組態選項。

  2. 選取 SageMaker 處理

  3. 針對任務名稱,輸入 SageMaker AI 處理任務的名稱。

  4. 針對執行個體類型,選取要執行處理任務的運算執行個體類型。

  5. 針對執行個體計數,指定要啟動的執行個體數量。

  6. 針對 IAM 角色,輸入使用者的 IAM 執行角色。此角色應具必要的許可,讓 SageMaker AI 可以代表您建立和執行處理任務。如果您將 AmazonSageMakerFullAccess 政策連接到 IAM 角色,則會授予這些許可。

  7. 針對磁碟區大小,輸入連接至每個處理執行個體的 ML 儲存磁碟區的儲存大小,以 GB 為單位。根據預期的輸入和輸出資料大小選擇大小。

  8. (選用) 針對磁碟區 KMS 金鑰,指定 KMS 金鑰來加密儲存磁碟區。如果未指定金鑰,則會使用預設的 Amazon EBS 加密金鑰。

  9. (選用) 針對 KMS 金鑰,指定 KMS 金鑰來加密處理任務所使用的輸入和輸出 Amazon S3 資料來源。

  10. (選用) 針對 Spark 記憶體組態,執行下列動作:

    1. 針對處理任務協調和排程的 Spark 驅動程式節點,輸入 驅動程式記憶體 (以 MB 為單位)

    2. 針對在任務中執行個別任務的 Spark 執行器節點,輸入執行器記憶體 (以 MB 為單位)

  11. (選用) 針對 網路組態,執行下列動作:

    1. 針對子網路組態,輸入要在其中啟動處理執行個體的 VPC 子網路 ID。根據預設,任務會使用預設 VPC 的設定。

    2. 針對安全群組組態,輸入安全群組 ID,以控制傳入和傳出連線規則。

    3. 開啟啟用容器間流量加密選項,以在任務期間加密處理容器之間的網路通訊。

  12. (選用) 針對關聯排程,您可以選擇建立 Amazon EventBridge 排程,讓處理任務定期執行。選擇建立新排程並填寫對話方塊。如需填寫本節並依排程執行處理任務的詳細資訊,請參閱建立自動處理新資料的排程

  13. (選用) 將標籤新增為金鑰值對,以便您可以分類和搜尋處理任務。

  14. 選擇匯出以啟動處理任務。

匯出您的資料後,您應該會在指定的 Amazon S3 位置找到完全處理的資料集。