本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建立資料流程
使用 SageMaker Canvas 中的 Data Wrangler 流程或資料流程,來建立和修改資料準備管道。對於大於 5 GB 的資料集,我們建議您使用 Data Wrangler。
若要開始使用,請使用下列程序將您的資料匯入至資料流程。
-
開啟 SageMaker Canvas。
-
在左側導覽中,選擇 Data Wrangler。
-
選擇匯入並準備。
-
從下拉式功能表中,選擇表格式或影像。
-
針對選取資料來源,選擇您的資料來源,然後選取您要匯入的資料。您可以選取最多 30 個檔案或一個資料夾。如果您有一個資料集已匯入至 Canvas,請選擇 Canvas 資料集作為來源。否則,請連線至資料來源,例如 Amazon S3 或 Snowflake,然後瀏覽您的資料。如需連線至資料來源或匯入資料的相關資訊,請參閱下列頁面:
-
選取您要匯入的資料後,選擇下一步。
-
(選用) 對於匯入表格式資料集時的匯入設定區段,展開進階下拉式功能表。您可以指定下列進階設定,進行資料流程匯入:
取樣方法 - 選取您想要使用的取樣方法和範例大小。如需如何變更範例的詳細資訊,請參閱編輯資料流程取樣組態一節。
檔案編碼 (CSV) - 選取資料集檔案的編碼。
UTF-8是預設值。略過前幾列 - 如果您在資料集開頭有多餘的資料列,請輸入您要略過匯入的列數。
分隔符號 - 選取分隔資料中每個項目的分隔符號。您也可以指定自訂分隔符號。
多行偵測 - 如果您想要 Canvas 手動剖析整個資料集找出多行儲存格,請選取此選項。Canvas 會透過取得資料範例來決定是否使用多行支援,但 Canvas 可能不會偵測範例中的任何多行儲存格。在此情況下,我們建議您選取多行偵測選項,強制 Canvas 檢查您的整個資料集是否有多行儲存格。
-
選擇匯入。
您現在應有新的資料流程,而且可以開始新增轉換步驟和分析。