本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在視覺化 ETL AWS Glue 任務中撰寫和執行資料準備配方
在此案例中,您可以撰寫資料準備配方,而不必先在 DataBrew 中建立配方。開始撰寫配方之前,您必須:
-
正在執行作用中資料預覽工作階段。在資料預覽工作階段處於 READY 狀態時,撰寫配方將變為作用中,您可以開始撰寫或編輯配方。
-
確保已啟用自動匯入 Glue 程式庫的切換。
您可以在「資料預覽」窗格中選擇齒輪圖示來執行此操作。
若要在 AWS Glue Studio中撰寫資料準備配方,請執行以下操作:
-
將資料準備配方轉換新增至您的任務畫布。您的轉換應連接至資料來源節點父項。新增資料準備配方節點時,節點會使用適當的程式庫重新啟動,而且您會看到正在準備的資料框架。
-
資料預覽工作階段準備就緒後,任何先前套用的步驟的資料會出現在畫面底部。
-
選擇撰寫配方。這可讓您在 中啟動新的配方 AWS Glue Studio。
-
在任務畫布右側的轉換面板中,輸入您的資料準備配方的名稱。
-
在左側,畫布將取代為您的資料的網格檢視。在右側,轉換面板會變更以顯示您的配方步驟。選擇新增步驟,以在配方中新增第一個步驟。
-
在轉換面板中,選擇排序、對資料欄採取動作,以及篩選值。例如,選擇重新命名資料欄。
-
在右側的「轉換」面板中,重新命名資料欄的選項可讓您選擇要重新命名的來源資料欄,以及輸入新的資料欄名稱。完成後,選擇套用。
您可以預覽每個步驟、復原步驟並重新排序步驟,然後使用任何動作圖示,例如篩選條件、排序、分區、合併等。在資料網格中執行動作時,步驟會新增至「轉換」面板中的配方。
如果您需要進行變更,您可以透過預覽每個步驟的結果、復原步驟和重新排序步驟,在「預覽」窗格中執行此操作。例如:
-
復原/重做步驟 – 選擇復原圖示來復原步驟。您可以選擇重做圖示來重複步驟。
-
重新排序步驟 – 當您重新排序步驟時, AWS Glue Studio 會驗證每個步驟,並讓您知道步驟是否無效。
-
-
套用步驟後,「轉換」面板會顯示配方中的所有步驟。您可以清除所有步驟以重新開始,透過選擇「新增」圖示來新增更多步驟,或選擇完成撰寫配方。
-
選擇畫面右上角的儲存。在您儲存任務之前,系統不會儲存您的配方步驟。