View a markdown version of this page

在視覺化 ETL AWS Glue 任務中撰寫和執行資料準備配方 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在視覺化 ETL AWS Glue 任務中撰寫和執行資料準備配方

在此案例中,您可以撰寫資料準備配方,而不必先在 DataBrew 中建立配方。開始撰寫配方之前,您必須:

  • 正在執行作用中資料預覽工作階段。在資料預覽工作階段處於 READY 狀態時,撰寫配方將變為作用中,您可以開始撰寫或編輯配方。

    螢幕擷取畫面會將資料預覽工作階段顯示為完成。
  • 確保已啟用自動匯入 Glue 程式庫的切換。

    螢幕擷取畫面顯示「自動匯入 Glue 程式庫」已開啟的選項。

    您可以在「資料預覽」窗格中選擇齒輪圖示來執行此操作。

    螢幕擷取畫面顯示「自動匯入 Glue 程式庫」已開啟的選項。
若要在 AWS Glue Studio中撰寫資料準備配方,請執行以下操作:
  1. 資料準備配方轉換新增至您的任務畫布。您的轉換應連接至資料來源節點父項。新增資料準備配方節點時,節點會使用適當的程式庫重新啟動,而且您會看到正在準備的資料框架。

    螢幕擷取畫面顯示在新增資料準備配方之後的資料框架載入。
  2. 資料預覽工作階段準備就緒後,任何先前套用的步驟的資料會出現在畫面底部。

  3. 選擇撰寫配方。這可讓您在 中啟動新的配方 AWS Glue Studio。

    螢幕擷取畫面顯示「轉換」面板,其中包含名稱和節點父項的欄位,以及「撰寫配方」的選項。
  4. 在任務畫布右側的轉換面板中,輸入您的資料準備配方的名稱。

  5. 在左側,畫布將取代為您的資料的網格檢視。在右側,轉換面板會變更以顯示您的配方步驟。選擇新增步驟,以在配方中新增第一個步驟。

    螢幕擷取畫面會在選擇「新增步驟」後顯示「轉換」面板。在您選擇資料欄時,選項會動態變更。您可以選擇排序、對資料欄採取動作,以及篩選值。
  6. 轉換面板中,選擇排序、對資料欄採取動作,以及篩選值。例如,選擇重新命名資料欄

    螢幕擷取畫面會在選擇「新增步驟」後顯示「轉換」面板。在您選擇資料欄時,選項會動態變更。您可以選擇排序、對資料欄採取動作,以及篩選值。
  7. 在右側的「轉換」面板中,重新命名資料欄的選項可讓您選擇要重新命名的來源資料欄,以及輸入新的資料欄名稱。完成後,選擇套用

    您可以預覽每個步驟、復原步驟並重新排序步驟,然後使用任何動作圖示,例如篩選條件、排序、分區、合併等。在資料網格中執行動作時,步驟會新增至「轉換」面板中的配方。

    螢幕擷取畫面顯示已反白顯示工具列的「預覽資料網格」。您可以使用任何工具來套用動作,並將其新增至右側的「轉換」面板中的配方。

    如果您需要進行變更,您可以透過預覽每個步驟的結果、復原步驟和重新排序步驟,在「預覽」窗格中執行此操作。例如:

    • 復原/重做步驟 – 選擇復原圖示來復原步驟。您可以選擇重做圖示來重複步驟。

      螢幕擷取畫面顯示了更多圖示。
    • 重新排序步驟 – 當您重新排序步驟時, AWS Glue Studio 會驗證每個步驟,並讓您知道步驟是否無效。

  8. 套用步驟後,「轉換」面板會顯示配方中的所有步驟。您可以清除所有步驟以重新開始,透過選擇「新增」圖示來新增更多步驟,或選擇完成撰寫配方

    螢幕擷取畫面顯示「轉換」面板,其中包含新增至配方的步驟。完成後,選擇完成撰寫配方,或選擇「新增」圖示,將更多步驟新增至配方。
  9. 選擇畫面右上角的儲存。在您儲存任務之前,系統不會儲存您的配方步驟。