建置視覺化 ETL 任務 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建置視覺化 ETL 任務

使用 建置視覺化 ETL 任務 AWS Glue Studio

AWS Glue Studio 提供視覺化界面,用於在其中建立、執行和監控Extract/Transform/Load (ETL) 任務 AWS Glue。中的任務 AWS Glue 包含執行擷取、轉換和載入 (ETL) 工作的商業邏輯。使用 AWS Glue Studio,您可以視覺化地編寫資料轉換工作流程,並在 AWS Glue Apache Spark 型無伺服器 ETL 引擎上順暢地執行它們。您可以使用drag-and-drop界面建立任務,在各種資料存放區和串流之間移動和轉換資料,而無需學習 Spark 或寫入程式碼。

AWS Glue 任務封裝了一個指令碼,會連線至您的來源資料、處理資料,然後將它寫出至您的資料目標。一般而言,任務會執行擷取、轉換和載入 (ETL) 指令碼。任務可以執行專為 Apache Spark 和 Ray 執行期環境設計的指令碼。任務也可以執行一般用途 Python 指令碼 (Python shell 任務) AWS Glue觸發程序,可根據排程或事件或隨需啟動任務。您可以監控任務執行以了解執行時間指標,例如完成狀態、持續時間和開始時間。

您可以使用 AWS Glue 產生的指令碼,也可以提供自己的指令碼。藉助來源結構描述以及目標位置或結構描述,AWS Glue Studio 程式碼產生器可自動建立 Apache Spark API (PySpark) 指令碼。您可以將此指令碼做為起點,編輯其內容以符合您的目標。

AWS Glue 可以寫入多種資料格式的輸出檔案。每種任務類型可支援不同的輸出格式。某些資料格式也可寫入常見的壓縮格式。

在 AWS 主控台中管理 AWS Glue 任務

若要檢視現有的任務,請登入 , AWS Management Console 並在 https://https://console.aws.amazon.com/glue/ 開啟AWS Glue主控台。接著,請在 AWS Glue 中選擇 Jobs (工作) 索引標籤。Jobs (任務) 清單會顯示與每項任務相關指令碼的位置、任務最近修改的時間,以及目前的任務書籤選項。

您可以在 AWS Glue 主控台的 ETL 區塊中建立工作。建立新任務時,或儲存任務後,您可以使用 AWS Glue Studio 修改您的 ETL 任務。您可以在視覺化編輯器中編輯節點,或在開發人員模式中編輯任務指令碼來執行此動作。您也可以在視覺化編輯器中新增和移除節點,以建立更複雜的 ETL 任務。

在 AWS Glue Studio 中建立任務的後續步驟

您可以使用視覺化任務編輯器來設定任務的節點。每個節點代表一個動作,例如從源位置讀取資料或應用轉換到資料。您新增至任務的每個節點都具有提供資料位置或轉換相關資訊的屬性。

建立和管理任務的後續步驟如下:

使用 Amazon SageMaker 建置視覺化 ETL 流程

使用 Amazon SageMaker Unified Studio 工作流程,您可以在 Amazon SageMaker Unified Studio 中設定和執行一系列任務。Amazon SageMaker Unified Studio 工作流程使用 Apache Airflow 來建立資料處理程序的模型,並協調您的 Amazon SageMaker Unified Studio 程式碼成品。如需詳細資訊,請參閱在 Amazon SageMaker Unified Studio 中使用工作流程