連線至資料 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

連線至資料

AWS Glue 連線是存放特定資料存放區的登入憑證、URI 字串、虛擬私有雲端 (VPC) 資訊等的資料型錄物件。AWS Glue 爬蟲程式、任務和開發端點會使用連線來存取某些類型的資料存放區。您可以針對來源和目標使用連線,並在多個爬蟲程式或擷取、轉換和載入 (ETL) 任務中重複使用相同的連線。

最新版本的 AWS Glue 連線結構描述提供統一的方式來管理跨 AWS 服務和應用程式的資料連線,例如 AWS Glue、 Amazon Athena 和 Amazon SageMaker AI Unified Studio。

使用連接器和連線的概觀

連線包含連到特定資料存放區所需的屬性。當您建立連線時,連線會儲存在 AWS Glue Data Catalog 中。您先選擇連接器,然後根據該連接器建立連線。

您可以在 AWS Marketplace 中訂閱非原生支援的資料存放區,然後在建立連線時使用這些連接器。開發人員也可以建立自己的連接器,而且您可以在建立連線時使用它們。

注意

在 AWS Glue Studio 中使用自訂或 AWS Marketplace 連接器建立的連線,會出現在 AWS Glue 主控台中,類型設定為 UNKNOWN

下列步驟說明在 AWS Glue Studio 中使用連接器的整體程序:

  1. 訂閱 AWS Marketplace 中的連接器,或者開發自己的連接器並將其上傳到 AWS Glue Studio。如需更多詳細資訊,請參閱 新增連接器至 AWS Glue Studio

  2. 檢閱連接器使用資訊。您可以在連接器產品頁面的 Usage (用途) 索引標籤上找到此資訊。例如,如果您按一下此產品頁面 AWS Glue Connector for Google BigQuery 上的 Usage (使用情況) 索引標籤,您會在 Additional Resources (其他資源) 區段看到有關使用此連接器的部落格連結。

  3. 建立連線。您可以選擇要使用哪個連接器,並提供連線的額外資訊,例如登入憑證、URI 字串和虛擬私有雲端 (VPC) 資訊。如需更多詳細資訊,請參閱 建立連接器的連線

  4. 為您的任務建立 IAM 角色。任務會承擔您在建立 IAM 角色時所指定的角色許可。這個 IAM 角色必須具有必要許可,才能對資料存放區進行驗證、從中擷取資料,以及寫入資料。

  5. 建立 ETL 任務並設定 ETL 任務的資料來源屬性。依照自訂連接器提供者的指示,提供連線選項和驗證資訊。如需更多詳細資訊,請參閱 使用自訂連接器建立任務

  6. 透過新增轉換或其他資料存放區來自訂您的 ETL 任務,如在 AWS Glue Studio 中啟動視覺化的 ETL 任務中所述。

  7. 如果將連接器用於資料目標,請為 ETL 任務設定資料目標屬性。依照自訂連接器提供者的指示,提供連線選項和驗證資訊。如需更多詳細資訊,請參閱 使用自訂連接器建立任務

  8. 藉由設定任務屬性來自訂任務執行環境,如修改任務屬性中所述。

  9. 執行任務。