AWS Glue 中的 Amazon Q 資料整合 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS Glue 中的 Amazon Q 資料整合

AWS Glue 中的 Amazon Q 資料整合是新的 AWS Glue 生成式 AI 功能,可讓資料工程師和 ETL 開發人員使用自然語言建置資料整合作業。工程師和開發人員可以讓 Amazon Q 編寫任務、疑難排解問題,以及回答與 AWS Glue 和資料整合有關的問題。

什麼是 Amazon Q?

注意

由 Amazon Bedrock 提供支援:AWS 實作動自執行濫用偵測。因為 Amazon Q 資料整合是建立在 Amazon Bedrock 的基礎上,所以使用者可以充分利用 Amazon Bedrock 中實作的控制措施,強制執行人工智慧 (AI) 的安全、保障和負責任使用目標。

Amazon Q 是採用生成式人工智慧 (AI) 技術的對話式助理,可協助您了解、建置、擴展和操作 AWS 應用程式。支援 Amazon Q 的模型已擴增高品質 AWS 內容,以產生更完整、切實可行且值得參考的答案,從而加速在 AWS 上的建置。如需詳細資訊,請參閱什麼是 Amazon Q?

AWS Glue 中的 Amazon Q 資料整合是什麼?

AWS Glue 中的 Amazon Q 資料整合包括下列功能:

  • 聊天:AWS Glue 中的 Amazon Q 資料整合可以用英文回答與 AWS Glue 和資料整合網域相關的自然語言問題,例如 AWS Glue 來源和目的地連接器、AWS Glue ETL 作業、資料型錄、爬蟲程式和 AWS Lake Formation,以及其他功能文件與最佳實務。AWS Glue 中的 Amazon Q 資料整合會以逐步指示作出回應,並包含對其資訊來源的參考。

  • 資料整合程式碼產生:AWS Glue 中的 Amazon Q 資料整合可以回答與 AWS Glue ETL 指令碼相關的問題,並根據以英文提出的自然語言問題產生新程式碼。

  • 疑難排解:AWS Glue 中的 Amazon Q 資料整合旨在協助您了解 AWS Glue 任務中的錯誤,提供逐步指示來找出根本原因並解決問題。

注意

AWS Glue 中的 Amazon Q 資料整合不會在對話期間使用交談內容為未來的回應提供資訊。與 AWS Glue 中的 Amazon Q 資料整合的每次交談都與您先前或未來的交談無關。

是否使用 AWS Glue 中的 Amazon Q 資料整合?

在 Amazon Q 面板中,可以請求 Amazon Q 為 AWS Glue ETL 指令碼產生程式碼,或回答有關 AWS Glue 功能的問題或對錯誤進行疑難排解。回應是 PySpark 中的 ETL 指令碼,並提供逐步指示來自訂、檢閱和執行指令碼。系統會根據資料整合知識庫產生對問題的回應,其中包含摘要和來源 URL 以供參考。

例如,可以要求 Amazon Q 「請提供可從 Snowflake 中進行讀取、重新命名欄位和寫入到 Redshift 的 Glue 指令碼」,作為回應,AWS Glue 中的 Amazon Q 資料整合將傳回可執行所請求動作的 AWS Glue 任務指令碼。您可以檢閱產生的程式碼,確保其符合請求的意圖。如果滿足,您可以在生產環境中將其部署為 AWS Glue 任務。您可以要求整合解釋錯誤和失敗,並提出解決方案,藉此疑難排解作業。Amazon Q 可以回答與 AWS Glue 或資料整合最佳實務的相關問題。

使用 AWS Glue 中的 Amazon Q 資料整合的範例。

以下為示範 AWS Glue 中的 Amazon Q 資料整合如何協助您在 AWS Glue 進行建置的範例問題:

AWS Glue ETL 程式碼產生:

  • 撰寫可從 S3 讀取 JSON、使用套用映射轉換欄位並寫入 Amazon Redshift 的 AWS Glue 指令碼

  • 如何撰寫可從 DynamoDB 讀取資料、套用 DropNullFields 轉換並以 Parquet 格式寫入 S3 的 AWS Glue 指令碼?

  • 給我一個從 MySQL 讀取資料、根據業務邏輯刪除一些欄位並寫入 Snowflake 的 AWS Glue 指令碼

  • 撰寫可從 DynamoDB 讀取資料並以 JSON 格式寫入 S3 的 AWS Glue 作業

  • 協助我開發 AWS Glue Data Catalog 到 S3 的 AWS Glue 指令碼

  • 撰寫可從 S3 讀取 JSON、刪除 Null 值並寫入 Redshift 的 AWS Glue 作業

AWS Glue 功能說明:

  • 如何使用 AWS Glue Data Quality?

  • 如何使用 AWS Glue 作業書籤?

  • 如何啟用 AWS Glue 自動擴展?

  • AWS Glue 動態框架和 Spark 資料框架有何區別?

  • AWS Glue 支援哪些不同類型的連線?

對 AWS Glue 進行疑難排解:

  • 如何針對 AWS Glue 作業上記憶體不足 (OOM) 錯誤進行疑難排解?

  • 設定 AWS Glue Data Quality 時,您可能會看到哪些錯誤訊息,以及如何修正這些錯誤訊息?

  • 如何解決出現 Amazon S3 存取遭拒錯誤的 AWS Glue 作業?

  • 如何解決 AWS Glue 作業資料隨機顯示的問題?

與 Amazon Q 資料整合互動的最佳實務

以下是與 Amazon Q 資料整合互動的最佳實務:

  • 與 Amazon Q 資料整合互動時,請提出特定問題,在有複雜的請求時反覆運算,並驗證答案的準確性。

  • 以自然語言提供資料整合時,請盡可能具體地協助助理了解您需要的內容。請提供更多詳細資訊,例如「撰寫從 S3 中擷取 JSON 檔案的 AWS Glue 指令碼」,而非詢問「從 S3 擷取資料」。

  • 執行產生的指令碼之前,請先進行檢閱以確保準確性。如果產生的指令碼有錯誤或不符合您的意圖,請提供指示給助理,說明如何更正。

  • 生成式 AI 技術是一種新穎的技術,在反應中可能會出現錯誤,有時也稱為幻覺。在您的環境或工作負載中使用之前,請先測試並檢閱所有程式碼是否有錯誤和漏洞。

AWS Glue 服務改善中的 Amazon Q 資料整合

為了協助 AWS Glue 中的 Amazon Q 資料整合,請提供有關 AWS 服務的最相關資訊,我們可能會使用 Amazon Q 中的特定內容,例如您向 Amazon Q 提出的問題及其回應,藉此改善服務。

如需有關我們使用哪些內容以及如何選擇退出的資訊,請參閱《Amazon Q Developer 使用者指南》中的 Amazon Q Developer 服務改善

考量事項

使用 AWS Glue 中的 Amazon Q 資料整合之前,請考慮下列項目:

  • 目前,程式碼產生僅適用於 PySpark 核心。產生的程式碼適用於以 Python Spark 為基礎的 AWS Glue 作業。

  • 如需 AWS Glue 中 Amazon Q 資料整合的受支援程式碼產生功能組合詳細資訊,請參閱 支援的程式碼產生功能