本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Glue 中 Apache Spark 的生成式 AI AWS 疑難排解
|
Apache Spark 預覽的生成式 AI 疑難排解適用於在 Glue 4.0 和 AWS Glue 5.0 AWS 上執行的任務,以及下列 AWS 區域: 美國東部 (維吉尼亞北部)、美國東部 (俄亥俄)、美國西部 (奧勒岡)、美國西部 (加利佛尼亞北部)、南美洲 (聖保羅)、加拿大 (中部)、歐洲 (愛爾蘭)、歐洲 (倫敦)、歐洲 (巴黎)、歐洲 (斯德哥爾摩)、歐洲 (米蘭)、歐洲 (法蘭克福)、中東 (巴林)、中東 (UAE)、非洲 (開普敦)、亞太地區 (東京)、亞太區域 (香港)、亞太地區 (孟買)、亞太地區 (新加坡)、亞太區域 (雅加達)、亞太地區 (首爾)、亞太區域 (大阪) 以及亞太地區 (雪梨)。 預覽功能可能會有所變更。 |
Glue 中 Apache Spark AWS 任務的生成式 AI 疑難排解是一項新功能,可協助資料工程師和科學家輕鬆診斷和修正 Spark 應用程式的問題。此功能利用機器學習和生成式 AI 技術,可分析 Spark 任務中的問題,並提供詳細的根本原因分析以及可行的建議來解決這些問題。
適用於 Apache Spark 的生成式 AI 疑難排解如何工作?
對於失敗的 Spark 任務,生成式 AI 疑難排解會分析任務中繼資料,以及與任務錯誤簽章相關聯的精確指標和日誌,以產生根本原因分析,並建議特定解決方案和最佳實務,以協助解決任務失敗。
針對您的任務設定適用於 Apache Spark 的生成式 AI 疑難排解
設定 IAM 許可權限
授予許可給 Glue 中任務的 Spark 故障診斷所使用的 APIs AWS ,需要適當的 IAM 許可。您可以將下列自訂 AWS 政策連接至 IAM 身分 (例如使用者、角色或群組) 來取得許可。
注意
在預覽期間,Spark 疑難排解沒有可透過 AWS SDK 以程式設計方式使用的 APIs。IAM 政策中使用下列兩個 APIs,透過 Glue Studio AWS 主控台啟用此體驗: StartCompletion和 GetCompletion。
指派權限
若要提供存取權,請新增權限至您的使用者、群組或角色:
-
對於 IAM Identity Center 中的使用者和群組:建立許可集。請按照《IAM Identity Center 使用者指南》中建立許可集的說明進行操作。
-
對於在 IAM 中透過身分提供者管理的使用者:建立聯合身分的角色。請按照《IAM 使用者指南》的為第三方身分提供者 (聯合) 建立角色中的指示進行操作。
-
對於 IAM 使用者:建立您的使用者可擔任的角色。請按照《IAM 使用者指南》的為 IAM 使用者建立角色中的指示進行操作。
從失敗的任務執行中執行疑難排解分析
您可以透過 Glue AWS 主控台中的多個路徑存取故障診斷功能。以下是如何開始:
選項 1:從「任務清單」頁面中
-
開啟 AWS 位於 https://https://console.aws.amazon.com/glue/
的 Glue 主控台。 -
在導覽窗格中,選擇 ETL 任務。
-
在任務清單中找到失敗的任務。
-
在任務詳細資訊區段中選取執行索引標籤。
-
按一下您要分析的失敗任務執行。
-
選擇使用 AI 進行疑難排解以開始分析。
-
疑難排解分析完成後,可以在畫面底部的疑難排解分析索引標籤中檢視根本原因分析和建議。
選項 2:使用「任務執行監控」頁面
-
導覽至任務執行監控頁面。
-
找到失敗的任務執行。
-
選擇動作下拉式功能表。
-
選擇使用 AI 進行故障診斷。
選項 3:從「任務執行詳細資訊」頁面中
-
按一下執行索引標籤中失敗執行的檢視詳細資訊,或在任務執行監控頁面中選取任務執行,導覽至失敗任務執行的詳細資訊頁面。
-
在任務執行詳細資訊頁面中,找到疑難排解分析索引標籤。
支援的疑難排解類別 (預覽)
此服務著重於資料工程師和開發人員在其 Spark 應用程式中經常遇到的三個主要問題類別:
-
資源設定和存取錯誤:在 Glue AWS 中執行 Spark 應用程式時,資源設定和存取錯誤是最常診斷但具挑戰性的問題之一。當您的 Spark 應用程式嘗試與 AWS 資源互動,但遇到許可問題、資源遺失或組態問題時,通常會發生這些錯誤。
-
Spark 驅動程式和執行器記憶體問題:Apache Spark 任務中的記憶體相關錯誤的診斷和解決可能很複雜。當資料處理要求超過驅動程式節點或執行器節點上可用的記憶體資源時,這些錯誤通常會顯現出來。
-
Spark 磁碟容量問題:Glue Spark 任務中的儲存相關錯誤通常會在隨機播放操作、資料溢出或處理大規模資料轉換時出現。 AWS 這些錯誤可能特別棘手,因為其可能會在您的任務執行一段時間後才會顯現,因此可能會浪費寶貴的運算時間和資源。
注意
在生產環境中實作任何建議的變更之前,請徹底檢閱建議的變更。此服務會根據模式和最佳實務提供建議,但您的特定使用案例可能需要其他考量。