本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
什麼是適用於 Amazon EMR 的 Apache Spark 故障診斷代理程式
簡介
Amazon EMR 專用 Apache Spark 疑難排解代理程式是一種對話式 AI 功能,可簡化 Amazon EMR、 AWS Glue 和 Amazon SageMaker 筆記本上 Apache Spark 應用程式的疑難排解。傳統 Spark 疑難排解需要對日誌、效能指標和錯誤模式進行廣泛的手動分析,以識別根本原因和程式碼修正。代理程式透過自然語言提示、自動化工作負載分析和智慧型程式碼建議來簡化此程序。
您可以使用代理程式對 PySpark 和 Scala 應用程式失敗進行故障診斷。代理程式會分析失敗的任務、識別效能瓶頸,並提供可行的建議和程式碼修正,同時讓您完全控制實作決策。
架構概觀
故障診斷代理程式有三個主要元件:開發環境中與 MCP 相容的互動 AI 助理、處理用戶端 AWS 和服務之間安全通訊和身分驗證的 MCP Proxy AWS(preview) AWS Amazon SageMaker 此圖表說明如何透過 AI 助理與 Amazon SageMaker Unified Studio 遠端 MCP 伺服器互動。
AI 助理將依照下列步驟,使用 MCP 伺服器提供的專用工具來協調故障診斷:
-
功能擷取和內容建置:代理程式會自動從 Spark 應用程式收集和分析遙測資料,包括 Spark 歷史記錄伺服器日誌、組態設定和錯誤追蹤。它會擷取關鍵效能指標、資源使用率模式和失敗簽章,以建立全方位的內容描述檔,以進行智慧型故障診斷。
-
GenAI 根本原因分析器和建議引擎:代理程式利用 AI 模型和 Spark 知識庫來關聯擷取的功能,並識別效能問題或故障的根本原因。它提供 Spark 應用程式執行中發生錯誤的診斷洞察和分析。
-
GenAI Spark 程式碼建議:根據上一個步驟的根本原因分析,代理程式會分析您現有的程式碼模式,並識別需要修正應用程式失敗程式碼的效率低下操作。它提供可行的建議,包括特定的程式碼修改、組態調整和具有具體範例的架構改進。