什麼是適用於 Amazon EMR 的 Apache Spark 故障診斷代理程式 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

什麼是適用於 Amazon EMR 的 Apache Spark 故障診斷代理程式

簡介

Amazon EMR 專用 Apache Spark 疑難排解代理程式是一種對話式 AI 功能,可簡化 Amazon EMR、 AWS Glue 和 Amazon SageMaker 筆記本上 Apache Spark 應用程式的疑難排解。傳統 Spark 疑難排解需要對日誌、效能指標和錯誤模式進行廣泛的手動分析,以識別根本原因和程式碼修正。代理程式透過自然語言提示、自動化工作負載分析和智慧型程式碼建議來簡化此程序。

您可以使用代理程式對 PySpark 和 Scala 應用程式失敗進行故障診斷。代理程式會分析失敗的任務、識別效能瓶頸,並提供可行的建議和程式碼修正,同時讓您完全控制實作決策。

架構概觀

故障診斷代理程式有三個主要元件:開發環境中與 MCP 相容的互動 AI 助理、處理用戶端 AWS 和服務之間安全通訊和身分驗證的 MCP Proxy AWS,以及為 Amazon EMR、Glue 和 Amazon SageMaker Notebooks 提供專用 Spark 故障診斷工具的 Amazon SageMaker Unified Studio Remote MCP Server。 (preview) AWS Amazon SageMaker 此圖表說明如何透過 AI 助理與 Amazon SageMaker Unified Studio 遠端 MCP 伺服器互動。

Spark 疑難排解代理程式架構。

AI 助理將依照下列步驟,使用 MCP 伺服器提供的專用工具來協調故障診斷:

  • 功能擷取和內容建置:代理程式會自動從 Spark 應用程式收集和分析遙測資料,包括 Spark 歷史記錄伺服器日誌、組態設定和錯誤追蹤。它會擷取關鍵效能指標、資源使用率模式和失敗簽章,以建立全方位的內容描述檔,以進行智慧型故障診斷。

  • GenAI 根本原因分析器和建議引擎:代理程式利用 AI 模型和 Spark 知識庫來關聯擷取的功能,並識別效能問題或故障的根本原因。它提供 Spark 應用程式執行中發生錯誤的診斷洞察和分析。

  • GenAI Spark 程式碼建議:根據上一個步驟的根本原因分析,代理程式會分析您現有的程式碼模式,並識別需要修正應用程式失敗程式碼的效率低下操作。它提供可行的建議,包括特定的程式碼修改、組態調整和具有具體範例的架構改進。