詳細資訊中的 Spark 對客服人員工作流程進行故障診斷 - Amazon EMR

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

詳細資訊中的 Spark 對客服人員工作流程進行故障診斷

若要啟動疑難排解程序,您將需要存取在支援平台 (EMR-EC2、EMR Serverless、 AWS Glue 或 Amazon SageMaker Data Notebooks) 上執行的失敗 Spark 應用程式識別符。應用程式應具有可存取的日誌、Spark 歷史記錄伺服器和組態詳細資訊。確保您擁有存取平台資源和應用程式中繼資料的必要許可。建立這些要求後,您可以提交如下所示的提示,以啟動故障診斷工作流程:

Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>

此時,代理程式將使用專用工具協調故障診斷。工作流程遵循下列步驟:

  1. 功能擷取和內容建置:代理程式會自動從 Spark 應用程式收集和分析遙測資料,包括歷史記錄伺服器日誌、組態設定和錯誤追蹤。您將看到工具收集有關效能指標、資源使用率模式和失敗簽章的資訊。

  2. 分析和根本原因識別: 代理程式利用 AI 模型和 Spark 知識庫來關聯擷取的功能,並識別效能問題或失敗的根本原因。您將會收到:

    • Analysis Insights:客服人員探索和分析內容的技術詳細資訊。

    • 根本原因:明確說明發生錯誤和原因。

    • 初始評估:無論問題是程式碼相關、組態相關還是資源相關,都會為緩解提供一些一般指導和分析。

  3. 程式碼建議 (如適用):如果分析根據錯誤分類識別與程式碼相關的問題,客服人員可以建議利用程式碼建議工具提供特定建議,以實作建議的程式碼修正,以及確切的程式碼之前/之後以及建議的替換。

疑難排解程序是反覆進行的 - 您可以繼續對話,深入探討特定問題;您也可以在我們的本機 Spark 程式碼開發中以互動方式使用這些工具來解決程式碼錯誤或持續改善程式碼。