Spark 故障排除代理工作流程详情 - Amazon EMR

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Spark 故障排除代理工作流程详情

要启动故障排除流程,您需要访问在支持的平台(EMR-EC2、EMR Serverless、Glue 或 Amazon 数据笔记本)上运行的失败的 Spark 应用程序标识符。 AWS SageMaker 应用程序应具有可访问的日志、Spark 历史服务器和配置详细信息。确保您拥有访问平台资源和应用程序元数据的必要权限。确定这些要求后,您可以提交如下提示以启动故障排除工作流程:

Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>

此时,代理将使用专门的工具协调故障排除。工作流程遵循以下步骤:

  1. 功能提取和上下文构建:代理自动收集和分析来自 Spark 应用程序的遥测数据,包括历史服务器日志、配置设置和错误跟踪。您将看到该工具收集有关性能指标、资源利用模式和故障签名的信息。

  2. 分析和根本原因识别:代理利用 AI 模型和 Spark 知识库来关联提取的特征并确定性能问题或故障的根本原因。你会收到:

    • 分析见解:有关代理发现和分析内容的技术细节。

    • 根本原因:清楚地解释出了什么问题和原因。

    • 初步评估:无论问题与代码相关、配置相关还是资源相关,都将提供一些一般指导和分析以缓解措施。

  3. 代码建议(如果适用):如果分析根据错误分类发现了与代码相关的问题,则工程师可以建议利用代码推荐工具提供具体建议,以使用精确的代码和建议的替换来实施建议的 before/after 代码修复。

故障排除过程是迭代的,您可以继续对话以更深入地研究具体问题;您还可以在我们的本地 Spark 代码开发中以交互方式使用这些工具来解决代码错误或持续改进代码。