本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
什么是 Amazon EMR 的 Apache Spark 故障排除代理
简介
适用于亚马逊 EMR 的 Apache Spark 故障排除代理是一项对话式 AI 功能,可简化亚马逊 EMR、 AWS Glue 和亚马逊笔记本上 Apache Spark 应用程序的故障排除。 SageMaker 传统的 Spark 故障排除需要对日志、性能指标和错误模式进行大量手动分析,以确定根本原因和代码修复。代理通过自然语言提示、自动工作负载分析和智能代码建议来简化此过程。
您可以使用代理来排除故障 PySpark 和 Scala 应用程序故障。代理会分析您失败的作业,识别性能瓶颈,并提供可行的建议和代码修复,同时让您完全控制实施决策。
架构概述
故障排除代理有三个主要组件:开发环境中用于交互的兼容 MCP 的人工智能助手、用于处理客户端与 AWS 服务之间安全通信和身份验证的 MCP 代理,以及为 AWS(preview)。 AWS SageMaker 下图说明了你如何通过 AI Assistant 与 Amazon SageMaker Unified Studio 远程 MCP 服务器进行交互。
AI 助手将按照以下步骤使用 MCP 服务器提供的专用工具来协调故障排除:
-
功能提取和上下文构建:代理自动收集和分析来自 Spark 应用程序的遥测数据,包括 Spark History Server 日志、配置设置和错误跟踪。它提取关键性能指标、资源利用率模式和故障签名,为智能故障排除构建全面的上下文配置文件。
-
GenAI 根本原因分析器和推荐引擎:该代理利用 AI 模型和 Spark 知识库来关联提取的特征并确定性能问题或故障的根本原因。它提供诊断见解和分析 Spark 应用程序执行中出了什么问题。
-
GenAI Spark 代码建议:根据上一步中的根本原因分析,代理会分析您现有的代码模式,并确定需要修复应用程序故障代码的低效操作。它提供了切实可行的建议,包括具体的代码修改、配置调整和架构改进,并附有具体的示例。