O que é o agente de solução de problemas do Apache Spark para Amazon EMR - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O que é o agente de solução de problemas do Apache Spark para Amazon EMR

Introdução

O agente de solução de problemas do Apache Spark para Amazon EMR é um recurso de IA conversacional que simplifica a solução de problemas de aplicativos Apache Spark no Amazon EMR, Glue e Amazon Notebooks. AWS SageMaker A solução de problemas tradicional do Spark exige uma ampla análise manual de registros, métricas de desempenho e padrões de erro para identificar as causas principais e as correções de código. O agente simplifica esse processo por meio de solicitações em linguagem natural, análise automatizada da carga de trabalho e recomendações inteligentes de código.

Você pode usar o agente para solucionar problemas PySpark e falhas nos aplicativos Scala. O agente analisa seus trabalhos fracassados, identifica gargalos de desempenho e fornece recomendações práticas e correções de código, ao mesmo tempo em que oferece controle total sobre as decisões de implementação.

Visão geral da arquitetura

O agente de solução de problemas tem três componentes principais: um assistente de IA compatível com MCP em seu ambiente de desenvolvimento para interação, o MCP Proxy, AWS que gerencia a comunicação e a autenticação seguras entre seu cliente e os AWS serviços, e o servidor MCP remoto do Amazon SageMaker Unified Studio, (preview) que fornece ferramentas especializadas de solução de problemas do Spark para Amazon EMR, Glue e Amazon Notebooks. AWS SageMaker Este diagrama ilustra como você interage com o servidor MCP remoto do Amazon SageMaker Unified Studio por meio do seu assistente de IA.

Arquitetura do agente de solução de problemas do Spark.

O assistente de IA orquestrará a solução de problemas usando ferramentas especializadas fornecidas pelo servidor MCP seguindo estas etapas:

  • Extração de recursos e criação de contexto: o agente coleta e analisa automaticamente os dados de telemetria do seu aplicativo Spark, incluindo registros do Spark History Server, configurações e rastreamentos de erros. Ele extrai as principais métricas de desempenho, padrões de utilização de recursos e assinaturas de falhas para criar um perfil de contexto abrangente para solução inteligente de problemas.

  • Analisador de causas raiz e mecanismo de recomendação GenAI: o agente aproveita os modelos de IA e a base de conhecimento do Spark para correlacionar os recursos extraídos e identificar as causas-raiz de problemas ou falhas de desempenho. Ele fornece informações de diagnóstico e análise do que deu errado na execução do aplicativo Spark.

  • Recomendação de código GenAI Spark: Com base na análise da causa raiz da etapa anterior, o agente analisa seus padrões de código existentes e identifica operações ineficientes que precisam de correções de código para falhas de aplicativos. Ele fornece recomendações práticas, incluindo modificações de código específicas, ajustes de configuração e melhorias arquitetônicas com exemplos concretos.