Detalhes do fluxo de trabalho do agente de solução de problemas do Spark - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Detalhes do fluxo de trabalho do agente de solução de problemas do Spark

Para iniciar o processo de solução de problemas, você precisará acessar seus identificadores de aplicativos Spark com falha em execução em plataformas compatíveis (EMR-EC2, EMR Serverless AWS , Glue ou Amazon Data Notebooks). SageMaker O aplicativo deve ter registros acessíveis, Spark History Server e detalhes de configuração. Certifique-se de ter as permissões necessárias para acessar os recursos da plataforma e os metadados do aplicativo. Depois que esses requisitos forem estabelecidos, você poderá enviar uma solicitação como a seguinte para iniciar o fluxo de trabalho de solução de problemas:

Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>

Nesse momento, o agente orquestrará a solução de problemas usando ferramentas especializadas. O fluxo de trabalho segue estas etapas:

  1. Extração de recursos e criação de contexto: o agente coleta e analisa automaticamente os dados de telemetria do seu aplicativo Spark, incluindo registros do History Server, configurações e rastreamentos de erros. Você verá a ferramenta reunindo informações sobre métricas de desempenho, padrões de utilização de recursos e assinaturas de falhas.

  2. Análise e identificação da causa raiz: o agente aproveita os modelos de IA e a base de conhecimento do Spark para correlacionar os recursos extraídos e identificar as causas-raiz de problemas ou falhas de desempenho. Você receberá:

    • Analysis Insights: detalhes técnicos sobre o que o agente descobriu e analisou.

    • Causa raiz: explicação clara do que deu errado e por quê.

    • Avaliação inicial: se o problema estiver relacionado ao código, à configuração ou aos recursos, algumas orientações e análises gerais serão fornecidas para mitigação.

  3. Recomendações de código (se aplicável): se a análise identificar problemas relacionados ao código com base na classificação do erro, o agente pode sugerir o uso da ferramenta de recomendação de código para fornecer recomendações específicas para implementar a correção de código recomendada com o before/after código exato junto com as substituições sugeridas.

O processo de solução de problemas é iterativo: você pode continuar a conversa para se aprofundar em problemas específicos; você também pode usar as ferramentas de forma interativa em nosso desenvolvimento de código Spark local para resolver bugs de código ou melhorar seu código continuamente.