As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Detalhes do fluxo de trabalho do agente de solução de problemas do Spark
Para iniciar o processo de solução de problemas, você precisará acessar seus identificadores de aplicativos Spark com falha em execução em plataformas compatíveis (EMR-EC2, EMR Serverless AWS , Glue ou Amazon Data Notebooks). SageMaker O aplicativo deve ter registros acessíveis, Spark History Server e detalhes de configuração. Certifique-se de ter as permissões necessárias para acessar os recursos da plataforma e os metadados do aplicativo. Depois que esses requisitos forem estabelecidos, você poderá enviar uma solicitação como a seguinte para iniciar o fluxo de trabalho de solução de problemas:
Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>
Nesse momento, o agente orquestrará a solução de problemas usando ferramentas especializadas. O fluxo de trabalho segue estas etapas:
-
Extração de recursos e criação de contexto: o agente coleta e analisa automaticamente os dados de telemetria do seu aplicativo Spark, incluindo registros do History Server, configurações e rastreamentos de erros. Você verá a ferramenta reunindo informações sobre métricas de desempenho, padrões de utilização de recursos e assinaturas de falhas.
-
Análise e identificação da causa raiz: o agente aproveita os modelos de IA e a base de conhecimento do Spark para correlacionar os recursos extraídos e identificar as causas-raiz de problemas ou falhas de desempenho. Você receberá:
-
Analysis Insights: detalhes técnicos sobre o que o agente descobriu e analisou.
-
Causa raiz: explicação clara do que deu errado e por quê.
-
Avaliação inicial: se o problema estiver relacionado ao código, à configuração ou aos recursos, algumas orientações e análises gerais serão fornecidas para mitigação.
-
-
Recomendações de código (se aplicável): se a análise identificar problemas relacionados ao código com base na classificação do erro, o agente pode sugerir o uso da ferramenta de recomendação de código para fornecer recomendações específicas para implementar a correção de código recomendada com o before/after código exato junto com as substituições sugeridas.
O processo de solução de problemas é iterativo: você pode continuar a conversa para se aprofundar em problemas específicos; você também pode usar as ferramentas de forma interativa em nosso desenvolvimento de código Spark local para resolver bugs de código ou melhorar seu código continuamente.