Más detalles sobre el flujo de trabajo del agente de solución de problemas - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Más detalles sobre el flujo de trabajo del agente de solución de problemas

Para iniciar el proceso de solución de problemas, necesitarás acceder a los identificadores de la aplicación Spark defectuosa que se ejecutan en las plataformas compatibles (EMR-EC2, EMR Serverless, AWS Glue o SageMaker Amazon Data Notebooks). La aplicación debe tener registros accesibles, un servidor de historial de Spark y detalles de configuración. Asegúrese de tener los permisos necesarios para acceder a los recursos de la plataforma y a los metadatos de la aplicación. Una vez establecidos estos requisitos, puede enviar un mensaje como el siguiente para iniciar el flujo de trabajo de solución de problemas:

Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>

En este punto, el agente organizará la solución de problemas mediante herramientas especializadas. El flujo de trabajo sigue estos pasos:

  1. Extracción de funciones y creación de contexto: el agente recopila y analiza automáticamente los datos de telemetría de tu aplicación Spark, incluidos los registros del History Server, los ajustes de configuración y las trazas de errores. Verás que la herramienta recopila información sobre las métricas de rendimiento, los patrones de uso de los recursos y las firmas de fallos.

  2. Análisis e identificación de la causa raíz: el agente aprovecha los modelos de IA y la base de conocimientos de Spark para correlacionar las funciones extraídas e identificar las causas fundamentales de los problemas o fallos de rendimiento. Recibirás:

    • Información sobre el análisis: detalles técnicos sobre lo que el agente descubrió y analizó.

    • Causa raíz: explicación clara de lo que salió mal y por qué.

    • Evaluación inicial: ya sea que el problema esté relacionado con el código, la configuración o los recursos, se proporcionarán algunas directrices y análisis generales para mitigarlo.

  3. Recomendaciones de código (si corresponde): si el análisis identifica problemas relacionados con el código en función de la clasificación de errores, el agente puede sugerirle que utilice la herramienta de recomendación de código para ofrecer recomendaciones específicas con el fin de implementar la corrección de código recomendada con el código exacto y sugerencias de reemplazo. before/after

El proceso de solución de problemas es iterativo: puedes continuar la conversación para profundizar en problemas específicos. También puedes usar las herramientas de forma interactiva en nuestro equipo local de desarrollo de código de Spark para corregir los errores de código o mejorar tu código de forma continua.