Le flux de travail des agents de dépannage de Spark en détail - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Le flux de travail des agents de dépannage de Spark en détail

Pour lancer le processus de dépannage, vous devez accéder aux identifiants de vos applications Spark défaillantes exécutées sur des plateformes compatibles (EMR-EC2, EMR Serverless, AWS Glue ou SageMaker Amazon Data Notebooks). L'application doit disposer de journaux accessibles, d'un serveur d'historique Spark et de détails de configuration. Assurez-vous de disposer des autorisations nécessaires pour accéder aux ressources de la plateforme et aux métadonnées des applications. Une fois ces exigences établies, vous pouvez envoyer une invite telle que la suivante pour lancer le processus de résolution des problèmes :

Analyze my EMR step execution failure, EMR id <step-id> with cluster id <cluster-id>

À ce stade, l'agent va orchestrer le dépannage à l'aide d'outils spécialisés. Le flux de travail suit les étapes suivantes :

  1. Extraction de fonctionnalités et création de contexte : l'agent collecte et analyse automatiquement les données de télémétrie de votre application Spark, notamment les journaux du serveur d'historique, les paramètres de configuration et les traces d'erreurs. Vous verrez l'outil collecter des informations sur les indicateurs de performance, les modèles d'utilisation des ressources et les signatures d'échec.

  2. Analyse et identification des causes premières : l'agent utilise les modèles d'IA et la base de connaissances Spark pour corréler les fonctionnalités extraites et identifier les causes profondes des problèmes ou défaillances de performance. Vous recevrez :

    • Informations d'analyse : détails techniques sur ce que l'agent a découvert et analysé.

    • Cause première : Explication claire de ce qui s'est mal passé et pourquoi.

    • Évaluation initiale : que le problème soit lié au code, à la configuration ou aux ressources, des conseils et des analyses généraux seront fournis pour les atténuer.

  3. Recommandations relatives au code (le cas échéant) : si l'analyse identifie des problèmes liés au code sur la base de la classification des erreurs, l'agent peut suggérer de tirer parti de l'outil de recommandation de code pour fournir des recommandations spécifiques afin de mettre en œuvre le correctif de code recommandé avec le before/after code exact et les remplacements suggérés.

Le processus de résolution des problèmes est itératif : vous pouvez poursuivre la conversation pour approfondir des problèmes spécifiques ; vous pouvez également utiliser les outils de manière interactive dans le cadre de notre développement de code Spark local pour corriger des bogues de code ou améliorer votre code en permanence.