Détails du flux de travail de l'agent Spark Upgrade

Pour lancer le processus de mise à niveau, vous aurez besoin du code de l'application Spark cloné dans votre environnement de développement (localement ou EC2 ou Amazon SageMaker Unified Studio IDE Spaces), de préférence avec le contrôle de version Git initialisé. En outre, un cluster EMR exécutant la version cible de Spark doit être provisionné et accessible. Enfin, un chemin de compartiment Amazon S3 désigné doit être configuré pour stocker les artefacts de déploiement et le résumé de la mise à niveau tout au long du processus de mise à niveau.

Une fois ces exigences établies, vous pouvez envoyer une invite comme celle-ci pour lancer le flux de travail de mise à niveau :


Upgrade my Spark application <local-project-path> from EMR version 6.0.0 to 7.12.0.   
Use EMR-EC2 Cluster <cluster-id> to run the validation and s3 paths   
s3://<please fill in your staging bucket path> to store updated application artifacts.

À ce stade, l'agent va orchestrer la mise à niveau à l'aide d'outils spécialisés (pour plus de détails). Le flux de travail suit les étapes suivantes :

Générer un plan : l'agent analysera la structure de votre projet et générera un plan de mise à niveau. Passez en revue le plan et donnez votre consentement pour continuer.
Révision et personnalisation du plan : Lorsque vous êtes invité à revoir le plan, plusieurs options s'offrent à vous :
1. Procéder tel quel : accepter le plan et poursuivre l'exécution
2. Faites-nous part de vos commentaires : personnalisez le plan en :
  1. Supprimer les étapes inutiles - Exemple : supprimez toute exécution de test d'intégration. Uniquement compile/build localement, puis passez à la validation EMR.
  2. Ajout d'étapes supplémentaires - Exemple : ajoutez une étape pour exécuter le fichier de test tests/test_jobs/test_etl_job_x.py avant la validation EMR.
  3. Modification de l'approche de mise à niveau - Exemple : appliquez Python 3.10 et Java 17 pendant les étapes de compilation et de validation.
L'agent régénérera le plan en fonction de vos commentaires et vous demandera à nouveau votre consentement. Ce processus se poursuit jusqu'à ce que vous approuviez le plan final
Compiler et compiler : l'agent apportera des modifications itératives pour corriger les erreurs de compilation jusqu'à ce que l'application soit compilée et compilée avec succès.
Exécuter des tests unitaires et d'intégration : si le projet comporte des tests, l'agent exécutera les tests après une compilation réussie. Si l'un des tests échoue, l'agent modifiera le code source de manière itérative jusqu'à ce que les tests soient réussis avant de procéder à la validation EMR.
Correctifs d'exécution et validation : l'agent validera l'application sur le cluster EMR cible et corrigera de manière itérative les erreurs d'exécution jusqu'à ce que la validation soit réussie. Une fois terminé, vous verrez un résumé de toutes les modifications apportées pour des raisons de compatibilité.
Résumé de la mise à niveau : une fois la mise à niveau terminée, l'agent vous fournira un résumé de toutes les modifications de code et de configuration, des mises à jour des versions de dépendance et de toutes les incohérences détectées en matière de qualité des données pour examen.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Résolution des problèmes et questions et réponses

Activer la validation de la qualité des données