Qu'est-ce que l'agent de mise à niveau Apache Spark pour Amazon EMR - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Qu'est-ce que l'agent de mise à niveau Apache Spark pour Amazon EMR

Introduction

L'agent de mise à niveau Apache Spark pour Amazon EMR est une fonctionnalité d'intelligence artificielle conversationnelle qui accélère les mises à niveau des versions d'Apache Spark pour vos applications EMR. Les mises à niveau traditionnelles de Spark nécessitent des mois d'efforts d'ingénierie pour analyser les modifications des API, résoudre les conflits de dépendance et valider l'exactitude fonctionnelle. L'agent simplifie le processus de mise à niveau grâce à des instructions en langage naturel, à la transformation automatique du code et à la validation de la qualité des données.

Vous pouvez utiliser l'agent pour mettre à niveau PySpark les applications Scala s'exécutant sur Amazon EMR on EC2 et Amazon EMR Serverless. L'agent analyse votre code, identifie les modifications requises et effectue des transformations automatisées tout en gardant le contrôle de l'approbation de toutes les modifications.

Présentation de l'architecture

L'agent de mise à niveau comporte trois composants principaux : tout assistant AI compatible avec MCP présent dans votre environnement de développement pour l'interaction, le proxy MCP AWS qui gère les communications sécurisées entre votre client et le serveur MCP, et le serveur MCP géré par Amazon SageMaker Unified Studio (en version préliminaire) qui fournit des outils de mise à niveau Spark spécialisés pour Amazon EMR. Ce schéma illustre la manière dont vous interagissez avec le serveur MCP géré par Amazon SageMaker Unified Studio via votre assistant AI.

Agent de mise à niveau Apache Spark

L'assistant AI orchestrera la mise à niveau à l'aide d'outils spécialisés fournis par le serveur MCP en suivant les étapes suivantes :

  1. Planification : l'agent analyse la structure de votre projet et génère ou révise un plan de mise à niveau qui guide le processus de mise à niveau de end-to-end Spark.

  2. Compiler et compiler : l'agent met à jour l'environnement de construction et les dépendances, compile le projet et corrige de manière itérative les échecs de compilation et de test.

  3. Outils d'édition de code Spark : l'agent applique des mises à jour de code ciblées pour résoudre les incompatibilités entre les versions de Spark, en corrigeant à la fois les erreurs de compilation et d'exécution.

  4. Exécution et validation : l'agent soumet des tâches de validation à distance à EMR, surveille l'exécution et les journaux, et résout de manière itérative les problèmes d'exécution et de qualité des données.

  5. Observabilité : l'agent suit la progression de la mise à niveau à l'aide des outils d'observabilité EMR et permet aux utilisateurs de consulter les analyses et le statut des mises à niveau à tout moment.

Référez-vous Utilisation des outils de mise à niveau Spark à la liste des principaux outils pour chaque étape.