Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Características y capacidades
Tecnologías compatibles
-
Lenguajes: aplicaciones Python y Scala
-
Sistemas de compilación: Maven y SBT para proyectos de Scala; requirements.txt, Pipfile y Setuptools para proyectos de Python
-
Plataformas de destino: Amazon EMR y EMR Serverless
-
Versiones compatibles: Admitimos las actualizaciones de Apache Spark de la versión 2.4 a la 3.5. Los mapeos de modos de despliegue correspondientes son los siguientes
-
Para EMR- EC2
-
Versión de origen: EMR 5.20.0 y versiones posteriores
-
Versión de destino: EMR 7.12.0 y versiones anteriores, deberían ser más recientes que EMR 5.20.0
-
-
Para EMR Serverless
-
Versión de origen: EMR Serverless 6.6.0 y versiones posteriores
-
Versión de destino: EMR Serverless 7.12.0 y versiones anteriores
-
-
¿Qué actualizamos
El agente de actualizaciones proporciona actualizaciones completas de las aplicaciones de Spark:
-
Configuración de compilación: actualiza automáticamente los archivos de administración de dependencias (pom.xml, requirements.txt, etc.)
-
Código fuente: corrige los problemas de compatibilidad de las API y el uso de métodos obsoletos
-
Código de prueba: garantiza que las pruebas unitarias y de integración funcionen con la versión de Spark de destino
-
Dependencias: actualiza las dependencias empaquetadas a versiones compatibles con la versión EMR de destino
-
Validación: compila y valida las aplicaciones en los clústeres de EMR de destino
-
Análisis de la calidad de los datos: detecta las diferencias de esquema, las desviaciones estadísticas a nivel de valor (min/max/mean) y los desajustes en el recuento de filas agregado, con informes de impacto detallados.
Regiones disponibles
El agente de actualizaciones de Spark está disponible en las siguientes regiones:
-
Asia-Pacífico: Tokio (ap-northeast-1), Seúl (ap-northeast-2), Singapur (ap-southeast-1), Sídney (ap-southeast-2) y Bombay (ap-south-1)
-
América del Norte: Canadá (ca-central-1)
-
Europa: Estocolmo (eu-north-1), Irlanda (eu-west-1), Londres (eu-west-2), París (eu-west-3) y Frankfurt (eu-central-1)
-
América del Sur: São Paulo (sa-east-1)
-
Estados Unidos: norte de Virginia (us-east-1), Ohio (us-east-2) y Oregón (us-west-2)
Alcance de las actualizaciones y requisitos de usuario
-
Administración de clústeres: Spark Upgrade Agent se centra en las actualizaciones del código de las aplicaciones. Los usuarios deben crear y administrar los clústeres de EMR de destino para las nuevas versiones.
-
Acciones de Bootstrap: El agente de actualización de Spark no actualiza los scripts de bootstrap personalizados fuera del código de la aplicación Spark. El usuario debe actualizarlos.
-
Actualización para compilar y probar: el agente de actualización realizará las pruebas de integración y unidad en el entorno de desarrollo de forma local para comprobar que las aplicaciones se compilan correctamente con la versión de Spark de destino. Si tiene restricciones (políticas de seguridad, limitaciones de recursos, restricciones de red o directrices corporativas) para el código de la aplicación Spark para su ejecución local, considere la posibilidad de utilizar Amazon SageMaker Unified Studio VSCode IDE Spaces o EC2 ejecutar el agente de actualización. El agente de actualización utiliza el EC2 clúster EMR o las aplicaciones EMR-S de destino para validar y actualizar. end-to-end
-
Enfoque basado en errores: el agente de actualización utiliza una metodología basada en errores y realiza las correcciones una a la vez en función de los errores de compilación o tiempo de ejecución, en lugar de realizar varias correcciones a la vez. Este enfoque iterativo garantiza que cada problema se aborde adecuadamente antes de pasar al siguiente.
-
Dependencias privadas: las dependencias instaladas desde repositorios de artefactos privados no se pueden actualizar automáticamente como parte de este proceso. El usuario debe actualizarlas.
-
Recursos regionales: el agente de actualización de Spark es regional y utiliza los recursos EMR subyacentes de esa región para el proceso de actualización. No se admiten las actualizaciones entre regiones.