Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Investigación de problemas de rendimiento mediante la IU de Spark
Antes de aplicar las prácticas recomendadas para ajustar el rendimiento de sus trabajos de AWS Glue, le recomendamos encarecidamente que perfile el rendimiento e identifique los cuellos de botella. Esto lo ayudará a centrarse en los aspectos correctos.
Para un análisis rápido, las métricas de Amazon CloudWatch proporcionan una vista básica de las métricas de sus trabajos. La IU de Spark proporciona una visión más detallada para ajustar el rendimiento. Para usar la IU de Spark con AWS Glue, debe habilitarla para sus trabajos de AWS Glue. Una vez que se familiarice con la IU de Spark, siga las estrategias para ajustar el rendimiento de los trabajos de Spark a fin de identificar y reducir el impacto de los cuellos de botella en función de sus resultados.
Identificación de cuellos de botella mediante la IU de Spark
Al abrir la IU de Spark, las aplicaciones de Spark aparecen en una tabla. De forma predeterminada, el nombre de la aplicación de un trabajo de AWS Glue es nativespark-<Job
Name>-<Job Run ID>. Elija la aplicación de Spark de destino en función del ID de ejecución del trabajo para abrir la pestaña Trabajos. Las ejecuciones de trabajos incompletas, como las ejecuciones de trabajos de transmisión, aparecen en Mostrar solicitudes incompletas.
En la pestaña Trabajos se muestra un resumen de todos los trabajos de la aplicación de Spark. Para determinar los errores de alguna etapa o tarea, compruebe el número total de tareas. Para encontrar los cuellos de botella, elija Duración para ordenarlos. Consulte los detalles de los trabajos de larga duración; para ello, seleccione el enlace que se muestra en la columna Descripción.
En la página Detalles del trabajo se muestran las etapas. En esta página, puede ver información general, como la duración, el número de tareas completadas correctamente y el total, el número de entradas y salidas, y la cantidad de lecturas y escrituras de mezclas.
En la pestaña Ejecutor se muestra en detalle la capacidad de los clústeres de Spark. Puede consultar el número total de núcleos. El clúster que se muestra en la siguiente captura de pantalla contiene 316 núcleos activos y 512 núcleos en total. De forma predeterminada, cada núcleo puede procesar una tarea de Spark al mismo tiempo.
Según el valor 5/5 que se muestra en la página Detalles del trabajo, la etapa 5 es la más larga, pero solo utiliza 5 núcleos de un total de 512. Como el paralelismo de esta etapa es muy bajo, pero lleva mucho tiempo, puede identificarlo como un cuello de botella. Para mejorar el rendimiento, debe entender por qué. Para obtener más información sobre cómo reconocer y reducir el impacto de los cuellos de botella de rendimiento habituales, consulte Estrategias para ajustar el rendimiento de los trabajos de Spark.