Identificación de cuellos de botella mediante la IU de Spark

Investigación de problemas de rendimiento mediante la IU de Spark

Antes de aplicar las mejores prácticas para ajustar el rendimiento de sus AWS Glue trabajos, le recomendamos encarecidamente que perfile el rendimiento e identifique los cuellos de botella. Esto lo ayudará a centrarse en los aspectos correctos.

Para un análisis rápido, CloudWatch las métricas de Amazon proporcionan una vista básica de las métricas de tu trabajo. La IU de Spark proporciona una visión más detallada para ajustar el rendimiento. Para usar la interfaz de usuario de Spark con AWS Glue, debes habilitar la interfaz de usuario de Spark para tus AWS Glue trabajos. Una vez que se familiarice con la IU de Spark, siga las estrategias para ajustar el rendimiento de los trabajos de Spark a fin de identificar y reducir el impacto de los cuellos de botella en función de sus resultados.

Identificación de cuellos de botella mediante la IU de Spark

Al abrir la IU de Spark, las aplicaciones de Spark aparecen en una tabla. De forma predeterminada, el nombre de la aplicación de un trabajo de AWS Glue es nativespark-<Job Name>-<Job Run ID>. Elija la aplicación de Spark de destino en función del ID de ejecución del trabajo para abrir la pestaña Trabajos. Las ejecuciones de trabajos incompletas, como las ejecuciones de trabajos de transmisión, aparecen en Mostrar solicitudes incompletas.

En la pestaña Trabajos se muestra un resumen de todos los trabajos de la aplicación de Spark. Para determinar los errores de alguna etapa o tarea, compruebe el número total de tareas. Para encontrar los cuellos de botella, elija Duración para ordenarlos. Consulte los detalles de los trabajos de larga duración; para ello, seleccione el enlace que se muestra en la columna Descripción.

La pestaña Spark Jobs muestra la duración succeeded/total, las etapas y las tareas succeeded/total.

En la página Detalles del trabajo se muestran las etapas. En esta página, puede ver información general, como la duración, el número de tareas completadas correctamente y el total, el número de entradas y salidas, y la cantidad de lecturas y escrituras de mezclas.

En la pestaña Ejecutor se muestra en detalle la capacidad de los clústeres de Spark. Puede consultar el número total de núcleos. El clúster que se muestra en la siguiente captura de pantalla contiene 316 núcleos activos y 512 núcleos en total. De forma predeterminada, cada núcleo puede procesar una tarea de Spark al mismo tiempo.

Resumen de la página Ejecutores con el número de núcleos de los ejecutores.

Según el valor 5/5 que se muestra en la página Detalles del trabajo, la etapa 5 es la más larga, pero solo utiliza 5 núcleos de un total de 512. Como el paralelismo de esta etapa es muy bajo, pero lleva mucho tiempo, puede identificarlo como un cuello de botella. Para mejorar el rendimiento, debe entender por qué. Para obtener más información sobre cómo reconocer y reducir el impacto de los cuellos de botella de rendimiento habituales, consulte Estrategias para ajustar el rendimiento de los trabajos de Spark.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Temas clave de

Estrategias para ajustar el rendimiento