As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Investigar problemas de performance usando a interface do usuário do Spark
Antes de aplicar as práticas recomendadas para ajustar a performance de seus trabalhos do AWS Glue, é altamente recomendável que você defina o perfil da performance e identifique os gargalos. Isso ajudará você a focar as coisas certas.
Para uma análise rápida, as métricas do Amazon CloudWatch fornecem uma visão básica das métricas do seu trabalho. A interface do usuário do Spark fornece uma visão mais profunda do ajuste de performance. Para usar a interface do usuário do Spark com o AWS Glue, você deve habilitar a interface do usuário do Spark para seus trabalhos do AWS Glue. Depois de se familiarizar com a interface do usuário do Spark, siga as estratégias para ajustar a performance de trabalho do Spark para identificar e reduzir o impacto dos gargalos com base em suas descobertas.
Identificar gargalos usando a interface do usuário do Spark
Quando você abre a interface do usuário do Spark, as aplicações do Spark estão listados em uma tabela. Por padrão, um Nome de aplicação de um trabalho do AWS Glue é nativespark-<Job
Name>-<Job Run ID>. Escolha a aplicação de destino do Spark com base no ID de execução do trabalho para abrir a guia Trabalhos. Execuções incompletas de trabalhos, como execuções de trabalhos de streaming, estão listadas em Mostrar aplicações incompletas.
A guia Trabalhos mostra um resumo de todos os trabalhos na aplicação do Spark. Para determinar qualquer falha da etapa ou tarefa, verifique o número total de tarefas. Para encontrar os gargalos, classifique escolhendo Duração. Aprofunde-se nos detalhes de trabalhos de longa duração escolhendo o link mostrado na coluna Descrição.
A página Detalhes do trabalho lista as etapas. Nesta página, você pode ver insights gerais, como a duração, o número de tarefas bem-sucedidas e o total, o número de entradas e saídas e a quantidade de leitura e gravação do shuffle.
A guia Executor mostra a capacidade do cluster do Spark em detalhes. Você pode verificar o número total de núcleos. O cluster mostrado na captura de tela a seguir contém 316 núcleos ativos e 512 núcleos no total. Por padrão, cada núcleo pode processar uma tarefa do Spark ao mesmo tempo.
Com base no valor 5/5 mostrado na página Detalhes do trabalho, a etapa 5 é a etapa mais longa, mas usa apenas 5 núcleos do total de 512. Como o paralelismo dessa etapa é muito baixo, mas leva um tempo significativo, você pode identificá-la como um gargalo. Para melhorar a performance, você precisa entender o porquê. Para saber mais sobre como reconhecer e reduzir o impacto de gargalos comuns de performance, consulte Strategies for tuning Spark job performance.