As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Considerações sobre a execução de várias etapas em paralelo ao enviar trabalhos para o Amazon EMR
Executar várias etapas paralelamente ao enviar trabalhos para o Amazon EMR exige decisões preliminares sobre planejamento de recursos e expectativas em relação ao comportamento do cluster. Isso é abordado em detalhes aqui.
-
As etapas executadas em paralelo podem ser concluídas em qualquer ordem, mas as etapas pendentes na fila passam para o estado de execução na ordem em que são enviadas.
-
Ao selecionar um nível de simultaneidade da etapa para o cluster, você deve considerar se o tipo de instância de nó primário atende ou não aos requisitos de memória das workloads do usuário. O processo executor da etapa principal é executado no nó primário de cada etapa. Executar várias etapas em paralelo requer mais memória e utilização da CPU do nó primário do que executar uma etapa de cada vez.
-
Para alcançar a programação complexa e o gerenciamento de recursos de etapas simultâneas, você pode usar recursos de programação do YARN, como
FairSchedulerouCapacityScheduler. Por exemplo, você pode usar oFairSchedulercom um conjuntoqueueMaxAppsDefaultpara impedir que mais de um determinado número de trabalhos seja executado por vez. -
O nível de simultaneidade da etapa está sujeito às configurações dos gerenciadores de recursos. Por exemplo, se o YARN estiver configurado com apenas um paralelismo de
5, você só poderá ter cinco aplicativos do YARN sendo executados em paralelo, ainda que oStepConcurrencyLevelesteja definido como10. Para obter mais informações sobre a configuração de gerenciadores de recursos, consulte Configure applications no Guia de lançamento do Amazon EMR. -
Não é possível adicionar uma etapa com
ActionOnFailureque não seja CONTINUE enquanto o nível de simultaneidade de etapas do cluster for maior que 1. -
Se o nível de simultaneidade de etapas do cluster for maior que 1, o atributo
ActionOnFailureda etapa não será ativado. -
Se o nível de simultaneidade de etapas do cluster for
1, mas houver várias etapas em execução,TERMINATE_CLUSTER ActionOnFailurepoderá ser ativada, mas nãoCANCEL_AND_WAIT ActionOnFailureserá. Esse caso extremo ocorre quando o nível de simultaneidade da etapa do cluster é maior que 1, mas diminui durante a execução de várias etapas. -
Você pode usar a escalabilidade automática no EMR para aumentar e diminuir a escala com base nos recursos do YARN de modo a evitar contenção de recursos. Para obter mais informações, consulte Using automatic scaling with a custom policy for instance groups no Guia de gerenciamento do Amazon EMR.
-
Quando você diminui o nível de simultaneidade da etapa, o EMR permite que as etapas em execução sejam concluídas antes de reduzir o número de etapas. Se os recursos estiverem esgotados porque o cluster está executando muitas etapas simultâneas, recomendamos cancelar as etapas em execução manualmente para liberar recursos.