Erro de cluster do Amazon EMR: nós listados como negados
O daemon do NodeManager é responsável pelo lançamento e gerenciamento de contêineres em nós core e nós de tarefa. Os contêineres são alocados para o daemon do NodeManager pelo daemon do ResourceManager que é executado no nó principal. O ResourceManager monitora o nó NodeManager por meio de uma pulsação.
Há algumas situações em que o daemon do ResourceManager colocam um NodeManager na lista de negação, removendo-o do grupo de nós disponíveis para processar tarefas:
-
Se o NodeManager não tiver enviado uma pulsação para o daemon do ResourceManager nos últimos 10 minutos (60 mil milissegundos). Esse intervalo de tempo pode ser configurado usando a definição da configuração
yarn.nm.liveness-monitor.expiry-interval-ms. Para obter mais informações sobre a alteração das definições de configuração do Yarn, consulte Configuring applications no Guia de lançamento do Amazon EMR. -
O NodeManager verifica a integridade dos discos determinados por
yarn.nodemanager.local-dirseyarn.nodemanager.log-dirs. As verificações incluem permissões e espaço livre em disco (< 90%). Se um disco for reprovado na verificação, o NodeManager interrompe o uso desse disco específico, mas ainda reporta o status do nó como íntegro. Se vários discos forem reprovados na verificação, o nó será reportado como não íntegro ao ResourceManager, e novos contêineres não serão atribuídos ao nó.
A aplicação principal também pode colocar um nó NodeManager na lista de negação, se ele tiver mais de três tarefas com falha. Você pode aumentar esse valor usando o parâmetro de configuração mapreduce.job.maxtaskfailures.per.tracker. Outras definições de configuração que você pode alterar controlam o número de tentativas para uma tarefa antes de marcá-la como falha: mapreduce.map.max.attempts para tarefas de mapeamento e mapreduce.reduce.maxattempts para tarefas de redução. Para obter mais informações sobre a alteração das definições de configuração, consulte Configuring applications no Guia de lançamento do Amazon EMR.