Erros Comuns e Solução de Problemas
Erros em AWS Batch ocorrem frequentemente no nível do aplicativo, ou são ocasionados por configurações de instância que não estejam em conformidade com os requisitos específicos obrigatórios do trabalho. Outros problemas incluem trabalhos presos no status RUNNABLE ou ambientes computacionais presos em um estado INVALID. Para obter mais informações sobre soluções de problemas de trabalhos presos no status RUNNABLE, consulte Trabalhos presos no status RUNNABLE. Para obter informações sobre solução de problemas em ambientes de computação em um estado INVALID, consulte Ambiente de computação do INVALID.
-
Verifique as Cotas vCPU do Amazon EC2 Spot: Verifique se suas cotas de serviço atuais atendem aos requisitos do trabalho. Por exemplo, ao supor que sua cota de serviço atual seja de 256 vCPUs e que o trabalho exija 10.000 vCPUs. Nesse caso, a cota de serviço não está em conformidade com os requisitos do trabalho. Para obter mais informações e instruções sobre solução de problemas, consulte cotas de serviço do Amazon EC2 e Como aumento a cota de serviços dos meus recursos do Amazon EC2?
. -
Trabalhos com falha antes da execução do aplicativo: Alguns trabalhos podem falhar devido a um erro
DockerTimeoutErrorou a um erroCannotPullContainerError. Para obter informações sobre solução de problemas, consulte Como resolver o erro “DockerTimeoutError” em AWS Batch. -
Endereços IP insuficientes: O número de endereçamento de IP na sua VPC e sub redes pode limitar o número de instâncias que você pode criar. Use Encaminhamento Entre Domínios Sem Classificação (CIDR) para fornecer mais endereços IP do que o obrigatório para a execução de suas workloads. Se necessário, você também pode compilar uma VPC dedicada com grande espaço de endereço. Por exemplo, você pode criar uma VPC com vários CIDRs em
10.x.0.0/16e uma sub-rede em cada zona de disponibilidade com um CIDR de10.x.y.0/17. Neste exemplo, x está entre 1-4 e y é 0 ou 128. Essa configuração fornece 36.000 endereços IP em cada sub-rede.
-
Verifique se as instâncias estão registradas no Amazon EC2: Se você vê suas instâncias no console do Amazon EC2 mas não vê nenhuma instância de contêiner do Amazon Elastic Container Service em seu cluster do Amazon ECS, o atendente do Amazon ECS pode não estar instalado em uma imagem de máquina da Amazon (AMI). O atendente do Amazon ECS, a entrada de dados do Amazon EC2 em sua AM, ou o modelo de inicialização também podem não estar configurados corretamente. Para isolar a causa raiz, crie uma instância separada do Amazon EC2 ou conecte-se a uma instância existente usando SSH. Para obter mais informações, consulte Configuração do Agente de Contêiner do Amazon ECS, Locais de Arquivo de Log do Amazon ECS e Recursos de computação de AMIs.
-
Analise o painel AWS: Analise o Painel AWS para verificar se os estados esperados da tarefa e se o ambiente computacional estão em escala conforme o esperado. Você também pode analisar os logs de trabalho no CloudWatch.
-
Verifique se sua instância foi criada: Se uma instância tiver sido criada, significa que seu ambiente de computação foi escalado conforme o esperado. Se suas instâncias não foram criadas, descubra as sub-redes associadas em seu ambiente de computação para alterá-las. Para obter mais informações, consulte Verificar uma Ação em Escala para um Grupo do Auto Scaling.
Também recomendamos que você verifique se suas instâncias podem atender aos requisitos de trabalho relacionados. Por exemplo, um trabalho pode exigir 1 TiB de memória, mas o ambiente de computação utiliza um tipo de instância C5 limitado a 192 GB de memória.
-
Verifique se suas instâncias estão sendo solicitadas por AWS Batch: Verifique o histórico do grupo do Auto Scaling para ter certeza de que se suas instâncias estão sendo solicitadas por AWS Batch. Esse é um indicador de como o Amazon EC2 tenta adquirir instâncias. Se você receber um estado de erro informando que o Amazon EC2 Spot não pode adquirir uma instância em uma Zona de Disponibilidade específica, talvez esta Zona de Disponibilidade não ofereça uma família de instâncias específica.
-
Verifique se as instâncias estão registradas no Amazon ECS: Caso você veja suas instâncias no console do Amazon EC2, mas não veja nenhuma instância de contêiner do Amazon ECS em seu cluster do Amazon ECS, o atendente do Amazon ECS pode não estar instalado em uma imagem de máquina da Amazon (AMI). Além disso, o atendente do Amazon ECS, os Dados Amazon EC2 em sua AMI, ou o modelo de inicialização podem não estar configurados corretamente. Para isolar a causa raiz, crie uma instância separada do Amazon EC2 ou conecte-se a uma instância existente usando SSH. Para obter mais informações, consulte Arquivo de Configuração do Atendente do CloudWatch: Seção Logs, Locais de Arquivos de Log do Amazon ECS e Recursos de computação de AMIs.
-
Abra um tíquete de suporte: Se ainda estiver enfrentando problemas após uma solução de problemas e tiver um Plano do Support, abra um tíquete de suporte. No tíquete de suporte, certifique-se de incluir informações sobre o problema, as especificações da workload, a configuração e os resultados do teste. Para obter mais informações, consulte Comparar PlanosSuporte
. -
Analise os fóruns de AWS Batch e HPC: para obter mais informações, consulte os fóruns AWS Batch
e HPC . -
Analise o Painel de Monitoramento de Runtime AWS Batch: Esse painel usa uma arquitetura de tecnologia sem servidor para capturar eventos do Amazon ECS, de AWS Batch, e do Amazon EC2, fornecer insights sobre trabalhos e instâncias. Para obter mais informações, consulte Solução de Painéis de Monitoramento de Runtime AWS Batch
.