Solucionar problemas nas instâncias gerenciadas do Amazon ECS - Amazon Elastic Container Service

Solucionar problemas nas instâncias gerenciadas do Amazon ECS

Ao inicializar tarefas com instâncias gerenciadas do Amazon ECS, o Amazon ECS primeiro tenta posicionar as tarefas na capacidade existente e solicita capacidade adicional para tarefas que não podem ser posicionadas. Se o provisionamento da instância falhar, o ID de solicitação do Amazon EC2 será incluído na mensagem de falha da tarefa. Você pode usar esse ID de solicitação para examinar detalhes da solicitação que falhou no CloudTrail para solucionar problemas adicionais.

nota

Se você optar por aplicar permissões de privilégio mínimo e especificar suas próprias permissões para o perfil de instância em vez de usar a política gerenciada AmazonECSInstanceRolePolicyForManagedInstances, poderá adicionar as seguintes permissões para ajudar na solução de problemas relacionados a tarefas com as instâncias gerenciadas do Amazon ECS:

  • ecs:StartTelemetrySession

  • ecs:PutSystemLogEvents

A definição de tarefa é incompatível com as instâncias gerenciadas do Amazon ECS.

Causa comum

Esse erro ocorre quando sua definição de tarefa contém parâmetros ou configurações que não são compatíveis com as instâncias gerenciadas do Amazon ECS. As incompatibilidades comuns incluem modos de rede, perfis de tarefas ou requisitos de recursos sem suporte.

Resolução

  1. Verifique se sua definição de tarefa usa requiresCompatibilities definido como MANAGED_INSTANCES.

  2. Certifique-se de que sua definição de tarefa use o modo de rede awsvpc.

  3. Verifique se os valores de CPU e memória estão dentro dos intervalos compatíveis para as instâncias gerenciadas do Amazon ECS.

  4. Revise a mensagem de erro detalhada para obter detalhes específicos da incompatibilidade.

Provedores de capacidade não associados ao cluster

Causa comum

Esse erro ocorre quando o provedor de capacidade especificado em sua estratégia de provedor de capacidade não está associado ao cluster ou não existe.

Resolução

  1. Verifique se o provedor de capacidade existe em sua conta e região.

  2. Associe o provedor de capacidade ao seu cluster usando o console ou a CLI do Amazon ECS.

  3. Certifique-se de que o provedor de capacidade esteja no status ACTIVE antes de utilizá-lo.

Erros de permissão do perfil de infraestrutura

Causa comum

Esse erro ocorre quando o perfil de infraestrutura do Amazon ECS não tem as permissões necessárias para executar operações do Amazon EC2 em seu nome ou quando o perfil não pode ser assumido por causa de problemas de relacionamento de confiança.

Resolução

  1. Verifique se seu perfil de infraestrutura tem a relação de confiança adequada com o Amazon ECS.

  2. Certifique-se de que o perfil tenha as permissões necessárias do Amazon EC2, incluindo ec2:RunInstances, ec2:DescribeInstances e iam:PassRole.

  3. Verifique a mensagem de falha de autorização codificada no CloudTrail para obter detalhes específicos da permissão.

  4. Atualize a política de perfil para incluir as permissões ausentes identificadas na mensagem de erro.

Erro VcpuLimitExceeded

Causa comum

Esse erro ocorre quando você atinge sua cota de serviço de vCPU para a família de tipos de instância na região atual. As instâncias gerenciadas do Amazon ECS não podem iniciar instâncias adicionais até que a capacidade esteja disponível.

Resolução

  1. Solicite um aumento de cotas de serviço para a família de tipos de instância afetada por meio do AWS Support Center.

  2. Considere usar diferentes tipos de instância que se enquadrem em outra categoria de cota de vCPU.

  3. Encerre instâncias não utilizadas do Amazon EC2 para liberar capacidade de vCPU.

  4. Revise a configuração do seu provedor de capacidade para usar tipos de instância com requisitos de vCPU mais baixos.

Capacidade insuficiente e erros de capacidade relacionados

Causa comum

Esses erros ocorrem quando a AWS não tem capacidade suficiente para atender à sua solicitação de instância. Isso pode incluir capacidade insuficiente de instância, endereço ou volume na zona de disponibilidade solicitada.

Resolução

  1. Tente inicializar as instâncias em diferentes zonas de disponibilidade configurando várias sub-redes em seu provedor de capacidade.

  2. Considere usar diferentes tipos de instância que possam ter mais capacidade disponível.

  3. Aguarde e repita a operação, uma vez que a disponibilidade da capacidade muda com frequência.

  4. Para necessidades persistentes de capacidade, considere usar instâncias reservadas ou Savings Plans.

Erro UnauthorizedOperation

Causa comum

Esse erro ocorre quando o serviço do Amazon ECS não tem as permissões necessárias para executar operações do Amazon EC2 ou transmitir perfis do IAM. Os cenários comuns incluem a falta de permissões ec2:RunInstances ou iam:PassRole para o perfil de instância.

Resolução

  1. Verifique se seu perfil de infraestrutura do Amazon ECS tem as permissões necessárias para inicializar instâncias do Amazon EC2.

  2. Certifique-se de que o perfil de infraestrutura tenha permissões iam:PassRole para o perfil de instância usado pelas instâncias gerenciadas do Amazon ECS.

  3. Verifique a mensagem de falha de autorização codificada no CloudTrail para obter detalhes específicos da permissão.

  4. Atualize a política de perfil para incluir as permissões ausentes identificadas na mensagem de erro.

O tempo limite da tarefa foi atingido ao esperar a capacidade

Causa comum

Esse erro ocorre quando as instâncias demoram mais do que o esperado para serem inicializadas e registradas no cluster. Isso pode acontecer por causa das restrições de capacidade do Amazon EC2, falhas na inicialização da instância ou problemas de conectividade de rede.

Resolução

  1. Verifique a integridade do serviço do Amazon EC2 em sua região para ver se há problemas em andamento.

  2. Verifique se suas sub-redes têm endereços IP suficientes disponíveis.

  3. Garanta que seus grupos de segurança permitam o tráfego necessário para a comunicação dos agentes do Amazon ECS.

  4. Considere usar várias zonas de disponibilidade para melhorar a disponibilidade da capacidade.

  5. Repita a operação de inicialização da tarefa, visto que as restrições de capacidade geralmente são temporárias.

Erros de configuração de rede

Causa comum

Esses erros ocorrem quando há incompatibilidades entre os requisitos de rede da tarefa e a configuração de rede do provedor de capacidade, como incompatibilidades de VPC ou falta de configuração de rede.

Resolução

  1. Verifique se seu provedor de capacidade está configurado com a VPC e as sub-redes corretas.

  2. Verifique se os grupos de segurança e as sub-redes pertencem à mesma VPC.

  3. Verifique se a configuração de rede da definição de tarefa é compatível com o provedor de capacidade.

  4. Atualize a configuração do provedor de capacidade com as configurações de rede corretas.

O provedor de capacidade não pode ser excluído por causa de instâncias presas

Causa comum

Esses erros ocorrem quando as instâncias gerenciadas do Amazon ECS estão presas em um estado ACTIVE ou DRAINING, mas não há tarefas em execução nas instâncias.

Resolução

Para permitir que a exclusão do provedor de capacidade continue, você pode forçar o cancelamento do registro das instâncias que estão presas usando o comando a seguir.

aws ecs deregister-container-instance \ --cluster arn:aws:ecs:us-east-1:111122223333:cluster/MyCluster \ --container-instance arn:aws:ecs:us-east-1:111122223333:container-instance/a1b2c3d4-5678-90ab-cdef-11111EXAMPLE \ --force