Solución de problemas de instancias administradas de Amazon ECS - Amazon Elastic Container Service

Solución de problemas de instancias administradas de Amazon ECS

Al lanzar tareas con instancias administradas de Amazon ECS, Amazon ECS primero intenta colocar las tareas en la capacidad existente y solicita capacidad adicional para las tareas que no se pueden colocar. Si se produce un error en el aprovisionamiento de la instancia, el ID de solicitud de Amazon EC2 se incluye en el mensaje de error de la tarea. Puede usar este ID de solicitud para buscar los detalles de la solicitud fallida en CloudTrail para seguir solucionando problemas.

nota

Si opta por aplicar permisos con privilegios mínimos y especificar sus propios permisos para el perfil de instancia en lugar de utilizar la política administrada AmazonECSInstanceRolePolicyForManagedInstances, puede agregar los siguientes permisos para solucionar problemas relacionados con las tareas con instancias administradas de Amazon ECS:

  • ecs:StartTelemetrySession

  • ecs:PutSystemLogEvents

La definición de la tarea no es compatible con instancias administradas de Amazon ECS

Causa habitual

Este error se produce cuando la definición de la tarea contiene parámetros o configuraciones que no son compatibles con instancias administradas de Amazon ECS. Las incompatibilidades más comunes incluyen modos de red, roles de tareas o requisitos de recursos no compatibles.

Resolución

  1. Compruebe que la definición de la tarea utilice requiresCompatibilities establecido en MANAGED_INSTANCES.

  2. Asegúrese de que la definición de la tarea utilice el modo de red awsvpc.

  3. Compruebe que los valores de CPU y memoria estén dentro de los rangos admitidos para instancias administradas de Amazon ECS.

  4. Revise el mensaje de error detallado para obtener información específica sobre la incompatibilidad.

Proveedor de capacidad no asociado al clúster

Causa habitual

Este error se produce cuando el proveedor de capacidad especificado en su estrategia de proveedor de capacidad no está asociado al clúster o no existe.

Resolución

  1. Compruebe que el proveedor de capacidad existe en su cuenta y región.

  2. Asocie el proveedor de capacidad al clúster mediante la consola o la CLI de Amazon ECS.

  3. Asegúrese de que el proveedor de capacidad esté en estado ACTIVE antes de usarlo.

Errores de permiso de rol de infraestructura

Causa habitual

Este error se produce cuando el rol de infraestructura de Amazon ECS carece de los permisos necesarios para realizar las operaciones de Amazon EC2 en su nombre o cuando no se puede asumir el rol debido a problemas de relación de confianza.

Resolución

  1. Compruebe que su rol de infraestructura tenga la relación de confianza adecuada con Amazon ECS.

  2. Asegúrese de que el rol tenga los permisos de Amazon EC2 necesarios, incluidos ec2:RunInstances, ec2:DescribeInstances y iam:PassRole.

  3. Compruebe el mensaje de error de autorización codificado en CloudTrail para ver detalles de permisos específicos.

  4. Actualice la política de roles para incluir los permisos que faltan identificados en el mensaje de error.

Error VcpuLimitExceeded

Causa habitual

Este error se produce cuando ha alcanzado la cuota de servicio de vCPU para la familia de tipos de instancias en la región actual. Instancias administradas de Amazon ECS no puede lanzar instancias adicionales hasta que haya capacidad disponible.

Resolución

  1. Solicite un aumento de la cuota de servicio para la familia de tipos de instancias afectada a través del Centro de AWS Support.

  2. Considere la posibilidad de utilizar distintos tipos de instancias que pertenezcan a una categoría de cuota de vCPU diferente.

  3. Termine las instancias de Amazon EC2 no utilizadas para liberar capacidad de vCPU.

  4. Revise la configuración del proveedor de capacidad para usar tipos de instancias con requisitos de vCPU más bajos.

Errores InsufficientCapacity y relacionados con la capacidad

Causa habitual

Estos errores se producen cuando AWS no tiene la capacidad suficiente para cumplir con su solicitud de instancia. Esto puede incluir una capacidad de instancias, direcciones o volumen insuficientes en la zona de disponibilidad solicitada.

Resolución

  1. Intente lanzar instancias en distintas zonas de disponibilidad configurando varias subredes en su proveedor de capacidad.

  2. Considere la posibilidad de utilizar distintos tipos de instancias que puedan tener más capacidad disponible.

  3. Espere y vuelva a intentar la operación, ya que la disponibilidad de capacidad cambia con frecuencia.

  4. Para necesidades de capacidad persistentes, considere la posibilidad de utilizar instancias reservadas o Savings Plans.

Error UnauthorizedOperation

Causa habitual

Este error se produce cuando el servicio de Amazon ECS no tiene los permisos necesarios para realizar operaciones de Amazon EC2 o transferir roles de IAM. Los escenarios más comunes incluyen la falta de permisos ec2:RunInstances o iam:PassRole para el perfil de instancia.

Resolución

  1. Compruebe que su rol de infraestructura de Amazon ECS tenga los permisos necesarios para lanzar instancias de Amazon EC2.

  2. Asegúrese de que el rol de infraestructura tenga permisos iam:PassRole para el perfil de instancia que utiliza instancias administradas de Amazon ECS.

  3. Compruebe el mensaje de error de autorización codificado en CloudTrail para ver detalles de permisos específicos.

  4. Actualice la política de roles para incluir los permisos que faltan identificados en el mensaje de error.

Se agotó el tiempo de espera de la tarea en espera de capacidad

Causa habitual

Este error se produce cuando las instancias tardan más de lo esperado en lanzarse y registrarse en el clúster. Esto puede ocurrir debido a limitaciones de capacidad de Amazon EC2, errores en el lanzamiento de la instancia o problemas de conectividad de red.

Resolución

  1. Compruebe el estado del servicio Amazon EC2 en su región para ver si hay algún problema continuo.

  2. Compruebe que las subredes tengan suficientes direcciones IP disponibles.

  3. Asegúrese de que sus grupos de seguridad permitan el tráfico necesario para la comunicación con los agentes de Amazon ECS.

  4. Considere utilizar varias zonas de disponibilidad para mejorar la disponibilidad de la capacidad.

  5. Vuelva a intentar la operación de lanzamiento de la tarea, ya que las limitaciones de capacidad suelen ser temporales.

Errores de configuración de red

Causa habitual

Estos errores se producen cuando hay discrepancias entre los requisitos de red de la tarea y la configuración de red del proveedor de capacidad, como discordancias de VPC o falta de configuración de red.

Resolución

  1. Compruebe que su proveedor de capacidad esté configurado con la VPC y las subredes correctas.

  2. Asegúrese de que los grupos de seguridad y las subredes pertenecen a la misma VPC.

  3. Compruebe que la configuración de red de la definición de la tarea sea compatible con el proveedor de capacidad.

  4. Actualice la configuración del proveedor de capacidad con la configuración de red correcta.

No se puede eliminar el proveedor de capacidad debido a que las instancias están bloqueadas

Causa habitual

Estos errores se producen cuando las instancias de instancias administradas de Amazon ECS están bloqueadas en un estado ACTIVE o DRAINING pero no hay tareas en marcha en las instancias.

Resolución

Para continuar con la eliminación del proveedor de capacidad, puede forzar la anulación del registro de las instancias bloqueadas mediante el siguiente comando.

aws ecs deregister-container-instance \ --cluster arn:aws:ecs:us-east-1:111122223333:cluster/MyCluster \ --container-instance arn:aws:ecs:us-east-1:111122223333:container-instance/a1b2c3d4-5678-90ab-cdef-11111EXAMPLE \ --force