Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AWSSupport-TroubleshootAWSBatchJob
Descripción
El AWSSupport-TroubleshootAWSBatchJob manual le ayuda a solucionar los problemas que impiden que un AWS Batch trabajo pase de un estado a RUNNABLE otro. STARTING
¿Cómo funciona?
Este manual realiza las siguientes comprobaciones:
-
Si el entorno informático está en
DISABLEDestadoINVALIDo. -
Si el
Max vCPUparámetro del entorno de cómputo es lo suficientemente grande como para acomodar el volumen de trabajos de la cola de trabajos. -
Si los trabajos requieren más recursos de memoria CPUs o v de los que pueden proporcionar los tipos de instancias del entorno de cómputo.
-
Si los trabajos deben ejecutarse en instancias basadas en GPU, pero el entorno de procesamiento no está configurado para usar instancias basadas en GPU.
-
Si el grupo de Auto Scaling del entorno de cómputo no pudo lanzar las instancias.
-
Si las instancias lanzadas pueden unirse al clúster subyacente de Amazon Elastic Container Service (Amazon ECS); de lo contrario, ejecuta AWSSupport-TroubleshootECSContainerInstanceel runbook.
-
Si hay algún problema con los permisos que bloquea acciones específicas necesarias para ejecutar el trabajo.
importante
-
Este manual debe iniciarse en la misma AWS región en la que se encuentra el trabajo cuyo
RUNNABLEestado está estancado. -
Este manual se puede iniciar para los AWS Batch trabajos programados en instancias de Amazon ECS AWS Fargate o Amazon Elastic Compute Cloud (Amazon EC2). Si se inicia la automatización para un AWS Batch trabajo en Amazon Elastic Kubernetes Service (Amazon EKS), la iniciación se detiene.
-
Si hay instancias disponibles para ejecutar el trabajo pero no registran el clúster de Amazon ECS, este manual de ejecución inicia el manual de
AWSSupport-TroubleshootECSContainerInstanceautomatización para intentar determinar el motivo. Para obtener más información, consulte el manual de ejecución. AWSSupport-TroubleshootECSContainerInstance
Ejecuta esta automatización (consola)
Tipo de documento
Automatización
Propietario
Amazon
Plataformas
Linux, macOS, Windows
Parámetros
-
AutomationAssumeRole
Tipo: cadena
Descripción: (opcional) el Nombre de recurso de Amazon (ARN) del rol de AWS Identity and Access Management (IAM) que permite a Systems Manager Automation realizar las acciones en su nombre. Si no se especifica ningún rol, Systems Manager Automation utiliza los permisos del usuario que comienza este manual de procedimientos.
-
JobId
Tipo: cadena
Descripción: (Obligatorio) El ID del AWS Batch Job cuyo
RUNNABLEestado está atascado.Valor permitido:
^[a-f0-9]{8}(-[a-f0-9]{4}){3}-[a-f0-9]{12}(:[0-9]+)?(#[0-9]+)?$
Permisos de IAM necesarios
El parámetro AutomationAssumeRole requiere las siguientes acciones para utilizar el manual de procedimientos correctamente.
-
autoscaling:DescribeAutoScalingGroups -
autoscaling:DescribeScalingActivities -
batch:DescribeComputeEnvironments -
batch:DescribeJobs -
batch:DescribeJobQueues -
batch:ListJobs -
cloudtrail:LookupEvents -
ec2:DescribeIamInstanceProfileAssociations -
ec2:DescribeInstanceAttribute -
ec2:DescribeInstances -
ec2:DescribeInstanceTypeOfferings -
ec2:DescribeInstanceTypes -
ec2:DescribeNetworkAcls -
ec2:DescribeRouteTables -
ec2:DescribeSecurityGroups -
ec2:DescribeSpotFleetInstances -
ec2:DescribeSpotFleetRequests -
ec2:DescribeSpotFleetRequestHistory -
ec2:DescribeSubnets -
ec2:DescribeVpcEndpoints -
ec2:DescribeVpcs -
ecs:DescribeClusters -
ecs:DescribeContainerInstances -
ecs:ListContainerInstances -
iam:GetInstanceProfile -
iam:GetRole -
iam:ListRoles -
iam:PassRole -
iam:SimulateCustomPolicy -
iam:SimulatePrincipalPolicy -
ssm:DescribeAutomationExecutions -
ssm:DescribeAutomationStepExecutions -
ssm:GetAutomationExecution -
ssm:StartAutomationExecution -
sts:GetCallerIdentity
Instrucciones
-
Navegue hasta AWSSupport-TroubleshootAWSBatchJob
la AWS Systems Manager consola. -
Elija Ejecutar automatización
-
Para los parámetros de entrada, introduzca lo siguiente:
-
AutomationAssumeRole(Opcional):
El nombre de recurso de Amazon (ARN) del rol de AWS Identity and Access Management (IAM) que permite a Systems Manager Automation realizar las acciones en su nombre. Si no se especifica ningún rol, Systems Manager Automation utiliza los permisos del usuario que comienza este manual de procedimientos.
-
JobId(Obligatorio):
El ID del AWS Batch Job que está atascado en el
RUNNABLEestado.
-
-
Seleccione Ejecutar.
-
Observe que se inicia la automatización.
-
Este documento realiza los siguientes pasos:
-
PreflightPermissionChecks:
Realiza comprobaciones previas a la verificación de los permisos de IAM con el usuario o rol iniciador. Si falta algún permiso, en este paso se indican las acciones de la API que faltan en la sección de resultados globales.
-
ProceedOnlyIfUserHasPermission:
Se ramifica en función de si tiene permisos para realizar todas las acciones necesarias para el manual de ejecución.
-
AWSBatchJobEvaluation:
Realiza comprobaciones con respecto al AWS Batch Job para comprobar que existe y se encuentra en ese
RUNNABLEestado. -
ProceedOnlyIfBatchJobExistsAndIsinRunnableEstado:
Las sucursales se basan en si el trabajo existe y se encuentra en ese
RUNNABLEestado. -
BatchComputeEnvironmentEvaluation:
Realiza comprobaciones con respecto al entorno AWS Batch informático.
-
ProceedOnlyIfComputeEnvironmentChecksAreDe acuerdo:
Las ramas se basan en si las comprobaciones del entorno de cómputo se realizaron correctamente.
-
UnderlyingInfraEvaluation:
Realiza comprobaciones con respecto a la solicitud subyacente de Auto Scaling Group o Spot Fleet.
-
ProceedOnlyIfInstancesNotJoiningEcsCluster:
Las sucursales se basan en si hay instancias que no se unen al clúster de Amazon ECS.
-
EcsAutomationRunner:
Ejecuta la automatización de Amazon ECS para las instancias que no se unen al clúster.
-
ExecutionResults:
Genera resultados en función de los pasos anteriores.
-
-
Una vez completados, se proporciona el URI del archivo HTML del informe de evaluación:
Enlace a la consola S3 y URI de Amazon S3 para el informe sobre la ejecución correcta del manual de procedimientos
Referencias
Automatización de Systems Manager