Visualización del estado de la cola de trabajos - AWS Batch

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Visualización del estado de la cola de trabajos

Tras crear una cola de trabajos y enviar los trabajos, es importante supervisar su progreso. Puede utilizar la página Detalles del trabajo para revisar, gestionar y supervisar su cola de trabajos.

Visualización de información de la cola de trabajos

En la consola de AWS Batch, seleccione Colas de trabajos en el panel de navegación y elija la cola de trabajos cuyos detalles desee ver. En esta página puede revisar y administrar la cola de trabajos o ver información adicional sobre las operaciones de la cola de trabajos, como la instantánea de la cola de trabajos, los límites de estado de los trabajos, el orden del entorno, las etiquetas y el código JSON de la cola de trabajos.

Detalles de la cola de trabajos

En esta sección se muestran información general y opciones de mantenimiento para la cola de trabajos. Tenga en cuenta que puede buscar el nombre de recurso de Amazon (ARN) en esta sección.

Para buscar esta información en AWS Command Line Interface, utilice la operación DescribeJobQueues junto con el nombre de la cola de trabajos o el ARN correspondiente.

Instantánea de la cola de trabajos

Esta sección proporciona una lista estática de los primeros 100 trabajos de RUNNABLE que están en cola. Puede utilizar el campo de búsqueda para buscar información en cualquier columna de la sección de resultados y reducir la lista. Los trabajos del área de resultados de instantánea se ordenan según la estrategia de ejecución de la cola de trabajos. En el caso de las colas de trabajos FIFO (first-in-first-out), el orden de los trabajos se basa en la hora de envío. En el caso de las colas de trabajos de la programación de reparto justo, el orden de los trabajos se basa en su prioridad y en el uso de recursos compartidos.

Como los resultados son una instantánea de la cola de trabajos, la lista de resultados no se actualiza automáticamente. Para actualizar la lista, seleccione Actualizar en la parte superior de la sección. Elija el hipervínculo del nombre del trabajo para ir a Detalles del trabajo y ver el estado u otra información relacionada.

Para buscar esta información en AWS CLI, utilice la operación GetJobQueueSnapshot junto con el nombre de la cola de trabajos o el ARN correspondiente.

aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq

Límites del estado de trabajo

Utilice esta pestaña para revisar la información de configuración sobre el tiempo que un trabajo puede tener el estado RUNNABLE antes de que se cancele.

Para buscar esta información en AWS CLI, utilice la operación DescribeJobQueues junto con el nombre de la cola de trabajos o el ARN correspondiente.

Orden de entornos

Si su cola de trabajos se ejecuta en varios entornos, esta pestaña muestra el orden y una descripción general.

Para buscar esta información en AWS CLI, utilice la operación DescribeJobQueues junto con el nombre de la cola de trabajos o el ARN correspondiente.

Etiquetas

Utilice esta pestaña para revisar y administrar las etiquetas asociadas a esta cola de trabajos.

JSON

Utilice esta pestaña para copiar el código JSON asociado a esta cola de trabajos. A continuación, puede reutilizar el JSON para plantillas de AWS CloudFormation y scripts de AWS CLI.

Supervisión de los trabajos de servicio

Supervise el estado de los trabajos de servicio en la cola de trabajos mediante varios comandos de AWS Batch. Los trabajos de servicio se ejecutan en los servicios de AWS, como el entrenamiento de SageMaker, donde AWS Batch brinda funciones de programación y creación de colas, mientras que el servicio de destino se encarga de la ejecución de los trabajos.

Enumeración de los trabajos de servicio por estado

Utilice la operación ListServiceJobs para ver los trabajos de servicio de la cola filtrados por estado. Los trabajos de servicio pueden encontrarse en los siguientes estados:

  • SUBMITTED: El trabajo se ha enviado pero aún no se ha procesado

  • PENDING: El trabajo está pendiente y esperando recursos

  • RUNNABLE: El trabajo está listo para ejecutarse y esperando en la cola

  • STARTING: El trabajo se está iniciando

  • RUNNING: El trabajo se está ejecutando actualmente

  • SCHEDULED: El trabajo se ha enviado al servicio de destino pero aún no se está ejecutando

  • SUCCEEDED: El trabajo se ha completado correctamente

  • FAILED: No se pudo completar el trabajo

Cómo ver los trabajos en ejecución en la cola:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNING

Cómo ver los trabajos en espera en la cola:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNABLE

Cómo ver los trabajos que se enviaron a SageMaker, pero que aún no se están ejecutando:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status SCHEDULED

Cómo ver todos los trabajos realizados correctamente:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status SUCCEEDED

Cómo ver los trabajos fallidos para solucionar problemas:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status FAILED

Filtrado de trabajos de servicio

Filtre los trabajos de servicio por nombre mediante la coincidencia de patrones. Si el valor de un filtro termina con un asterisco (*), coincide con cualquier nombre de trabajo que comience con la cadena anterior al “*”.

Cómo buscar trabajos con nombres que comiencen por “training”:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --filters name=JOB_NAME,values=training*

Cómo buscar trabajos con nombres específicos:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --filters name=JOB_NAME,values=my-training-job-1,my-training-job-2

Cómo combinar filtros de estado y nombre:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNING \ --filters name=JOB_NAME,values=production*

Manejo de conjuntos de resultados de gran tamaño

Cuando tenga muchos trabajos de servicio, utilice la paginación para administrar los resultados de forma eficaz.

Cómo limitar el número de resultados devueltos:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --max-results 10

Cómo utilizar el siguiente token para obtener resultados adicionales:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --max-results 10 \ --next-token eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...

Obtención de información detallada sobre el trabajo de servicio

Utilice la operación DescribeServiceJob para obtener información completa sobre un trabajo de servicio específico, como su estado actual, los identificadores de recursos de servicio y la información detallada sobre los intentos.

Cómo ver la información detallada sobre un trabajo específico:

aws batch describe-service-job \ --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d

Este comando devuelve información completa sobre el trabajo, como:

  • el ARN del trabajo y estado actual,

  • los identificadores de recursos de servicio (por ejemplo, el ARN del trabajo de entrenamiento SageMaker),

  • la configuración de la prioridad de programación y reintentos,

  • la carga útil de solicitud de servicio que contiene los parámetros de servicio originales,

  • la información detallada sobre los intentos con las horas de inicio y finalización,

  • los mensajes de estado del servicio de destino.

Supervisión de los trabajos de entrenamiento de SageMaker

A través de la supervisión de los trabajos de entrenamiento de SageMaker mediante AWS Batch, puede acceder a la información del trabajo de AWS Batch y a los detalles del trabajo de entrenamiento de SageMaker subyacentes.

El identificador de recursos de servicio en los detalles del trabajo contiene el ARN del trabajo de entrenamiento de SageMaker:

{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }

Puede utilizar este ARN para obtener detalles adicionales directamente de SageMaker:

aws sagemaker describe-training-job \ --training-job-name my-training-job

Supervise el progreso del trabajo comprobando el estado de AWS Batch y el estado del trabajo de entrenamiento de SageMaker. El estado del trabajo de AWS Batch muestra el ciclo de vida general del trabajo, mientras que el estado del trabajo de entrenamiento de SageMaker otorga detalles específicos del servicio sobre el proceso de entrenamiento.

Finalización de los trabajos de servicio

Utilice la operación TerminateServiceJob para detener un trabajo de servicio en ejecución.

Cómo finalizar un trabajo de servicio específico:

aws batch terminate-service-job \ --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d \ --reason "Job terminated by user request"

Cuando se termina un trabajo de servicio, AWS Batch detiene el trabajo y se lo notifica al servicio de destino. En el caso de los trabajos de entrenamiento de SageMaker, este proceso también detendrá el trabajo de entrenamiento en SageMaker AI.