Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Visualización del estado de la cola de trabajos
Tras crear una cola de trabajos y enviar los trabajos, es importante supervisar su progreso. Puede utilizar la página Detalles del trabajo para revisar, gestionar y supervisar su cola de trabajos.
Visualización de información de la cola de trabajos
En la consola de AWS Batch, seleccione Colas de trabajos en el panel de navegación y elija la cola de trabajos cuyos detalles desee ver. En esta página puede revisar y administrar la cola de trabajos o ver información adicional sobre las operaciones de la cola de trabajos, como la instantánea de la cola de trabajos, los límites de estado de los trabajos, el orden del entorno, las etiquetas y el código JSON de la cola de trabajos.
Detalles de la cola de trabajos
En esta sección se muestran información general y opciones de mantenimiento para la cola de trabajos. Tenga en cuenta que puede buscar el nombre de recurso de Amazon (ARN) en esta sección.
Para buscar esta información en AWS Command Line Interface, utilice la operación DescribeJobQueues junto con el nombre de la cola de trabajos o el ARN correspondiente.
Instantánea de la cola de trabajos
Esta sección proporciona una lista estática de los primeros 100 trabajos de RUNNABLE que están en cola. Puede utilizar el campo de búsqueda para buscar información en cualquier columna de la sección de resultados y reducir la lista. Los trabajos del área de resultados de instantánea se ordenan según la estrategia de ejecución de la cola de trabajos. En el caso de las colas de trabajos FIFO (first-in-first-out), el orden de los trabajos se basa en la hora de envío. En el caso de las colas de trabajos de la programación de reparto justo, el orden de los trabajos se basa en su prioridad y en el uso de recursos compartidos.
Como los resultados son una instantánea de la cola de trabajos, la lista de resultados no se actualiza automáticamente. Para actualizar la lista, seleccione Actualizar en la parte superior de la sección. Elija el hipervínculo del nombre del trabajo para ir a Detalles del trabajo y ver el estado u otra información relacionada.
Para buscar esta información en AWS CLI, utilice la operación GetJobQueueSnapshot junto con el nombre de la cola de trabajos o el ARN correspondiente.
aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq
Límites del estado de trabajo
Utilice esta pestaña para revisar la información de configuración sobre el tiempo que un trabajo puede tener el estado RUNNABLE antes de que se cancele.
Para buscar esta información en AWS CLI, utilice la operación DescribeJobQueues junto con el nombre de la cola de trabajos o el ARN correspondiente.
Orden de entornos
Si su cola de trabajos se ejecuta en varios entornos, esta pestaña muestra el orden y una descripción general.
Para buscar esta información en AWS CLI, utilice la operación DescribeJobQueues junto con el nombre de la cola de trabajos o el ARN correspondiente.
Etiquetas
Utilice esta pestaña para revisar y administrar las etiquetas asociadas a esta cola de trabajos.
JSON
Utilice esta pestaña para copiar el código JSON asociado a esta cola de trabajos. A continuación, puede reutilizar el JSON para plantillas de AWS CloudFormation y scripts de AWS CLI.
Supervisión de los trabajos de servicio
Supervise el estado de los trabajos de servicio en la cola de trabajos mediante varios comandos de AWS Batch. Los trabajos de servicio se ejecutan en los servicios de AWS, como el entrenamiento de SageMaker, donde AWS Batch brinda funciones de programación y creación de colas, mientras que el servicio de destino se encarga de la ejecución de los trabajos.
Enumeración de los trabajos de servicio por estado
Utilice la operación ListServiceJobs para ver los trabajos de servicio de la cola filtrados por estado. Los trabajos de servicio pueden encontrarse en los siguientes estados:
-
SUBMITTED: El trabajo se ha enviado pero aún no se ha procesado -
PENDING: El trabajo está pendiente y esperando recursos -
RUNNABLE: El trabajo está listo para ejecutarse y esperando en la cola -
STARTING: El trabajo se está iniciando -
RUNNING: El trabajo se está ejecutando actualmente -
SCHEDULED: El trabajo se ha enviado al servicio de destino pero aún no se está ejecutando -
SUCCEEDED: El trabajo se ha completado correctamente -
FAILED: No se pudo completar el trabajo
Cómo ver los trabajos en ejecución en la cola:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNING
Cómo ver los trabajos en espera en la cola:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNABLE
Cómo ver los trabajos que se enviaron a SageMaker, pero que aún no se están ejecutando:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status SCHEDULED
Cómo ver todos los trabajos realizados correctamente:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status SUCCEEDED
Cómo ver los trabajos fallidos para solucionar problemas:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status FAILED
Filtrado de trabajos de servicio
Filtre los trabajos de servicio por nombre mediante la coincidencia de patrones. Si el valor de un filtro termina con un asterisco (*), coincide con cualquier nombre de trabajo que comience con la cadena anterior al “*”.
Cómo buscar trabajos con nombres que comiencen por “training”:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --filters name=JOB_NAME,values=training*
Cómo buscar trabajos con nombres específicos:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --filters name=JOB_NAME,values=my-training-job-1,my-training-job-2
Cómo combinar filtros de estado y nombre:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNING \ --filters name=JOB_NAME,values=production*
Manejo de conjuntos de resultados de gran tamaño
Cuando tenga muchos trabajos de servicio, utilice la paginación para administrar los resultados de forma eficaz.
Cómo limitar el número de resultados devueltos:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --max-results 10
Cómo utilizar el siguiente token para obtener resultados adicionales:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --max-results 10 \ --next-tokeneyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9...
Obtención de información detallada sobre el trabajo de servicio
Utilice la operación DescribeServiceJob para obtener información completa sobre un trabajo de servicio específico, como su estado actual, los identificadores de recursos de servicio y la información detallada sobre los intentos.
Cómo ver la información detallada sobre un trabajo específico:
aws batch describe-service-job \ --job-ida4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d
Este comando devuelve información completa sobre el trabajo, como:
-
el ARN del trabajo y estado actual,
-
los identificadores de recursos de servicio (por ejemplo, el ARN del trabajo de entrenamiento SageMaker),
-
la configuración de la prioridad de programación y reintentos,
-
la carga útil de solicitud de servicio que contiene los parámetros de servicio originales,
-
la información detallada sobre los intentos con las horas de inicio y finalización,
-
los mensajes de estado del servicio de destino.
Supervisión de los trabajos de entrenamiento de SageMaker
A través de la supervisión de los trabajos de entrenamiento de SageMaker mediante AWS Batch, puede acceder a la información del trabajo de AWS Batch y a los detalles del trabajo de entrenamiento de SageMaker subyacentes.
El identificador de recursos de servicio en los detalles del trabajo contiene el ARN del trabajo de entrenamiento de SageMaker:
{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }
Puede utilizar este ARN para obtener detalles adicionales directamente de SageMaker:
aws sagemaker describe-training-job \ --training-job-namemy-training-job
Supervise el progreso del trabajo comprobando el estado de AWS Batch y el estado del trabajo de entrenamiento de SageMaker. El estado del trabajo de AWS Batch muestra el ciclo de vida general del trabajo, mientras que el estado del trabajo de entrenamiento de SageMaker otorga detalles específicos del servicio sobre el proceso de entrenamiento.
Finalización de los trabajos de servicio
Utilice la operación TerminateServiceJob para detener un trabajo de servicio en ejecución.
Cómo finalizar un trabajo de servicio específico:
aws batch terminate-service-job \ --job-ida4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d\ --reason "Job terminated by user request"
Cuando se termina un trabajo de servicio, AWS Batch detiene el trabajo y se lo notifica al servicio de destino. En el caso de los trabajos de entrenamiento de SageMaker, este proceso también detendrá el trabajo de entrenamiento en SageMaker AI.