Monitore trabalhos de serviço em uma AWS Batch fila - AWS Batch

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Monitore trabalhos de serviço em uma AWS Batch fila

Você pode monitorar o status dos trabalhos em sua fila de trabalhos de SageMaker treinamento usando list-service-jobs e. get-job-queue-snapshot

Veja os trabalhos em execução na sua fila:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNING

Veja os trabalhos em espera na fila:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNABLE

Exibir trabalhos que foram enviados, SageMaker mas ainda não estão em execução:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status SCHEDULED

Obtenha um instantâneo dos trabalhos na frente da sua fila:

aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq

Esse comando mostra a ordem dos próximos trabalhos de serviço em sua fila.

Obter informações detalhadas sobre o trabalho de serviço

Use a operação DescribeServiceJob para obter informações abrangentes sobre um trabalho de serviço específico, incluindo seu status atual, identificadores de recursos de serviço e informações detalhadas sobre tentativas.

Visualizar informações detalhadas sobre um trabalho específico:

aws batch describe-service-job \ --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d

Esse comando retorna informações abrangentes sobre o trabalho, incluindo:

  • ARN do trabalho e status atual

  • Identificadores de recursos de serviço (como ARN do trabalho SageMaker de treinamento)

  • Prioridade de agendamento e configuração de novas tentativas

  • Carga útil da solicitação de serviço contendo os parâmetros originais do serviço

  • Informações detalhadas da tentativa com horários de início e término

  • Mensagens de status do serviço de destino

Monitore trabalhos SageMaker de treinamento

Ao monitorar os trabalhos de SageMaker treinamento AWS Batch, você pode acessar as informações do AWS Batch trabalho e os detalhes subjacentes do trabalho de SageMaker treinamento.

O identificador do recurso de serviço nos detalhes do trabalho contém o ARN do trabalho de SageMaker treinamento:

{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }

Você pode usar esse ARN para obter detalhes adicionais diretamente de: SageMaker

aws sagemaker describe-training-job \ --training-job-name my-training-job

Monitore o progresso do trabalho verificando AWS Batch o status e o status do trabalho de SageMaker treinamento. O status do AWS Batch trabalho mostra o ciclo de vida geral do trabalho, enquanto o status do trabalho de SageMaker treinamento fornece detalhes específicos do serviço sobre o processo de treinamento.