监控 AWS Batch 队列中的服务作业 - AWS Batch

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 AWS Batch 队列中的服务作业

您可以使用list-service-jobs、和监控 SageMaker 训练作业队列中作业的状态get-job-queue-snapshot

查看队列中正在运行的作业:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNING

查看队列中正在等待的作业:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNABLE

查看已提交 SageMaker 但尚未运行的作业:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status SCHEDULED

获取队列中排名最前的作业快照:

aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq

此命令会显示队列中即将执行的服务作业的顺序。

获取详细的服务作业信息

使用 DescribeServiceJob 操作可以获取有关特定服务作业的全面信息,包括其当前状态、服务资源标识符和详细尝试信息。

查看有关特定作业的详细信息:

aws batch describe-service-job \ --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d

此命令会返回有关此作业的全面信息,包括:

  • 作业 ARN 和当前状态

  • 服务资源标识符(例如 SageMaker 训练作业 ARN)

  • 调度优先级和重试配置

  • 包含原始服务参数的服务请求有效载荷

  • 详细尝试信息,包括启动和停止时间

  • 来自目标服务的状态消息

监控 SageMaker 培训作业

通过监控 SageMaker 训练作业时 AWS Batch,您可以访问 AWS Batch 作业信息和基础 SageMaker 培训作业详细信息。

任务详情中的服务资源标识符包含 SageMaker 训练作业 ARN:

{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }

您可以使用此 ARN 直接从以下地址获取更多详情: SageMaker

aws sagemaker describe-training-job \ --training-job-name my-training-job

通过检查 AWS Batch 状态和 SageMaker 训练作业状态来监控作业进度。 AWS Batch 作业状态显示整个作业生命周期,而 SageMaker 训练作业状态则提供有关训练过程的特定于服务的详细信息。