本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控 AWS Batch 队列中的服务作业
您可以使用list-service-jobs、和监控 SageMaker 训练作业队列中作业的状态get-job-queue-snapshot。
查看队列中正在运行的作业:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNING
查看队列中正在等待的作业:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNABLE
查看已提交 SageMaker 但尚未运行的作业:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status SCHEDULED
获取队列中排名最前的作业快照:
aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq
此命令会显示队列中即将执行的服务作业的顺序。
获取详细的服务作业信息
使用 DescribeServiceJob 操作可以获取有关特定服务作业的全面信息,包括其当前状态、服务资源标识符和详细尝试信息。
查看有关特定作业的详细信息:
aws batch describe-service-job \ --job-ida4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d
此命令会返回有关此作业的全面信息,包括:
-
作业 ARN 和当前状态
-
服务资源标识符(例如 SageMaker 训练作业 ARN)
-
调度优先级和重试配置
-
包含原始服务参数的服务请求有效载荷
-
详细尝试信息,包括启动和停止时间
-
来自目标服务的状态消息
监控 SageMaker 培训作业
通过监控 SageMaker 训练作业时 AWS Batch,您可以访问 AWS Batch 作业信息和基础 SageMaker 培训作业详细信息。
任务详情中的服务资源标识符包含 SageMaker 训练作业 ARN:
{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }
您可以使用此 ARN 直接从以下地址获取更多详情: SageMaker
aws sagemaker describe-training-job \ --training-job-namemy-training-job
通过检查 AWS Batch 状态和 SageMaker 训练作业状态来监控作业进度。 AWS Batch 作业状态显示整个作业生命周期,而 SageMaker 训练作业状态则提供有关训练过程的特定于服务的详细信息。