監控 AWS Batch 佇列中的服務任務 - AWS Batch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控 AWS Batch 佇列中的服務任務

您可以使用 list-service-jobs、 和 來監控 SageMaker Training 任務佇列中任務的狀態get-job-queue-snapshot

檢視佇列中正在執行的任務:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNING

檢視佇列中等待的任務:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status RUNNABLE

檢視已提交至 SageMaker 但尚未執行的任務:

aws batch list-service-jobs \ --job-queue my-sm-training-fifo-jq \ --job-status SCHEDULED

取得佇列前面的任務快照:

aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq

此命令會顯示佇列中即將到來的服務任務順序。

取得詳細的服務任務資訊

使用 DescribeServiceJob操作取得特定服務任務的完整資訊,包括其目前狀態、服務資源識別符和詳細的嘗試資訊。

檢視特定任務的詳細資訊:

aws batch describe-service-job \ --job-id a4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d

此命令會傳回任務的完整資訊,包括:

  • 任務 ARN 和目前狀態

  • 服務資源識別符 (例如 SageMaker Training 任務 ARN)

  • 排程優先順序和重試組態

  • 包含原始服務參數的服務請求承載

  • 包含開始和停止時間的詳細嘗試資訊

  • 來自目標服務的狀態訊息

監控 SageMaker 訓練任務

透過 監控 SageMaker Training 任務時 AWS Batch,您可以同時存取 AWS Batch 任務資訊和基礎 SageMaker Training 任務詳細資訊。

任務詳細資訊中的服務資源識別符包含 SageMaker Training 任務 ARN:

{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }

您可以使用此 ARN 直接從 SageMaker 取得其他詳細資訊:

aws sagemaker describe-training-job \ --training-job-name my-training-job

透過檢查 AWS Batch 狀態和 SageMaker Training 任務狀態來監控任務進度。 AWS Batch 任務狀態會顯示整體任務生命週期,而 SageMaker Training 任務狀態則提供訓練程序的服務特定詳細資訊。