本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
監控 AWS Batch 佇列中的服務任務
您可以使用 list-service-jobs、 和 來監控 SageMaker Training 任務佇列中任務的狀態get-job-queue-snapshot。
檢視佇列中正在執行的任務:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNING
檢視佇列中等待的任務:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status RUNNABLE
檢視已提交至 SageMaker 但尚未執行的任務:
aws batch list-service-jobs \ --job-queuemy-sm-training-fifo-jq\ --job-status SCHEDULED
取得佇列前面的任務快照:
aws batch get-job-queue-snapshot --job-queue my-sm-training-fifo-jq
此命令會顯示佇列中即將到來的服務任務順序。
取得詳細的服務任務資訊
使用 DescribeServiceJob操作取得特定服務任務的完整資訊,包括其目前狀態、服務資源識別符和詳細的嘗試資訊。
檢視特定任務的詳細資訊:
aws batch describe-service-job \ --job-ida4d6c728-8ee8-4c65-8e2a-9a5e8f4b7c3d
此命令會傳回任務的完整資訊,包括:
-
任務 ARN 和目前狀態
-
服務資源識別符 (例如 SageMaker Training 任務 ARN)
-
排程優先順序和重試組態
-
包含原始服務參數的服務請求承載
-
包含開始和停止時間的詳細嘗試資訊
-
來自目標服務的狀態訊息
監控 SageMaker 訓練任務
透過 監控 SageMaker Training 任務時 AWS Batch,您可以同時存取 AWS Batch 任務資訊和基礎 SageMaker Training 任務詳細資訊。
任務詳細資訊中的服務資源識別符包含 SageMaker Training 任務 ARN:
{ "latestAttempt": { "serviceResourceId": { "name": "TrainingJobArn", "value": "arn:aws:sagemaker:us-east-1:123456789012:training-job/my-training-job" } } }
您可以使用此 ARN 直接從 SageMaker 取得其他詳細資訊:
aws sagemaker describe-training-job \ --training-job-namemy-training-job
透過檢查 AWS Batch 狀態和 SageMaker Training 任務狀態來監控任務進度。 AWS Batch 任務狀態會顯示整體任務生命週期,而 SageMaker Training 任務狀態則提供訓練程序的服務特定詳細資訊。