將 AWS Batch 服務任務狀態映射至 SageMaker AI 狀態 - AWS Batch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將 AWS Batch 服務任務狀態映射至 SageMaker AI 狀態

當您使用 SubmitServiceJob 將任務提交至 SageMaker 任務佇列時, 會 AWS Batch 管理任務生命週期並將 AWS Batch 任務狀態映射至同等的 SageMaker Training 任務狀態。服務任務,例如 SageMaker Training 任務,遵循與傳統容器任務不同的狀態生命週期。雖然服務任務與容器任務共用大多數狀態,但它們引入 SCHEDULED 狀態並展現不同的重試行為,尤其是處理目標服務中容量不足的錯誤。

下表顯示 AWS Batch 任務狀態和對應的 SageMaker Status/SecondaryStatus:

批次狀態 SageMaker AI 主要狀態 SageMaker AI 次要狀態 描述
SUBMITTED N/A N/A 任務提交至佇列,等待排程器評估。
RUNNABLE N/A N/A 任務已排入佇列並準備好進行排程。一旦服務環境中有足夠的資源可用,就會立即啟動處於此狀態的任務。當足夠的資源無法使用時,任務可以無限期地保持在此狀態。
SCHEDULED InProgress Pending 服務任務已成功提交至 SageMaker AI
STARTING InProgress Downloading SageMaker Training 任務下載資料和映像。已取得訓練任務容量,並開始任務初始化。
RUNNING InProgress Training SageMaker Training 任務執行演算法
RUNNING InProgress Uploading 訓練完成後上傳輸出成品的 SageMaker Training 任務
SUCCEEDED Completed Completed SageMaker Training 任務已成功完成。輸出成品已完成上傳。
FAILED Failed Failed SageMaker Training 任務遇到無法復原的錯誤。
FAILED Stopped Stopped SageMaker Training 任務已使用 手動停止StopTrainingJob