本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
將 AWS Batch 服務任務狀態映射至 SageMaker AI 狀態
當您使用 SubmitServiceJob 將任務提交至 SageMaker 任務佇列時, 會 AWS Batch 管理任務生命週期並將 AWS Batch 任務狀態映射至同等的 SageMaker Training 任務狀態。服務任務,例如 SageMaker Training 任務,遵循與傳統容器任務不同的狀態生命週期。雖然服務任務與容器任務共用大多數狀態,但它們引入 SCHEDULED
狀態並展現不同的重試行為,尤其是處理目標服務中容量不足的錯誤。
下表顯示 AWS Batch 任務狀態和對應的 SageMaker Status/SecondaryStatus:
批次狀態 | SageMaker AI 主要狀態 | SageMaker AI 次要狀態 | 描述 |
---|---|---|---|
SUBMITTED |
N/A | N/A | 任務提交至佇列,等待排程器評估。 |
RUNNABLE |
N/A | N/A | 任務已排入佇列並準備好進行排程。一旦服務環境中有足夠的資源可用,就會立即啟動處於此狀態的任務。當足夠的資源無法使用時,任務可以無限期地保持在此狀態。 |
SCHEDULED |
InProgress |
Pending |
服務任務已成功提交至 SageMaker AI |
STARTING |
InProgress |
Downloading |
SageMaker Training 任務下載資料和映像。已取得訓練任務容量,並開始任務初始化。 |
RUNNING |
InProgress |
Training |
SageMaker Training 任務執行演算法 |
RUNNING |
InProgress |
Uploading |
訓練完成後上傳輸出成品的 SageMaker Training 任務 |
SUCCEEDED |
Completed |
Completed |
SageMaker Training 任務已成功完成。輸出成品已完成上傳。 |
FAILED |
Failed |
Failed |
SageMaker Training 任務遇到無法復原的錯誤。 |
FAILED |
Stopped |
Stopped |
SageMaker Training 任務已使用 手動停止StopTrainingJob 。 |