将 AWS Batch 服务作业状态映射到 SageMaker AI 状态 - AWS Batch

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将 AWS Batch 服务作业状态映射到 SageMaker AI 状态

使用向 SageMaker 作业队列提交作业时 SubmitServiceJob,会 AWS Batch 管理作业生命周期并将 AWS Batch 作业状态映射到等效的 SageMaker 训练作业状态。服务作业(例如 SageMaker 训练作业)遵循的状态生命周期与传统的容器作业不同。虽然服务作业与容器作业共享大多数状态,但它们会引入SCHEDULED状态并表现出不同的重试行为,尤其是在处理来自目标服务的容量不足错误时。

下表显示了 AWS Batch 作业状态和相应的 SageMaker状态/SecondaryStatus:

Batch 状态 SageMaker AI 主要状态 SageMaker AI 二级状态 说明
SUBMITTED 不适用 不适用 Job 已提交到队列,等待调度器评估。
RUNNABLE 不适用 不适用 Job 已排队,可以进行调度了。只要服务环境中有足够的可用资源,就会启动处于这种状态的作业。当没有足够的资源可用时,作业会无限期地保持此状态。
SCHEDULED InProgress Pending 服务作业已成功提交给 SageMaker AI
STARTING InProgress Downloading SageMaker 下载数据和图像的训练作业。培训工作能力已获得,作业初始化已开始。
RUNNING InProgress Training SageMaker 训练作业执行算法
RUNNING InProgress Uploading SageMaker 训练作业在训练完成后上传输出工件
SUCCEEDED Completed Completed SageMaker 训练作业成功完成。输出构件已完成上传。
FAILED Failed Failed SageMaker 训练作业遇到了一个不可恢复的错误。
FAILED Stopped Stopped SageMaker 已使用手动停止训练作业StopTrainingJob