AWS Batch 中的服务作业
AWS Batch 服务作业使您能够通过 AWS Batch 作业队列向 AWS 服务提交请求。目前,AWS Batch 支持将 SageMaker 训练作业作为服务作业。与 AWS Batch 负责管理底层容器执行的容器化作业不同,服务作业允许 AWS Batch 提供作业调度和排队功能,而目标 AWS 服务(例如 SageMaker AI)则处理实际的作业执行。
通过使用适用于 SageMaker 训练作业的 AWS Batch,数据科学家可以将具有优先级的训练作业提交到可配置的队列,从而确保工作负载在资源可用时立即运行,而无需干预。此功能可解决资源协调、防止意外超支、满足预算约束、使用预留实例优化成本等常见挑战,以及无需在团队成员之间进行手动协调。
服务作业与容器化作业有多个关键的区别:
-
作业提交:必须使用 SubmitServiceJob 提交服务作业。无法通过 AWS Batch 控制台提交服务作业。
-
作业执行:AWS Batch 负责服务作业的调度与排队,而目标 AWS 服务则负责运行实际的作业工作负载。
-
资源标识符:服务作业使用包含“service-job”而不是“job”的 ARN 来与容器化作业区分。
要开始使用适用于 SageMaker 训练的 AWS Batch 服务作业,请参阅在 SageMaker AI 上使用 AWS Batch 的入门。