AWS Batch 中的服务作业 - AWS Batch

AWS Batch 中的服务作业

AWS Batch 服务作业使您能够通过 AWS Batch 作业队列向 AWS 服务提交请求。目前,AWS Batch 支持将 SageMaker 训练作业作为服务作业。与 AWS Batch 负责管理底层容器执行的容器化作业不同,服务作业允许 AWS Batch 提供作业调度和排队功能,而目标 AWS 服务(例如 SageMaker AI)则处理实际的作业执行。

通过使用适用于 SageMaker 训练作业的 AWS Batch,数据科学家可以将具有优先级的训练作业提交到可配置的队列,从而确保工作负载在资源可用时立即运行,而无需干预。此功能可解决资源协调、防止意外超支、满足预算约束、使用预留实例优化成本等常见挑战,以及无需在团队成员之间进行手动协调。

服务作业与容器化作业有多个关键的区别:

  • 作业提交:必须使用 SubmitServiceJob 提交服务作业。无法通过 AWS Batch 控制台提交服务作业。

  • 作业执行:AWS Batch 负责服务作业的调度与排队,而目标 AWS 服务则负责运行实际的作业工作负载。

  • 资源标识符:服务作业使用包含“service-job”而不是“job”的 ARN 来与容器化作业区分。

要开始使用适用于 SageMaker 训练的 AWS Batch 服务作业,请参阅在 SageMaker AI 上使用 AWS Batch 的入门