将 Amazon EC2 容量块用于带有 AWS PCS 的机器学习 - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将 Amazon EC2 容量块用于带有 AWS PCS 的机器学习

适用于 ML 的 Amazon EC2 容量块是一种 Amazon EC2 购买选项,允许您提前付费在特定日期和时间范围内预留基于 GPU 的加速计算实例,以支持短期工作负载。在容量块内运行的实例会自动放置在 Amazon EC2 中 UltraClusters,以实现低延迟、PB 级的无阻塞联网。有关更多信息,请参阅 Amazon 弹性计算云用户指南中的机器学习容量块

您可以使用启动模板让 AWS PCS 在为计算节点组启动实例时使用容量块。

注意

AWS 自 Slurm 版本 24.05 以来,PCS 引入了对容量块的支持。

限制

  • AWS PCS 仅支持 p5en、p5e、P5 和 P4d 实例系列的容量块。

  • 一次只能将一个计算节点组与 1 个容量块相关联。

  • 您无法将计算节点组与组合了多个容量块的容量预留组相关联。

  • 容量块必须处于scheduledactive状态才能与 AWS PCS 配合使用。您不能在其他州使用容量块,例如payment-failed。有关更多信息,请参阅 Amazon 弹性计算云用户指南中的查看容量块

容量块到期

容量区块仅限于特定的日期和时间范围。当容量块过期时:

  • 与该容量块关联的计算节点组继续存在并保持与相同队列的关联。

  • 根据您的 Slurm 设置,计算节点组中的所有实例都将终止,活动作业可能会失败。

  • AWS PCS 无法在计算节点组中启动新实例。

  • 在将另一个计算节点组附加到队列或您更新计算节点组以使用指定新容量块的新启动模板之前,所有已排队或新提交的作业都将保持待处理状态。