有关 PCS 中 Slurm 版本的常见问题 AWS - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

有关 PCS 中 Slurm 版本的常见问题 AWS

AWS PCS 保持对多个 Slurm 版本的支持。推出新的 Slurm 版本时, AWS PCS 会提供技术支持和安全补丁,直到该版本终止 SchedMD 的支持 (EOS)。 AWS 为了与术语保持一致,PCS 将 Slurm 版本的 EOS 日期称为生命周期结束 (EOL)。 AWS

AWS PCS 支持 Slurm 版本多长时间?

AWS PCS 对 Slurm 版本的支持与 SchedMD 对主要版本的支持周期一致。 AWS PCS 支持当前版本和 2 个最新的先前主要版本。当 SchedMD 发布新的主要版本时, AWS PCS 将终止对支持的最旧版本的支持。 AWS PCS 会尽快发布 Slurm 的新主要版本,但在 SchedMD 的发布和在 PCS 中的上市之间可能会有延迟。 AWS

我的集群如何获得新的 Slurm 补丁版本?

为了解决错误和安全修复, AWS PCS 旨在自动将补丁应用于在内部服务拥有的帐户中运行的集群控制器。要在您的 EC2 实例上安装补丁 AWS 账户,请更新计算节点组的 Amazon 系统映像 (AMI),并更新计算节点组以使用更新后的 AMI。有关更多信息,请参阅 适用于 AWS PCS 的自定义 Amazon 机器映像 (AMIs)

注意

当我们更新 Slurm 控制器时,它们不可用。正在运行的作业不受影响。在集群的控制器变为不可用之前提交的任务将一直保留,直到控制器可用为止。

我如何获悉即将推出的 Slurm 版本 EOL 活动?

我们会在 EOL 日期前 6 个月向您发送一封电子邮件。我们每个月都会在 EOL 之前向您发送一封电子邮件,最后一封电子邮件将在 EOL 日期前 1 周发送给您。在 EOL 日期之后,我们会每月向运行 EOL Slurm 版本的 AWS PCS 集群的客户发送 12 个月的电子邮件。如果发现某个 EOL Slurm 版本存在安全漏洞,我们可能会暂停该版本的集群。

如何确定我的集群使用的 Slurm 版本是否正在运行 EOL Slurm 版本?

我们会向您发送一封电子邮件,通知您您的集群正在运行 EOL Slurm 版本。我们会针对警报发布警 AWS Health Dashboard 报,其中包含使用 EOL Slurm 版本的集群的详细信息。您还可以使用 AWS PCS 控制台识别具有 EOL Slurm 版本的集群。

如果我的 Slurm 版本接近或超过 EOL,我该怎么做?

使用支持的最新版本的 Slurm 创建新集群,并在计算节点组中更新 Slurm 版本。 AMIs您的实例 AMIs 和正在运行的 EC2实例中的 Slurm 版本不能比集群的 Slurm 版本落后超过 2 个版本。有关更多信息,请参阅 适用于 AWS PCS 的自定义 Amazon 机器映像 (AMIs)

如果我没有在 EOL 日期之前切换到较新版本的 Slurm 会发生什么?

您无法使用 EOL Slurm 版本创建新集群。现有集群无需 AWS 支持即可运行长达 12 个月,无需立即采取行动即可维持其运行。停产日期过后,将无法保证支持、安全更新和可用性。出于安全原因,我们可能会暂停集群。我们强烈建议您使用支持的 Slurm 版本来维护您的 AWS PCS 集群的安全性和支持。

使用 EOL Slurm 版本运行集群有哪些风险?

采用 EOL Slurm 版本的集群存在严重的安全和运营风险。如果没有 SchedMD 的主动监控,安全漏洞可能仍未被发现或未得到解决。如果发现严重漏洞,我们可能会立即暂停您的集群。

集群暂停后,我的任务、集群计算、存储和网络资源会怎样?

AWS PCS 管理的所有资源都将终止。这包括 Slurm 控制器、计算节点组和 EC2 实例。在计算实例上运行的任何作业都会立即终止,集群进入暂停状态。客户管理的资源(例如外部文件系统)保持不变。您可以使用 AWS PCS 控制台和 API 操作来访问集群的配置。

我能否重启已暂停的集群以恢复其剩余任务?

不,您无法重启已暂停的集群。您可以使用暂停集群的配置来创建支持的 Slurm 版本的新集群。如果将剩余的作业保存在外部文件系统中,则可以运行它们。

我能否在 12 个月的宽限期之后申请延期?

不可以,在 12 个月的宽限期之后,您不能请求延期以运行您的集群。我们延长了时间,帮助您切换到支持的 Slurm 版本。为避免集群操作中断,我们建议您在 Slurm 版本到期 OL 之前进行切换。