

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 有关 PCS 中 Slurm 版本的常见问题 AWS
<a name="slurm-versions_faq"></a>

AWS PCS 保持对多个 Slurm 版本的支持。推出新的 Slurm 版本时， AWS PCS 会提供技术支持和安全补丁，直到该版本终止 SchedMD 的支持 (EOS)。 AWS 为了与术语保持一致，PCS 将 Slurm 版本的 EOS 日期称为生命周期结束 (EOL)。 AWS 

**AWS PCS 支持 Slurm 版本多长时间？**  
AWS PCS 对 Slurm 版本的支持与 SchedMD 对主要版本的支持周期一致。 AWS PCS 支持当前版本和 2 个最新的先前主要版本。当 SchedMD 发布新的主要版本时， AWS PCS 将终止对支持的最旧版本的支持。 AWS PCS 会尽快发布 Slurm 的新主要版本，但在 SchedMD 的发布和在 PCS 中的上市之间可能会有延迟。 AWS 

**我的集群如何获得新的 Slurm 补丁版本？**  
 为了解决错误和安全修复， AWS PCS 旨在自动将补丁应用于在内部服务拥有的帐户中运行的集群控制器。要在您的 EC2 实例上安装补丁 AWS 账户，请更新计算节点组的 Amazon 系统映像 (AMI)，并更新计算节点组以使用更新后的 AMI。有关更多信息，请参阅 [适用于 AWS PCS 的自定义 Amazon 机器映像 (AMIs)](working-with_ami_custom.md)。

**注意**  
 当我们更新 Slurm 控制器时，它们不可用。正在运行的作业不受影响。在集群的控制器变为不可用之前提交的任务将一直保留，直到控制器可用为止。

**我如何获悉即将推出的 Slurm 版本 EOL 活动？**  
 我们会在 EOL 日期前 6 个月向您发送一封电子邮件。我们每个月都会在 EOL 之前向您发送一封电子邮件，最后一封电子邮件将在 EOL 日期前 1 周发送给您。在 EOL 日期之后，我们会每月向运行 EOL Slurm 版本的 AWS PCS 集群的客户发送 12 个月的电子邮件。如果发现某个 EOL Slurm 版本存在安全漏洞，我们可能会暂停该版本的集群。

**如何确定我的集群使用的 Slurm 版本是否正在运行 EOL Slurm 版本？**  
我们会向您发送一封电子邮件，通知您您的集群正在运行 EOL Slurm 版本。我们会针对警报发布警 AWS Health Dashboard 报，其中包含使用 EOL Slurm 版本的集群的详细信息。您还可以使用 AWS PCS 控制台识别具有 EOL Slurm 版本的集群。

**如果我的 Slurm 版本接近或超过 EOL，我该怎么做？**  
使用支持的最新版本的 Slurm 创建新集群，并在计算节点组 AMI 中更新 Slurm 版本。您的 AMI 和正在运行的 EC2 实例中的 Slurm 版本不能比集群的 Slurm 版本落后超过 2 个版本。有关更多信息，请参阅 [适用于 AWS PCS 的自定义 Amazon 机器映像 (AMIs)](working-with_ami_custom.md)。

**如果我没有在 EOL 日期之前切换到较新版本的 Slurm 会发生什么？**  
您无法使用 EOL Slurm 版本创建新集群。在没有 AWS 支持的情况下，现有集群可以运行长达 12 个月，无需立即采取行动即可维持其运行。停产日期过后，将无法保证支持、安全更新和可用性。出于安全原因，我们可能会暂停集群。我们强烈建议您使用支持的 Slurm 版本来维护您的 AWS PCS 集群的安全性和支持。

**使用 EOL Slurm 版本运行集群有哪些风险？**  
采用 EOL Slurm 版本的集群存在严重的安全和运营风险。如果没有 SchedMD 的主动监控，安全漏洞可能仍未被发现或未得到解决。如果发现严重漏洞，我们可能会立即暂停您的集群。

**集群暂停后，我的任务、集群计算、存储和网络资源会怎样？**  
 AWS PCS 管理的所有资源都将终止。这包括 Slurm 控制器、计算节点组和 EC2 实例。在计算实例上运行的任何作业都将立即终止，集群进入暂停状态。客户管理的资源（例如外部文件系统）保持不变。您可以使用 AWS PCS 控制台和 API 操作来访问集群的配置。

**我能否重启已暂停的集群以恢复其剩余任务？**  
不，您无法重启已暂停的集群。您可以使用暂停集群的配置来创建支持的 Slurm 版本的新集群。如果将剩余的作业保存在外部文件系统中，则可以运行它们。

**我能否在 12 个月的宽限期之后申请延期？**  
不可以，在 12 个月的宽限期之后，您不能请求延期以运行您的集群。我们延长了时间，帮助您切换到支持的 Slurm 版本。为避免集群操作中断，我们建议您在 Slurm 版本到期 OL 之前进行切换。