PCS 中 Slurm 版本的发行说明 AWS - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

PCS 中 Slurm 版本的发行说明 AWS

本主题介绍了 PCS 当前支持的每个 Slurm 版本的重要更改。 AWS 我们建议您在升级集群时查看新旧版本之间的变化。

在 AWS PCS 中实施的更改
  • 现在,默认情况下,Slurm requeue_on_resume_f SchedulerParameter ailure 处于启用状态。

  • “stderr” 作为选项已被删除 LogTimeFormat,因为它在 Slurm 25.05 中被禁用。

  • AWS PCS 支持多集群 sackd 配置:登录节点可以访问多个集群。

有关 Slurm 25.05 的更多信息,请参阅以下出版物:

在 AWS PCS 中实施的更改

有关 Slurm 24.11 的更多信息,请参阅以下出版物:

在 AWS PCS 中实施的更改
  • 现在,新的 Slurm Step Manager 模块在 PCS 中 AWS 已默认启用。该模块通过将步骤管理从中央控制器转移到计算节点来提供显著的好处,从而大大提高了步进使用量大的环境中的系统并发性。为了支持此配置以及更好的隔离PrologEpilog流程执行,启用了新的 prolog 标志 (Contain,Alloc)。

  • 支持从控制器到计算节点的分层通信,以优化 Slurm 节点内通信,从而提高可扩展性和性能。此外,路由配置现在使用分区节点列表进行来自控制器的通信,而不是插件的默认路由算法,从而增强了系统的弹性。

  • 新的哈希插件HashPlugin=hash/sha3取代了以前的哈希插件hash/k12 plugin。现在,在 AWS PCS 集群中,此功能已默认启用。

  • Slurm 控制器日志现在包括针对所有入站远程过程调用 (RPC) 的增强审计功能。slurmctld日志包括源地址、经过身份验证的用户和连接处理之前的 RPC 类型。

有关 Slurm 24.05 的更多信息,请参阅以下出版物:

你可以在 PCS 中更改 Slurm 设置 AWS
  • SuspendTime默认为60。使用 AWS PCS scaleDownIdleTimeInSeconds 配置参数进行设置。有关更多信息,请参阅《AWS PCS API 参考》中ClusterSlurmConfiguration数据类型的scaleDownIdleTimeInSeconds参数。

  • MaxJobCountMaxArraySize基于您为集群选择的大小。有关更多信息,请参阅《AWS PCS CreateCluster API 参考》中的 API 操作size参数。

  • S SelectTypeParameters lurm 设置默认为。CR_CPU您可以将其作为值提供,slurmCustomSettings以便在创建集群时对其进行设置。有关更多信息,请参阅 CreateCluster API 操作的slurmCustomSettings参数和 AWS PCS API 参考SlurmCustomSetting中。

  • 可以在集群级别设置PrologEpilog。您可以将其作为值提供,slurmCustomSettings以便在创建集群时对其进行设置。有关更多信息,请参阅 AWS PCS API 参考SlurmCustomSetting中的CreateCluster和。

  • 可以在计算节点组级别设置WeightRealMemory。在创建计算节点组时slurmCustomSettings,可以将其作为值进行设置。有关更多信息,请参阅 AWS PCS API 参考SlurmCustomSetting中的CreateComputeNodeGroup和。