HyperPod 在 Slurm 配置文件中管理哪些特定配置
在 HyperPod 上创建 Slurm 集群时,HyperPod 座席会在 /opt/slurm/etc/ 处设置 slurm.confgres.conf
重要
我们强烈建议您不要更改这些由 HyperPod 管理的参数。
-
在
slurm.conf中,HyperPod 设置了以下基本参数: ClusterName、SlurmctldHost、PartitionName和NodeName。此外,要启用 自动恢复 功能,HyperPod 还需要设置如下
TaskPlugin和SchedulerParameters参数。HyperPod 座席默认为这两个参数设置所需的值。TaskPlugin=task/none SchedulerParameters=permit_job_expansion -
在
gres.conf中,HyperPod 为 GPU 节点管理 NodeName。