HyperPod 在 Slurm 配置文件中管理哪些特定配置 - Amazon SageMaker AI

HyperPod 在 Slurm 配置文件中管理哪些特定配置

在 HyperPod 上创建 Slurm 集群时,HyperPod 座席会在 /opt/slurm/etc/ 处设置 slurm.confgres.conf 文件,以便根据 HyperPod 集群创建请求和生命周期脚本管理 Slurm 集群。下面的列表显示了 HyperPod 座席处理和覆盖的具体参数。

重要

我们强烈建议您不要更改这些由 HyperPod 管理的参数。

  • slurm.conf 中,HyperPod 设置了以下基本参数:ClusterNameSlurmctldHostPartitionNameNodeName

    此外,要启用 自动恢复 功能,HyperPod 还需要设置如下 TaskPluginSchedulerParameters 参数。HyperPod 座席默认为这两个参数设置所需的值。

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • gres.conf 中,HyperPod 为 GPU 节点管理 NodeName