HyperPod 在 Slurm 組態檔案中管理哪些特定組態 - Amazon SageMaker AI

HyperPod 在 Slurm 組態檔案中管理哪些特定組態

當您在 HyperPod 上建立 Slurm 叢集時,HyperPod 代理程式會在 /opt/slurm/etc/ 設定 slurm.confgres.conf 檔案,以根據您的 HyperPod 叢集建立請求和生命週期指令碼來管理 Slurm 叢集。下列清單顯示 HyperPod 代理程式處理和覆寫哪些特定參數。

重要

強烈建議您不要變更 HyperPod 管理的這些參數。

  • slurm.conf 中,HyperPod 會設定下列基本參數:ClusterNameSlurmctldHostPartitionNameNodeName

    此外,為了啟用 自動繼續 功能,HyperPod 需要 TaskPluginSchedulerParameters 參數設定如下。HyperPod 代理程式預設會使用必要值來設定這兩個參數。

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • gres.conf 中,HyperPod 會管理 GPU 節點的 NodeName