Quelles configurations particulières HyperPod gère dans les fichiers de configuration de Slurm - Amazon SageMaker AI

Quelles configurations particulières HyperPod gère dans les fichiers de configuration de Slurm

Lorsque vous créez un cluster Slurm sur HyperPod, l’agent HyperPod configure les fichiers slurm.conf et gres.conf dans /opt/slurm/etc/ pour gérer le cluster Slurm en fonction de votre demande de création de cluster HyperPod et de vos scripts de cycle de vie. La liste suivante indique les paramètres spécifiques que l’agent HyperPod gère et remplace.

Important

Nous vous recommandons vivement de ne pas modifier les paramètres gérés par HyperPod.

  • Dans slurm.conf, HyperPod configure les paramètres de base suivants : ClusterName, SlurmctldHost, PartitionName et NodeName.

    De plus, pour activer la fonctionnalité Reprise automatique, HyperPod nécessite que les paramètres TaskPlugin et SchedulerParameters soient définis comme suit. L’agent HyperPod configure ces deux paramètres avec les valeurs requises par défaut.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • Dans gres.conf, HyperPod gère NodeName pour les nœuds GPU.