Quelles configurations particulières HyperPod gère dans les fichiers de configuration de Slurm
Lorsque vous créez un cluster Slurm sur HyperPod, l’agent HyperPod configure les fichiers slurm.confgres.conf/opt/slurm/etc/ pour gérer le cluster Slurm en fonction de votre demande de création de cluster HyperPod et de vos scripts de cycle de vie. La liste suivante indique les paramètres spécifiques que l’agent HyperPod gère et remplace.
Important
Nous vous recommandons vivement de ne pas modifier les paramètres gérés par HyperPod.
-
Dans
slurm.conf, HyperPod configure les paramètres de base suivants : ClusterName,SlurmctldHost,PartitionNameetNodeName.De plus, pour activer la fonctionnalité Reprise automatique, HyperPod nécessite que les paramètres
TaskPluginetSchedulerParameterssoient définis comme suit. L’agent HyperPod configure ces deux paramètres avec les valeurs requises par défaut.TaskPlugin=task/none SchedulerParameters=permit_job_expansion -
Dans
gres.conf, HyperPod gère NodeNamepour les nœuds GPU.