Qué configuraciones concretas administra HyperPod en los archivos de configuración de Slurm - Amazon SageMaker AI

Qué configuraciones concretas administra HyperPod en los archivos de configuración de Slurm

Al crear un clúster de Slurm en HyperPod, el agente de HyperPod configura los archivos slurm.conf y gres.conf en /opt/slurm/etc/ para administrar el clúster de Slurm en función de la solicitud de creación del clúster de HyperPod y de los scripts de ciclo de vida. En la siguiente lista, se muestran los parámetros específicos que administra y sobrescribe el agente de HyperPod.

importante

Le recomendamos encarecidamente que no cambie estos parámetros administrados por HyperPod.

  • En slurm.conf, HyperPod configura los siguientes parámetros básicos: ClusterName, SlurmctldHost, PartitionName y NodeName.

    Además, para habilitar la función de Reanudación automática, HyperPod requiere que los parámetros TaskPlugin y SchedulerParameters estén configurados de la siguiente manera. El agente HyperPod configura estos dos parámetros con los valores necesarios de forma predeterminada.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • En gres.conf, HyperPod administra NodeName para los nodos de la GPU.