Quais configurações específicas o HyperPod gerencia nos arquivos de configuração do Slurm - Amazon SageMaker AI

Quais configurações específicas o HyperPod gerencia nos arquivos de configuração do Slurm

Quando você cria um cluster Slurm no HyperPod, o agente do HyperPod configura os arquivos slurm.conf e gres.conf no /opt/slurm/etc/ para gerenciar o cluster do Slurm com base na solicitação de criação do cluster do HyperPod e nos scripts de ciclo de vida. A lista a seguir mostra quais parâmetros específicos o agente HyperPod manipula e substitui.

Importante

É altamente recomendável que você não altere esses parâmetros gerenciados pelo HyperPod.

  • Em slurm.conf, o HyperPod configura os seguintes parâmetros básicos: ClusterName, SlurmctldHost, PartitionName e NodeName.

    Além disso, para ativar a funcionalidade Retomada automática, o HyperPod requer os parâmetros TaskPlugin e SchedulerParameters definidos da seguinte forma: O agente HyperPod configura esses dois parâmetros com os valores necessários por padrão.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • Em gres.conf, o HyperPod gerencia NodeName os nós da GPU.