Quais configurações específicas o HyperPod gerencia nos arquivos de configuração do Slurm
Quando você cria um cluster Slurm no HyperPod, o agente do HyperPod configura os arquivos slurm.confgres.conf/opt/slurm/etc/ para gerenciar o cluster do Slurm com base na solicitação de criação do cluster do HyperPod e nos scripts de ciclo de vida. A lista a seguir mostra quais parâmetros específicos o agente HyperPod manipula e substitui.
Importante
É altamente recomendável que você não altere esses parâmetros gerenciados pelo HyperPod.
-
Em
slurm.conf, o HyperPod configura os seguintes parâmetros básicos: ClusterName,SlurmctldHost,PartitionNameeNodeName.Além disso, para ativar a funcionalidade Retomada automática, o HyperPod requer os parâmetros
TaskPlugineSchedulerParametersdefinidos da seguinte forma: O agente HyperPod configura esses dois parâmetros com os valores necessários por padrão.TaskPlugin=task/none SchedulerParameters=permit_job_expansion -
Em
gres.conf, o HyperPod gerencia NodeNameos nós da GPU.