HyperPod가 Slurm 구성 파일에서 관리하는 특정 구성 - Amazon SageMaker AI

HyperPod가 Slurm 구성 파일에서 관리하는 특정 구성

HyperPod 에서 Slurm 클러스터를 생성하면 HyperPod 에이전트는 slurm.confgres.conf 파일을 /opt/slurm/etc/에 설정하여 HyperPod 클러스터 생성 요청 및 수명 주기 스크립트를 기반으로 Slurm 클러스터를 관리합니다. 다음 목록은 HyperPod 에이전트가 처리하고 덮어쓰는 특정 파라미터를 보여줍니다.

중요

HyperPod에서 관리하는 이러한 파라미터를 변경하지 않는 것이 좋습니다.

  • slurm.conf에서 HyperPod는 ClusterName, SlurmctldHost, PartitionName, 및 NodeName 기본 파라미터를 설정합니다.

    또한 자동 재개 기능을 활성화하려면 HyperPod에 다음과 같이 설정된 TaskPluginSchedulerParameters 파라미터가 필요합니다. HyperPod 에이전트는 기본적으로 필요한 값으로 이러한 두 파라미터를 설정합니다.

    TaskPlugin=task/none SchedulerParameters=permit_job_expansion
  • gres.conf에서 HyperPod는 GPU 노드의 NodeName을 관리합니다.