View a markdown version of this page

AWS PCS에서 Slurm을 사용하여 컴퓨팅 노드 재부팅 - AWS PCS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS PCS에서 Slurm을 사용하여 컴퓨팅 노드 재부팅

Slurm의 기본 재부팅 명령을 사용하여 성능 문제를 해결하거나, 리소스 문제를 해결하거나, EC2 인스턴스 용량 손실 없이 성능이 저하된 상태에서 복구할 수 있습니다.

사전 조건

  • Slurm 관리자 권한(루트 사용자 액세스)

  • AWS PCS 클러스터의 로그인 노드에 대한 액세스

절차

  1. EC2 콘솔을 통해 로그인 노드에 연결합니다.

    1. EC2 콘솔에서 Instances(인스턴스)를 선택합니다.

    2. 로그인 노드 인스턴스를 선택합니다.

    3. 연결을 선택합니다.

  2. sinfo 또는를 사용하여 대상 컴퓨팅 노드 이름을 식별합니다scontrol show node.

    sinfo # or scontrol show node
  3. 다음 옵션 중 하나를 사용하여 재부팅 명령을 실행합니다.

    주의

    scontrol reboot 명령과 nextstate=DOWN 함께를 사용하지 마십시오. 이 파라미터는 노드를 비정상으로 표시하고 인스턴스 교체를 트리거합니다.

    • 기본 재부팅(노드가 유휴 상태가 될 때까지 대기):

      scontrol reboot nodename
    • 즉시 재부팅(노드를 해제하고 작업이 완료되면 재부팅):

      scontrol reboot ASAP nodename
    • 이유와 함께 재부팅:

      scontrol reboot ASAP reason="troubleshooting" nodename
    • 재개 상태로 재부팅:

      scontrol reboot ASAP nextstate=RESUME nodename
  4. 를 사용하여 재부팅 진행 상황을 모니터링합니다scontrol show node.

    scontrol show node nodename
  5. 재부팅 완료 후 노드가 서비스로 돌아가는지 확인합니다.