기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS PCS에서 Slurm 재부팅 자주 묻는 질문
AWS PCS에서 Slurm 재부팅 사용에 대한 일반적인 질문에 대한 답변을 찾습니다.
- Slurm 재부팅 지원이란 무엇입니까?
-
네이티브 Slurm
scontrol reboot명령을 지원합니다. 이 명령을 사용하면 자동 인스턴스 교체 없이 컴퓨팅 노드를 재부팅하여 EC2 인스턴스 용량을 보존하고 운영 비용을 절감할 수 있습니다. - Slurm 재부팅 명령은 누가 사용할 수 있나요?
-
Slurm 관리자 사용자(루트 사용자)만 재부팅 명령을 실행할 수 있습니다. 를 사용하려는 일반 사용자는 노드에 영향을 주지 않고 Slurm으로부터 권한 거부 오류를 받게
scontrol reboot됩니다. - 재부팅 중에 작업을 실행하면 어떻게 되나요?
-
기본적으로 재부팅이 발생하기 전에 작업이 정상적으로 완료됩니다. ASAP 옵션을 사용하면 노드가 드레이닝되어 새 작업을 방지하고 현재 작업이 완료된 후 재부팅됩니다. 즉각적인 재부팅을 위해 작업을 취소하거나 다시 대기열에 추가할 수 있습니다.
- EC2 콘솔 재부팅과 어떻게 다릅니까?
-
Slurm 재부팅은 EC2 인스턴스를 보존하고 교체를 방지하는 반면, EC2 콘솔 재부팅은 재부팅 프로세스 중 상태 확인 실패로 인해 인스턴스를 교체하기 위해 PCS를 트리거합니다.
- 사용자 지정 재부팅 스크립트를 구성할 수 있습니까?
-
아니요. 초기 릴리스에서는 RebootProgram 구성이 지원되지 않습니다. 이 기능은 사용자 지정 스크립트 지원 없이 표준 Slurm 재부팅 동작을 사용합니다.
- Slurm 재부팅에는 얼마나 걸리나요?
-
재부팅 시간은 인스턴스 유형, 고객 부팅 프로세스, AMI 구성 및 작업을 먼저 완료해야 하는지 여부에 따라 달라집니다. 이 프로세스에는 작업이 완료될 때까지 대기, 물리적 재부팅, 상태 확인 및 슬러먼 데몬 등록이 포함됩니다.
- 재부팅 기록을 볼 수 있나요?
-
재부팅 이벤트는 CloudWatch를 통해 모니터링할 수 있는 Slurm 로그(slurmctld 및 slurmd)에 기록됩니다. 노드 상태의 이유 필드에는 프로세스 중 재부팅 이유가 표시됩니다.
- 재부팅 중에 노드가 멈추면 어떻게 되나요?
-
노드가 ResumeTimeout 내에서 재부팅 프로세스를 완료하지 않으면 DOWN으로 표시됩니다. CloudWatch 로그에서 오류를 확인하고, 네트워크 연결을 확인하고, 지연 로그를 검사합니다. 문제가 지속되면 AWS Support에 문의하세요.
- 여러 노드를 한 번에 재부팅할 수 있나요?
-
예, 재부팅 명령에서 여러 노드를 지정할 수 있습니다.
scontrol reboot ASAP node1,node2,node3 - 작업이 완료될 때까지 기다리지 않고 노드를 재부팅하려면 어떻게 해야 하나요?
-
다중 노드 작업에 영향을 미치는 문제가 있는 노드, 상당한 성능 저하 또는 불안정한 GPU 동작과 같은 문제가 발생할 때 즉시 노드 재부팅하는 경우 다음 두 가지 옵션이 있습니다.
-
취소 및 재부팅 - 먼저를 사용하여 영향을 받는 작업을 취소
scancel <job_id>한 다음를 사용하여 즉시 재부팅을 시작합니다scontrol reboot ASAP <nodename>. 실행 중인 작업은 종료되며 노드가 복구된 후 다시 제출해야 합니다. -
드레이닝 및 다시 대기열에 추가(영향력 낮음) - 드레이닝을 시작하고 로 재부팅한 다음
scontrol reboot ASAP <nodename>를 사용하여 영향을 받는 작업을 다시 대기열에 추가합니다scontrol requeue <job_id>. 그러면 작업을 취소하는 대신 작업이 다시 보류 중 상태로 전환됩니다.
-
- nextstate=DOWN을 지정하면 어떻게 되나요?
-
nextstate=DOWN를 지정하면 재부팅 후 노드가 비정상으로 표시되고 인스턴스 교체가 트리거됩니다. 인스턴스 교체를 방지하려면 다음 상태를 지정하거나를 사용하지 마십시오nextstate=RESUME.
추가 리소스
-
기본 재부팅 절차는 섹션을 참조하세요AWS PCS에서 Slurm을 사용하여 컴퓨팅 노드 재부팅.
-
재부팅 문제 해결은 섹션을 참조하세요AWS PCS에서 Slurm 재부팅 문제 해결.
-
Slurm 재부팅 설명서는 Slurm scontrol 설명서를
참조하세요.