

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# AWS PCS에서 Slurm 재부팅 자주 묻는 질문
<a name="slurm-reboot-faq"></a>

 AWS PCS에서 Slurm 재부팅 사용에 대한 일반적인 질문에 대한 답변을 찾습니다.

**Slurm 재부팅 지원이란 무엇입니까?**  
네이티브 Slurm `scontrol reboot` 명령을 지원합니다. 이 명령을 사용하면 자동 인스턴스 교체 없이 컴퓨팅 노드를 재부팅하여 EC2 인스턴스 용량을 유지하고 운영 비용을 절감할 수 있습니다.

**Slurm 재부팅 명령은 누가 사용할 수 있나요?**  
Slurm 관리자 사용자(루트 사용자)만 재부팅 명령을 실행할 수 있습니다. 를 사용하려는 일반 사용자는 노드에 영향을 주지 않고 Slurm에서 권한 거부 오류를 `scontrol reboot` 수신합니다.

**재부팅 중에 작업을 실행하면 어떻게 되나요?**  
기본적으로 재부팅이 발생하기 전에 작업이 정상적으로 완료됩니다. ASAP 옵션을 사용하면 노드가 드레이닝되어 새 작업을 방지하고 현재 작업이 완료된 후 재부팅됩니다. 작업을 취소하거나 즉시 재부팅할 대기열에 추가할 수 있습니다.

**EC2 콘솔 재부팅과 어떻게 다릅니까?**  
Slurm 재부팅은 EC2 인스턴스를 보존하고 교체를 방지하는 반면, EC2 콘솔 재부팅은 재부팅 프로세스 중 상태 확인 실패로 인해 인스턴스를 교체하기 위해 트리거 PCS를 재부팅합니다.

**사용자 지정 재부팅 스크립트를 구성할 수 있습니까?**  
아니요. 초기 릴리스에서는 RebootProgram 구성이 지원되지 않습니다. 이 기능은 사용자 지정 스크립트 지원 없이 표준 Slurm 재부팅 동작을 사용합니다.

**Slurm 재부팅에는 얼마나 걸리나요?**  
재부팅 시간은 인스턴스 유형, 고객 부팅 프로세스, AMI 구성 및 작업을 먼저 완료해야 하는지 여부에 따라 달라집니다. 이 프로세스에는 작업이 완료될 때까지 대기, 물리적 재부팅, 상태 확인 및 슬러먼 데몬 등록이 포함됩니다.

**재부팅 기록을 볼 수 있나요?**  
재부팅 이벤트는 CloudWatch를 통해 모니터링할 수 있는 Slurm 로그(slurmctld 및 slurmd)에 기록됩니다. 노드 상태의 이유 필드에는 프로세스 중 재부팅 이유가 표시됩니다.

**재부팅 중에 노드가 멈추면 어떻게 되나요?**  
노드가 ResumeTimeout 내에서 재부팅 프로세스를 완료하지 않으면 DOWN으로 표시됩니다. CloudWatch 로그에서 오류를 확인하고, 네트워크 연결을 확인하고, 지연 로그를 검사합니다. 문제가 지속되면 AWS Support에 문의하세요.

**여러 노드를 한 번에 재부팅할 수 있나요?**  
예, 재부팅 명령에서 여러 노드를 지정할 수 있습니다.  

```
scontrol reboot ASAP node1,node2,node3
```

**작업이 완료될 때까지 기다리지 않고 노드를 재부팅하려면 어떻게 해야 합니까?**  
다중 노드 작업에 영향을 미치는 문제가 있는 노드, 상당한 성능 저하 또는 불안정한 GPU 동작과 같은 문제가 발생할 때 즉시 노드 재부팅하는 경우 두 가지 옵션이 있습니다.  
+ **취소 및 재부팅** - 먼저를 사용하여 영향을 받는 작업을 취소`scancel <job_id>`한 다음를 사용하여 즉시 재부팅을 시작합니다`scontrol reboot ASAP <nodename>`. 실행 중인 작업은 종료되며 노드가 복구된 후 다시 제출해야 합니다.
+ **드레이닝 및 대기열 재지정(영향력 낮음)** - 드레이닝을 시작하고 로 재부팅한 다음 `scontrol reboot ASAP <nodename>`를 사용하여 영향을 받는 작업을 다시 대기열에 추가합니다`scontrol requeue <job_id>`. 그러면 작업을 취소하는 대신 작업이 다시 보류 중 상태로 전환됩니다.

**nextstate=DOWN을 지정하면 어떻게 되나요?**  
`nextstate=DOWN`를 지정하면 재부팅 후 노드가 비정상으로 표시되고 인스턴스 교체가 트리거됩니다. 인스턴스 교체를 방지하려면 다음 상태를 지정하거나를 사용하지 마십시오`nextstate=RESUME`.

## 추가 리소스
<a name="slurm-reboot-faq-additional-resources"></a>
+ 기본 재부팅 절차는 섹션을 참조하세요[AWS PCS에서 Slurm을 사용하여 컴퓨팅 노드 재부팅](slurm-reboot-procedure.md).
+ 재부팅 문제 해결은 섹션을 참조하세요[AWS PCS의 Slurm 재부팅 문제 해결](slurm-reboot-troubleshooting.md).
+ Slurm 재부팅 설명서는 [Slurm scontrol 설명서를](https://slurm.schedmd.com/scontrol.html#OPT_reboot) 참조하세요.