

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Perguntas frequentes sobre a reinicialização do Slurm no PCS AWS
<a name="slurm-reboot-faq"></a>

Encontre respostas para perguntas comuns sobre como usar a reinicialização do Slurm no PCS. AWS 

**O que é o suporte à reinicialização do Slurm?**  
Support para o comando nativo do Slurm. `scontrol reboot` Use esse comando para reinicializar os nós de computação sem a substituição automática da instância, o que preserva a capacidade da instância EC2 e reduz os custos operacionais.

**Quem pode usar os comandos de reinicialização do Slurm?**  
Somente usuários do Slurm Admin (usuários root) podem executar comandos de reinicialização. Usuários comuns que tentarem usar `scontrol reboot` receberão um erro de permissão negada do Slurm sem afetar o nó.

**O que acontece com os trabalhos em execução durante uma reinicialização?**  
Por padrão, os trabalhos são concluídos normalmente antes da reinicialização. Com a opção ASAP, o nó é drenado para evitar novos trabalhos, e a reinicialização ocorre após a conclusão dos trabalhos atuais. Os trabalhos podem ser cancelados ou colocados novamente na fila para reinicializações imediatas.

**Como isso é diferente da reinicialização do console EC2?**  
A reinicialização do Slurm preserva a instância do EC2 e evita a substituição, enquanto as reinicializações do console do EC2 acionam o PCS para substituir a instância devido a falhas nas verificações de integridade durante o processo de reinicialização.

**Posso configurar scripts de reinicialização personalizados?**  
Não, a RebootProgram configuração não é suportada na versão inicial. O recurso usa o comportamento padrão de reinicialização do Slurm sem suporte a scripts personalizados.

**Quanto tempo demora a reinicialização do Slurm?**  
O tempo de reinicialização varia de acordo com o tipo de instância, os processos de inicialização do cliente, a configuração da AMI e se os trabalhos precisam ser concluídos primeiro. O processo inclui aguardar a conclusão dos trabalhos, reinicialização física, verificações de integridade e registro do daemon slurmd.

**Posso ver um histórico de reinicializações?**  
Os eventos de reinicialização são registrados nos registros do Slurm (slurmctld e slurmd), que podem ser monitorados. CloudWatch O campo do motivo no status do nó mostra o motivo da reinicialização durante o processo.

**E se um nó ficar preso durante a reinicialização?**  
Se um nó não concluir o processo de reinicialização interno ResumeTimeout, ele será marcado como INATIVO. Verifique se há erros CloudWatch nos registros, verifique a conectividade de rede e examine os registros do slurmd. Entre em contato com AWS o Support se os problemas persistirem.

**Posso reinicializar vários nós ao mesmo tempo?**  
Sim, você pode especificar vários nós no comando de reinicialização:  

```
scontrol reboot ASAP node1,node2,node3
```

**Como posso reinicializar um nó sem esperar que os trabalhos sejam concluídos?**  
Para reinicializações imediatas dos nós ao enfrentar problemas como nós problemáticos que afetam tarefas de vários nós, degradação significativa do desempenho ou comportamento instável da GPU, você tem duas opções:  
+ **Cancelar e reinicializar** — Primeiro, cancele os trabalhos afetados usando e, em seguida`scancel <job_id>`, inicie uma reinicialização imediata usando. `scontrol reboot ASAP <nodename>` Os trabalhos em execução serão encerrados e precisarão ser reenviados após a recuperação do nó.
+ **Drenagem e reenfileiramento (menos impactante)** — Comece iniciando uma drenagem e reinicie com`scontrol reboot ASAP <nodename>`, em seguida, reenfileire os trabalhos afetados usando. `scontrol requeue <job_id>` Isso coloca os trabalhos de volta ao estado pendente em vez de cancelá-los.

**O que acontece se eu especificar nextState=DOWN?**  
Se você especificar`nextstate=DOWN`, o nó será marcado como não íntegro após a reinicialização e acionar a substituição da instância. Para evitar a substituição da instância, não especifique nextstate nem use. `nextstate=RESUME`

## Recursos adicionais do
<a name="slurm-reboot-faq-additional-resources"></a>
+ Para obter os procedimentos básicos de reinicialização, consulte[Reinicialize um nó de computação usando o Slurm no PCS AWS](slurm-reboot-procedure.md).
+ Para solucionar problemas de reinicialização, consulte[Solucionando problemas de reinicialização do Slurm no PCS AWS](slurm-reboot-troubleshooting.md).
+ Para a documentação de reinicialização do Slurm, consulte a documentação do [Slurm](https://slurm.schedmd.com/scontrol.html#OPT_reboot) scontrol.