

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# Domande frequenti sul riavvio di Slurm in PCS AWS
<a name="slurm-reboot-faq"></a>

Trova le risposte alle domande più comuni sull'utilizzo di Slurm reboot in PCS. AWS 

**Cos'è il supporto per il riavvio di Slurm?**  
Support per il comando nativo Slurm. `scontrol reboot` Utilizza questo comando per riavviare i nodi di calcolo senza la sostituzione automatica delle istanze, in modo da preservare la capacità delle istanze EC2 e ridurre i costi operativi.

**Chi può usare i comandi di riavvio di Slurm?**  
Solo gli utenti Slurm Admin (utenti root) possono eseguire i comandi di riavvio. Gli utenti normali che tentano di utilizzare `scontrol reboot` riceveranno un errore di autorizzazione negata da Slurm senza influire sul nodo.

**Cosa succede ai job in esecuzione durante un riavvio?**  
Per impostazione predefinita, i processi vengono completati normalmente prima del riavvio. Con l'opzione ASAP, il nodo viene svuotato per evitare nuovi lavori e il riavvio avviene al termine dei processi correnti. I lavori possono essere annullati o richiesti per riavvii immediati.

**In che modo è diverso dal riavvio della console EC2?**  
Slurm reboot preserva l'istanza EC2 ed evita la sostituzione, mentre i riavvii della console EC2 attivano PCS per sostituire l'istanza a causa dei controlli di integrità falliti durante il processo di riavvio.

**Posso configurare script di riavvio personalizzati?**  
No, la RebootProgram configurazione non è supportata nella versione iniziale. La funzionalità utilizza il comportamento di riavvio standard di Slurm senza supporto di script personalizzati.

**Quanto tempo richiede il riavvio di Slurm?**  
Il tempo di riavvio varia in base al tipo di istanza, ai processi di avvio del cliente, alla configurazione AMI e al fatto che i job debbano essere completati prima. Il processo include l'attesa del completamento dei lavori, il riavvio fisico, i controlli di integrità e la registrazione del demone slurmd.

**Posso vedere una cronologia dei riavvii?**  
Gli eventi di riavvio vengono registrati nei log di Slurm (slurmctld e slurmd) che possono essere monitorati. CloudWatch Il campo motivo nello stato del nodo mostra il motivo del riavvio durante il processo.

**Cosa succede se un nodo si blocca durante il riavvio?**  
Se un nodo non completa il processo di riavvio all'interno ResumeTimeout, verrà contrassegnato come DOWN. Controlla la presenza di errori CloudWatch nei log, verifica la connettività di rete ed esamina i log slurmd. Contatta l' AWS assistenza se il problema persiste.

**Posso riavviare più nodi contemporaneamente?**  
Sì, puoi specificare più nodi nel comando reboot:  

```
scontrol reboot ASAP node1,node2,node3
```

**Come posso riavviare un nodo senza attendere il completamento dei processi?**  
Per il riavvio immediato dei nodi in caso di problemi quali nodi problematici che influiscono su processi multinodo, un significativo peggioramento delle prestazioni o un comportamento instabile della GPU, sono disponibili due opzioni:  
+ **Annulla e riavvia**: innanzitutto, annulla i lavori interessati utilizzando, quindi avvia un riavvio immediato utilizzando`scancel <job_id>`. `scontrol reboot ASAP <nodename>` I processi in esecuzione verranno interrotti e dovranno essere nuovamente inviati dopo il ripristino del nodo.
+ **Drain and Requeue (meno impattante)**: inizia avviando un drenaggio e riavvia con, quindi richiedi i lavori interessati utilizzando. `scontrol reboot ASAP <nodename>` `scontrol requeue <job_id>` In questo modo i lavori tornano in sospeso invece di annullarli.

**Cosa succede se specifico nextState=DOWN?**  
Se si specifica`nextstate=DOWN`, il nodo verrà contrassegnato come non integro dopo il riavvio e attiverà la sostituzione dell'istanza. Per evitare la sostituzione dell'istanza, non specificare nextstate o use. `nextstate=RESUME`

## Risorse aggiuntive
<a name="slurm-reboot-faq-additional-resources"></a>
+ Per le procedure di riavvio di base, vedere. [Riavvia un nodo di elaborazione utilizzando Slurm in PCS AWS](slurm-reboot-procedure.md)
+ Per la risoluzione dei problemi di riavvio, vedere. [Risoluzione dei problemi di riavvio di Slurm nei PCS AWS](slurm-reboot-troubleshooting.md)
+ [Per la documentazione sul riavvio di Slurm, consulta la documentazione di Slurm scontrol.](https://slurm.schedmd.com/scontrol.html#OPT_reboot)