Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Riavvio dei nodi di calcolo con Slurm in PCS AWS
AWS PCS supporta il comando nativo di Slurm. scontrol reboot Usa questo comando per riavviare i nodi di calcolo senza sostituire l'istanza EC2. Altri metodi di riavvio (console Amazon EC2 AWS CLI, patch automatiche o manutenzione del sistema) AWS fanno sì che PCS consideri l'istanza EC2 non integra e la sostituisca.
Vantaggi del riavvio di Slurm
Il riavvio di Slurm offre diversi vantaggi per la manutenzione del cluster:
-
Conserva la capacità: evita di perdere istanze EC2 con limiti di capacità a favore di altri clienti.
-
Riduzione dei costi: elimina i cicli di sostituzione delle istanze non necessari e la fatturazione continua per i nodi inattivi.
-
Ripristino più rapido: nessun ritardo nel provisioning rispetto alla sostituzione delle istanze.
-
Flessibilità operativa: elimina le perdite di memoria, rimuove i file temporanei e ripristina i nodi da stati degradati.
Quando usare Slurm reboot
Usa Slurm reboot per scenari di manutenzione operativa comuni:
-
Risoluzione dei problemi: risolvi i problemi di prestazioni o i processi che non rispondono, in particolare per i nodi GPU.
-
Pulizia delle risorse: elimina le perdite di memoria, i file temporanei o i processi bloccati che
/tmpinfluiscono sulle prestazioni lavorative. -
Ripristino: ripristina i nodi da stati bloccati o degradati prima di richiedere la sostituzione completa dei nodi.
Limitazioni
-
Solo gli utenti Slurm Admin (utenti root) possono eseguire comandi di riavvio.
-
Il supporto per il riavvio è limitato a.
scontrol reboot -
RebootProgram la configurazione non è supportata.
-
Nessuna interfaccia di console, solo riga di comando.