Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Riavvia un nodo di elaborazione utilizzando Slurm in PCS AWS
Usa il comando di riavvio nativo di Slurm per risolvere problemi di prestazioni, eliminare problemi di risorse o ripristinare da stati degradati senza perdita della capacità delle istanze EC2.
Prerequisiti
-
Privilegi di amministratore di Slurm (accesso utente root)
-
Accesso a un nodo di accesso nel cluster PCS AWS
Procedura
-
Connect a un nodo di accesso tramite la console EC2.
-
Nella console EC2, scegli Instances (Istanze).
-
Seleziona l'istanza del tuo nodo di accesso.
-
Scegli Connetti.
-
-
Identifica il nome del nodo di calcolo di destinazione utilizzando
sinfooscontrol show node.sinfo # or scontrol show node -
Esegui il comando reboot utilizzando una di queste opzioni:
avvertimento
Non utilizzare
nextstate=DOWNcon ilscontrol rebootcomando. Questo parametro contrassegna il nodo come non integro e attiva la sostituzione dell'istanza.-
Riavvio di base (attende che il nodo diventi inattivo):
scontrol rebootnodename -
Riavvio immediato (drena il nodo e si riavvia al termine dei processi):
scontrol reboot ASAPnodename -
Riavvia con motivo:
scontrol reboot ASAP reason="troubleshooting"nodename -
Riavvia con lo stato di ripristino:
scontrol reboot ASAP nextstate=RESUMEnodename
-
-
Monitora l'avanzamento del riavvio utilizzando.
scontrol show nodescontrol show nodenodename -
Verifica che il nodo ritorni in servizio dopo il completamento del riavvio.