Riavvia un nodo di elaborazione utilizzando Slurm in PCS AWS - AWS PC

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Riavvia un nodo di elaborazione utilizzando Slurm in PCS AWS

Usa il comando di riavvio nativo di Slurm per risolvere problemi di prestazioni, eliminare problemi di risorse o ripristinare da stati degradati senza perdita della capacità delle istanze EC2.

Prerequisiti

  • Privilegi di amministratore di Slurm (accesso utente root)

  • Accesso a un nodo di accesso nel cluster PCS AWS

Procedura

  1. Connect a un nodo di accesso tramite la console EC2.

    1. Nella console EC2, scegli Instances (Istanze).

    2. Seleziona l'istanza del tuo nodo di accesso.

    3. Scegli Connetti.

  2. Identifica il nome del nodo di calcolo di destinazione utilizzando sinfo oscontrol show node.

    sinfo # or scontrol show node
  3. Esegui il comando reboot utilizzando una di queste opzioni:

    avvertimento

    Non utilizzare nextstate=DOWN con il scontrol reboot comando. Questo parametro contrassegna il nodo come non integro e attiva la sostituzione dell'istanza.

    • Riavvio di base (attende che il nodo diventi inattivo):

      scontrol reboot nodename
    • Riavvio immediato (drena il nodo e si riavvia al termine dei processi):

      scontrol reboot ASAP nodename
    • Riavvia con motivo:

      scontrol reboot ASAP reason="troubleshooting" nodename
    • Riavvia con lo stato di ripristino:

      scontrol reboot ASAP nextstate=RESUME nodename
  4. Monitora l'avanzamento del riavvio utilizzando. scontrol show node

    scontrol show node nodename
  5. Verifica che il nodo ritorni in servizio dopo il completamento del riavvio.