Starten Sie einen Rechenknoten mit Slurm in PCS neu AWS - AWS PCS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Starten Sie einen Rechenknoten mit Slurm in PCS neu AWS

Verwenden Sie den nativen Reboot-Befehl von Slurm, um Leistungsprobleme zu lösen, Ressourcenprobleme zu beheben oder die Wiederherstellung aus heruntergefahrenen Zuständen ohne Verlust der EC2-Instance-Kapazität wiederherzustellen.

Voraussetzungen

  • Slurm-Admin-Rechte (Root-Benutzerzugriff)

  • Zugriff auf einen Login-Knoten im AWS PCS-Cluster

Verfahren

  1. Stellen Sie über die EC2-Konsole eine Connect zu einem Anmeldeknoten her.

    1. Wählen Sie in der EC2-Konsole Instances aus.

    2. Wählen Sie Ihre Login-Node-Instance aus.

    3. Wählen Sie Connect aus.

  2. Identifizieren Sie den Namen des Ziel-Compute-Knotens mit sinfo oderscontrol show node.

    sinfo # or scontrol show node
  3. Führen Sie den Befehl reboot mit einer der folgenden Optionen aus:

    Warnung

    Nicht nextstate=DOWN zusammen mit dem scontrol reboot Befehl verwenden. Dieser Parameter kennzeichnet den Knoten als fehlerhaft und löst den Instanzersatz aus.

    • Grundlegender Neustart (wartet darauf, dass der Knoten inaktiv wird):

      scontrol reboot nodename
    • Sofortiger Neustart (leert den Knoten und startet neu, wenn die Jobs abgeschlossen sind):

      scontrol reboot ASAP nodename
    • Starten Sie mit folgendem Grund neu:

      scontrol reboot ASAP reason="troubleshooting" nodename
    • Neustart mit Wiederaufnahmestatus:

      scontrol reboot ASAP nextstate=RESUME nodename
  4. Überwachen Sie den Fortschritt des Neustarts mitscontrol show node.

    scontrol show node nodename
  5. Stellen Sie sicher, dass der Knoten nach Abschluss des Neustarts wieder betriebsbereit ist.