Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Starten Sie einen Rechenknoten mit Slurm in PCS neu AWS
Verwenden Sie den nativen Reboot-Befehl von Slurm, um Leistungsprobleme zu lösen, Ressourcenprobleme zu beheben oder die Wiederherstellung aus heruntergefahrenen Zuständen ohne Verlust der EC2-Instance-Kapazität wiederherzustellen.
Voraussetzungen
-
Slurm-Admin-Rechte (Root-Benutzerzugriff)
-
Zugriff auf einen Login-Knoten im AWS PCS-Cluster
Verfahren
-
Stellen Sie über die EC2-Konsole eine Connect zu einem Anmeldeknoten her.
-
Wählen Sie in der EC2-Konsole Instances aus.
-
Wählen Sie Ihre Login-Node-Instance aus.
-
Wählen Sie Connect aus.
-
-
Identifizieren Sie den Namen des Ziel-Compute-Knotens mit
sinfooderscontrol show node.sinfo # or scontrol show node -
Führen Sie den Befehl reboot mit einer der folgenden Optionen aus:
Warnung
Nicht
nextstate=DOWNzusammen mit demscontrol rebootBefehl verwenden. Dieser Parameter kennzeichnet den Knoten als fehlerhaft und löst den Instanzersatz aus.-
Grundlegender Neustart (wartet darauf, dass der Knoten inaktiv wird):
scontrol rebootnodename -
Sofortiger Neustart (leert den Knoten und startet neu, wenn die Jobs abgeschlossen sind):
scontrol reboot ASAPnodename -
Starten Sie mit folgendem Grund neu:
scontrol reboot ASAP reason="troubleshooting"nodename -
Neustart mit Wiederaufnahmestatus:
scontrol reboot ASAP nextstate=RESUMEnodename
-
-
Überwachen Sie den Fortschritt des Neustarts mit
scontrol show node.scontrol show nodenodename -
Stellen Sie sicher, dass der Knoten nach Abschluss des Neustarts wieder betriebsbereit ist.