Starten Sie einen Rechenknoten mit Slurm in neu AWS STK.

Verwenden Sie den nativen Reboot-Befehl von Slurm, um Leistungsprobleme zu lösen, Ressourcenprobleme zu beheben oder die Wiederherstellung aus heruntergefahrenen Zuständen ohne Verlust der EC2-Instance-Kapazität wiederherzustellen.

Voraussetzungen

Slurm-Admin-Rechte (Root-Benutzerzugriff)
Zugriff auf einen Login-Knoten im AWS PCS-Cluster

Verfahren

Stellen Sie über die EC2-Konsole eine Connect zu einem Anmeldeknoten her.
1. Wählen Sie in der EC2-Konsole Instances aus.
2. Wählen Sie Ihre Login-Node-Instance aus.
3. Wählen Sie Connect aus.
Identifizieren Sie den Namen des Ziel-Compute-Knotens mit sinfo oderscontrol show node.
```
sinfo
# or
scontrol show node
```
Führen Sie den Befehl reboot mit einer der folgenden Optionen aus:

Warnung
Nicht nextstate=DOWN zusammen mit dem scontrol reboot Befehl verwenden. Dieser Parameter kennzeichnet den Knoten als fehlerhaft und löst den Instanzersatz aus.
- Grundlegender Neustart (wartet darauf, dass der Knoten inaktiv wird):
```
scontrol reboot nodename
```
- Sofortiger Neustart (leert den Knoten und startet neu, wenn die Jobs abgeschlossen sind):
```
scontrol reboot ASAP nodename
```
- Mit folgendem Grund neu starten:
```
scontrol reboot ASAP reason="troubleshooting" nodename
```
- Neustart mit Wiederaufnahmestatus:
```
scontrol reboot ASAP nextstate=RESUME nodename
```
Überwachen Sie den Fortschritt des Neustarts mitscontrol show node.
```
scontrol show node nodename
```
Stellen Sie sicher, dass der Knoten nach Abschluss des Neustarts wieder betriebsbereit ist.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Slurm-Neustart

Neustart abbrechen