

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Häufig gestellte Fragen zum Slurm-Neustart in AWS PCS
<a name="slurm-reboot-faq"></a>

Hier finden Sie Antworten auf häufig gestellte Fragen zur Verwendung von Slurm Reboot in AWS PCS.

**Was ist die Unterstützung für den Neustart von Slurm?**  
Support für den nativen `scontrol reboot` Slurm-Befehl. Verwenden Sie diesen Befehl, um Rechenknoten ohne automatischen Instanzaustausch neu zu starten, wodurch die EC2-Instanzkapazität erhalten bleibt und die Betriebskosten gesenkt werden.

**Wer kann Slurm-Reboot-Befehle verwenden?**  
Nur Slurm-Admin-Benutzer (Root-Benutzer) können Reboot-Befehle ausführen. Reguläre Benutzer, die versuchen, diese zu verwenden, `scontrol reboot` erhalten von Slurm die Fehlermeldung „Zugriff verweigert“, ohne dass dies Auswirkungen auf den Knoten hat.

**Was passiert mit laufenden Jobs während eines Neustarts?**  
Standardmäßig werden Jobs vor dem Neustart normal abgeschlossen. Mit der ASAP-Option wird der Knoten entleert, um neue Jobs zu verhindern, und der Neustart erfolgt, nachdem die aktuellen Jobs abgeschlossen sind. Jobs können storniert oder für sofortige Neustarts in die Warteschlange gestellt werden.

**Wie unterscheidet sich das vom Neustart der EC2-Konsole?**  
Beim Slurm-Neustart bleibt die EC2-Instance erhalten und ein Austausch wird vermieden, während bei Neustarts der EC2-Konsole PCS die Instance aufgrund fehlgeschlagener Integritätsprüfungen während des Neustarts ersetzt.

**Kann ich benutzerdefinierte Neustart-Skripts konfigurieren?**  
Nein, die RebootProgram Konfiguration wird in der ersten Version nicht unterstützt. Die Funktion verwendet das standardmäßige Neustartverhalten von Slurm ohne Unterstützung für benutzerdefinierte Skripts.

**Wie lange dauert ein Slurm-Neustart?**  
Die Neustartzeit hängt vom Instance-Typ, den Startprozessen des Kunden, der AMI-Konfiguration und davon ab, ob Jobs zuerst abgeschlossen werden müssen. Der Prozess umfasst das Warten auf den Abschluss von Jobs, den physischen Neustart, Integritätsprüfungen und die Registrierung des Slurmd-Daemons.

**Kann ich den Verlauf der Neustarts einsehen?**  
Neustart-Ereignisse werden in Slurm-Logs (slurmctld und slurmd) aufgezeichnet, die überwacht werden können. CloudWatch Das Feld „Grund“ im Knotenstatus zeigt den Grund für den Neustart während des Vorgangs an.

**Was passiert, wenn ein Knoten beim Neustart hängen bleibt?**  
Wenn ein Knoten den Neustartvorgang nicht innerhalb dieses Zeitraums ResumeTimeout abschließt, wird er als INAKTIV markiert. Überprüfen Sie die CloudWatch Protokolle auf Fehler, überprüfen Sie die Netzwerkkonnektivität und untersuchen Sie die Slurmd-Protokolle. Wenden Sie sich an den AWS Support, falls das Problem weiterhin besteht.

**Kann ich mehrere Knoten gleichzeitig neu starten?**  
Ja, Sie können im Reboot-Befehl mehrere Knoten angeben:  

```
scontrol reboot ASAP node1,node2,node3
```

**Wie kann ich einen Knoten neu starten, ohne darauf zu warten, dass Jobs abgeschlossen sind?**  
Für sofortige Neustarts von Knoten bei Problemen wie problematischen Knoten, die sich auf Jobs mit mehreren Knoten auswirken, erheblichen Leistungseinbußen oder instabilem GPU-Verhalten haben Sie zwei Möglichkeiten:  
+ **Abbrechen und neu starten** — Brechen Sie zuerst die betroffenen Jobs mit `scancel <job_id>` ab und initiieren Sie dann einen sofortigen Neustart mit. `scontrol reboot ASAP <nodename>` Laufende Jobs werden beendet und müssen erneut eingereicht werden, nachdem der Knoten wiederhergestellt ist.
+ **Drain and Requeue (weniger wirksam) — Initiieren Sie zunächst einen Drain und starten Sie ihn neu. Stellen Sie dann die betroffenen** Jobs mit `scontrol reboot ASAP <nodename>` in die Warteschlange. `scontrol requeue <job_id>` Dadurch werden Jobs wieder in den Status „Ausstehend“ versetzt, anstatt sie abzubrechen.

**Was passiert, wenn ich nextState=down spezifiziere?**  
Wenn Sie dies angeben`nextstate=DOWN`, wird der Knoten nach dem Neustart als fehlerhaft markiert und löst den Instanzersatz aus. Um den Austausch von Instanzen zu vermeiden, geben Sie weder nextstate noch use an. `nextstate=RESUME`

## Weitere Ressourcen
<a name="slurm-reboot-faq-additional-resources"></a>
+ Grundlegende Verfahren zum Neustart finden Sie unter[Starten Sie einen Rechenknoten mit Slurm in PCS neu AWS](slurm-reboot-procedure.md).
+ Informationen zur Behebung von Neustartproblemen finden Sie unter[Behebung von Problemen mit dem Slurm-Neustart auf PCS AWS](slurm-reboot-troubleshooting.md).
+ Die Dokumentation zum Slurm-Neustart finden Sie in der [Slurm-Control-Dokumentation](https://slurm.schedmd.com/scontrol.html#OPT_reboot).