Behebung von Problemen mit dem Slurm-Neustart auf PCS AWS - AWS PCS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Behebung von Problemen mit dem Slurm-Neustart auf PCS AWS

Wenn beim Neustart des Knotens Probleme auftreten, überprüfen Sie zunächst den Knotenstatus mithilfe vonscontrol show node nodename. Untersuchen Sie dann die CloudWatch Protokolle sowohl auf Slurm (slurmctld und slurmd) als auch auf Systemprotokolle, um mögliche Fehler zu identifizieren.

Überprüfen Sie zur grundlegenden Fehlerbehebung die Netzwerkkonnektivität, überprüfen Sie die Sicherheitsgruppeneinstellungen und stellen Sie sicher, dass alle erforderlichen Dienste nach dem Neustart ausgeführt werden. Wenn die Probleme nach den grundlegenden Schritten zur Fehlerbehebung weiterhin bestehen, wenden Sie sich an den AWS Support. Wenn Sie sich an den Support wenden, geben Sie die entsprechenden Protokollauszüge, Informationen zum Knotenstatus und einen Zeitplan für den Neustartversuch an, um den Lösungsprozess zu beschleunigen.

Weitere Ressourcen