Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Behebung von Problemen mit dem Slurm-Neustart auf PCS AWS
Wenn beim Neustart des Knotens Probleme auftreten, überprüfen Sie zunächst den Knotenstatus mithilfe vonscontrol
show node . Untersuchen Sie dann die CloudWatch Protokolle sowohl auf Slurm (slurmctld und slurmd) als auch auf Systemprotokolle, um mögliche Fehler zu identifizieren.nodename
Überprüfen Sie zur grundlegenden Fehlerbehebung die Netzwerkkonnektivität, überprüfen Sie die Sicherheitsgruppeneinstellungen und stellen Sie sicher, dass alle erforderlichen Dienste nach dem Neustart ausgeführt werden. Wenn die Probleme nach den grundlegenden Schritten zur Fehlerbehebung weiterhin bestehen, wenden Sie sich an den AWS Support. Wenn Sie sich an den Support wenden, geben Sie die entsprechenden Protokollauszüge, Informationen zum Knotenstatus und einen Zeitplan für den Neustartversuch an, um den Lösungsprozess zu beschleunigen.
Weitere Ressourcen
-
Informationen zur Überwachung von AWS PCS-Instances mithilfe von CloudWatch Amazon finden Sie unter Überwachung von AWS PCS-Instances mithilfe von Amazon CloudWatch.
-
Allgemeine Informationen zur Fehlerbehebung finden Sie unterBehebung von Problemen im AWS Parallel Computing Service.
-
Die Slurm-Dokumentation finden Sie im Slurm-Leitfaden zur Fehlerbehebung
.