Compute-Knoten mit Slurm auf PCS neu starten AWS - AWS PCS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Compute-Knoten mit Slurm auf PCS neu starten AWS

AWS PCS unterstützt den nativen scontrol reboot Befehl von Slurm. Verwenden Sie diesen Befehl, um Rechenknoten neu zu starten, ohne die EC2-Instanz zu ersetzen. Andere Neustartmethoden (Amazon EC2 EC2-Konsole AWS CLI, automatische Patches oder Systemwartung) veranlassen AWS PCS, die EC2-Instance als fehlerhaft einzustufen und zu ersetzen.

Vorteile des Slurm-Neustarts

Der Slurm-Neustart bietet mehrere Vorteile für die Cluster-Wartung:

  • Kapazität erhalten — Vermeiden Sie den Verlust von EC2-Instances mit beschränkter Kapazität an andere Kunden.

  • Kosten senken — Vermeiden Sie unnötige Austauschzyklen für Instances und die fortgesetzte Abrechnung ungenutzter Knoten.

  • Schnellere Wiederherstellung — Keine Verzögerungen bei der Bereitstellung im Vergleich zum Austausch von Instanzen.

  • Betriebliche Flexibilität — Beseitigen Sie Speicherlecks, entfernen Sie temporäre Dateien und stellen Sie Knoten aus heruntergekommenen Zuständen wieder her.

Wann sollte Slurm Reboot verwendet werden

Verwenden Sie Slurm Reboot für allgemeine betriebliche Wartungsszenarien:

  • Fehlerbehebung — Beheben Sie Leistungsprobleme oder nicht reagierende Prozesse, insbesondere bei GPU-Knoten.

  • Säuberung von Ressourcen — Beseitigen Sie Speicherlecks, temporäre Dateien oder festgefahrene Prozesse/tmp, die die Arbeitsleistung beeinträchtigen.

  • Wiederherstellung — Stellen Sie Knoten wieder her, wenn sie nicht mehr funktionieren oder heruntergefahren sind, bevor ein vollständiger Knotenaustausch erforderlich ist.

Einschränkungen

  • Nur Slurm-Admin-Benutzer (Root-Benutzer) können Reboot-Befehle ausführen.

  • Die Unterstützung für Neustarts ist auf scontrol reboot nur beschränkt.

  • RebootProgram Konfiguration wird nicht unterstützt.

  • Keine Konsolenschnittstelle — nur Befehlszeile.