View a markdown version of this page

Validierung der Laufzeit vor der Ausführung von Produktions-Workloads auf einem Slurm-Cluster HyperPod - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Validierung der Laufzeit vor der Ausführung von Produktions-Workloads auf einem Slurm-Cluster HyperPod

Verwenden Sie das Runtime-Validierungsskript, um die Laufzeit zu überprüfen HyperPod, bevor Sie Produktions-Workloads auf einem Slurm-Cluster ausführen. hyperpod-precheck.py Dieses Skript überprüft, ob auf dem Slurm-Cluster alle für die Ausführung von Docker erforderlichen Pakete installiert sind, ob das Cluster über ein ordnungsgemäß gemountetes Dateisystem von FSx für Lustre und ein Benutzerverzeichnis verfügt, das das Dateisystem gemeinsam nutzt, und ob der Slurm-Daemon auf allen Rechenknoten ausgeführt wird.

Um das Skript auf mehreren Knoten gleichzeitig auszuführen, verwenden Sie srun, wie im folgenden Beispielbefehl zum Ausführen des Skripts auf einem Slurm-Cluster mit 8 Knoten gezeigt.

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
Anmerkung

Weitere Informationen über das Validierungsskript, z. B. welche Funktionen zur Laufzeitvalidierung das Skript bietet, und Richtlinien zur Lösung von Problemen, die die Validierungen nicht bestehen, finden Sie unter Laufzeitvalidierung vor dem Ausführen von Workloads im Awsome Distributed Training-Repository. GitHub