Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Anhang
Überwachen Sie die Trainingsergebnisse anhand von HyperPod Rezepten
SageMaker HyperPod Rezepte bieten eine Tensorboard-Integration zur Analyse des Trainingsverhaltens. Diese Rezepte beinhalten auch VizTracer, ein Tool mit geringem Overhead zum Verfolgen und Visualisieren der Python-Codeausführung. Weitere Informationen finden Sie unter VizTracer
Die Tensorboard-Protokolle werden generiert und im gespeichert. log_dir Gehen Sie wie folgt vor, um auf diese Protokolle zuzugreifen und sie lokal zu analysieren:
-
Laden Sie den Tensorboard-Experimentordner aus Ihrer Trainingsumgebung auf Ihren lokalen Computer herunter.
-
Öffnen Sie ein Terminal oder einen Prompt auf Ihrem lokalen Rechner.
-
Navigieren Sie zu dem Verzeichnis, das den heruntergeladenen Experimentordner enthält.
-
Starten Sie Tensorboard, indem Sie den folgenden Befehl ausführen:
tensorboard --port=<port> --bind_all --logdir experiment. -
Öffnen Sie Ihren Webbrowser und besuchen Sie.
http://localhost:8008
Sie können jetzt den Status und die Visualisierungen Ihrer Trainingsjobs in der Tensorboard-Oberfläche sehen. Wenn Sie den Status und die Visualisierungen sehen, können Sie den Trainingsprozess überwachen und analysieren. Durch die Überwachung und Analyse des Trainingsprozesses können Sie Einblicke in das Verhalten und die Leistung Ihrer Modelle gewinnen. Weitere Informationen darüber, wie Sie das Training mit Tensorboard überwachen und analysieren, finden Sie im NVIDIA NeMo Framework-Benutzerhandbuch
VizTracer
Zur Aktivierung können Sie Ihr Rezept ändern VizTracer, indem Sie die Umgebungsvariable ENABLE_VIZTRACER auf setzen. 1 Nach Abschluss der Schulung befindet sich Ihr VizTracer Profil im Experimentordnerlog_dir/viztracer_xxx.json. Um Ihr Profil zu analysieren, können Sie es herunterladen und mit dem folgenden vizviewer Tool öffnen:
vizviewer --port <port> viztracer_xxx.json
Dieser Befehl startet den VizViewer auf Port 9001. Sie können Ihre einsehen, VizTracer indem Sie <port>in Ihrem Browser auf http://localhost: gehen. Nach dem Öffnen VizTracer beginnen Sie mit der Analyse des Trainings. Weitere Informationen zur Verwendung VizTracer finden Sie in der VizTracer Dokumentation