

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 附錄
<a name="sagemaker-eks-checkpointless-appendix"></a>

**透過 HyperPod 配方監控訓練結果**

SageMaker HyperPod 配方提供 Tensorboard 整合來分析訓練行為。這些配方也包含 VizTracer，這是一種用於追蹤和視覺化 Python 程式碼執行的低額外負荷工具。如需詳細資訊，請參閱 [ VizTracer](https://github.com/gaogaotiantian/viztracer)。

會產生張量板日誌並存放在 中`log_dir`。若要在本機存取和分析這些日誌，請使用下列程序：

1. 將 Tensorboard 實驗資料夾從您的訓練環境下載至本機電腦。

1. 在您的本機電腦上開啟終端機或命令提示。

1. 導覽至包含所下載實驗資料夾的目錄。

1. 執行 命令來啟動 Tensorboard：

   ```
   tensorboard --port=<port> --bind_all --logdir experiment.
   ```

1. 開啟您的 Web 瀏覽器並造訪 `http://localhost:8008`。

您現在可以在 Tensorboard 介面內查看訓練任務的狀態和視覺化。查看狀態和視覺化可協助您監控和分析訓練程序。監控和分析訓練程序可協助您洞悉模型的行為和效能。如需如何使用 Tensorboard 監控和分析訓練的詳細資訊，請參閱 [ NVIDIA NeMo Framework 使用者指南](https://docs.nvidia.com/nemo-framework/user-guide/latest/nemotoolkit/core/exp_manager.html#experiment-manager)。

**VizTracer**

若要啟用 VizTracer，您可以將環境變數設定為 `ENABLE_VIZTRACER` 來修改配方`1`。訓練完成後，您的 VizTracer 設定檔會位於實驗資料夾 中`log_dir/viztracer_xxx.json`。若要分析您的設定檔，您可以使用 **vizviewer**工具下載並開啟它：

```
vizviewer --port <port> viztracer_xxx.json
```

此命令會在連接埠 9001 上啟動 vizviewer。您可以在瀏覽器中前往 http://localhost:<port> 來檢視 VizTracer。在您開啟 VizTracer 之後，就會開始分析訓練。如需使用 VizTracer 的詳細資訊，請參閱 [ VizTracer 文件](https://viztracer.readthedocs.io/en/latest/installation.html)。