

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 附录
<a name="sagemaker-eks-checkpointless-appendix"></a>

**通过 HyperPod 食谱监控训练结果**

SageMaker HyperPod 食谱提供了 Tensorboard 集成，用于分析训练行为。这些配方还包含了 VizTracer，这是一种用于跟踪和可视化 Python 代码执行的低开销工具。有关更多信息，请参阅 [ VizTracer](https://github.com/gaogaotiantian/viztracer)。

张量板日志生成并存储在中。`log_dir`要本地访问和分析这些日志，请按以下过程操作：

1. 从训练环境中将 Tensorboard 实验文件夹下载到本地计算机上。

1. 在本地计算机上打开终端或命令提示符。

1. 导航到包含已下载的实验文件夹的目录。

1. 通过运行以下命令启动 Tensorboard：

   ```
   tensorboard --port=<port> --bind_all --logdir experiment.
   ```

1. 打开您的网络浏览器并访问`http://localhost:8008`。

现在，您可以在 Tensorboard 界面中查看训练作业的状态和可视化内容。查看状态和可视化内容有助于监控和分析训练过程。监控和分析训练过程有助于了解模型的行为和性能。有关如何使用 Tensorboard 监控和分析训练的更多信息，请参阅 [NVIDIA Framework 用户 NeMo 指南](https://docs.nvidia.com/nemo-framework/user-guide/latest/nemotoolkit/core/exp_manager.html#experiment-manager)。

**VizTracer**

要启用 VizTracer，您可以通过将环境变量设置为`ENABLE_VIZTRACER`来修改配方`1`。训练完成后，您的 VizTracer 个人资料将出现在实验文件夹中`log_dir/viztracer_xxx.json`。要分析您的个人资料，您可以下载并使用以下**vizviewer**工具将其打开：

```
vizviewer --port <port> viztracer_xxx.json
```

此命令在端口 9001 上启动 vizviewer。你可以在<port>浏览器中前往 http://localhost: 来查看你的。 VizTracer 打开后 VizTracer，开始分析训练。有关使用的更多信息 VizTracer，请参阅[ VizTracer 文档](https://viztracer.readthedocs.io/en/latest/installation.html)。