

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 付録
<a name="sagemaker-eks-checkpointless-appendix"></a>

**HyperPod レシピを使用してトレーニング結果をモニタリングする**

SageMaker HyperPod レシピは、トレーニング動作を分析するための Tensorboard 統合を提供します。これらのレシピには、Python コード実行をトレースおよび視覚化するための低オーバーヘッドツールである VizTracer も組み込まれています。詳細については、[「VizTracer](https://github.com/gaogaotiantian/viztracer)」を参照してください。

テンソルボードログが生成され、 内に保存されます`log_dir`。これらのログにローカルでアクセスして分析するには、次の手順を使用します。

1. Tensorboard 実験フォルダをトレーニング環境からローカルマシンにダウンロードします。

1. ローカルコンピュータで、コマンドプロンプトまたはターミナルを開きます。

1. ダウンロードした実験フォルダを含むディレクトリに移動します。

1. コマンドを実行して Tensorboard を起動します。

   ```
   tensorboard --port=<port> --bind_all --logdir experiment.
   ```

1. ウェブブラウザを開き、 にアクセスします`http://localhost:8008`。

Tensorboard インターフェイスでトレーニングジョブのステータスと可視化を確認できるようになりました。ステータスと視覚化を確認することで、トレーニングプロセスをモニタリングして分析できます。トレーニングプロセスのモニタリングと分析は、モデルの動作とパフォーマンスに関するインサイトを得るのに役立ちます。Tensorboard でトレーニングをモニタリングおよび分析する方法の詳細については、[NVIDIA NeMo Framework ユーザーガイド](https://docs.nvidia.com/nemo-framework/user-guide/latest/nemotoolkit/core/exp_manager.html#experiment-manager)を参照してください。

**VizTracer**

VizTracer を有効にするには、環境変数を `ENABLE_VIZTRACER` に設定してレシピを変更できます`1`。トレーニングが完了すると、VizTracer プロファイルは実験フォルダ にあります`log_dir/viztracer_xxx.json`。プロファイルを分析するには、 **vizviewer**ツールを使用してプロファイルをダウンロードして開くことができます。

```
vizviewer --port <port> viztracer_xxx.json
```

このコマンドは、ポート 9001 で vizviewer を起動します。VizTracer を表示するには、ブラウザで http://localhost:<port> にアクセスします。VizTracer を開くと、トレーニングの分析が開始されます。VizTracer の使用の詳細については、[VizTracer のドキュメント](https://viztracer.readthedocs.io/en/latest/installation.html)を参照してください。