翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
付録
HyperPod レシピを使用してトレーニング結果をモニタリングする
SageMaker HyperPod レシピは、トレーニング動作を分析するための Tensorboard 統合を提供します。これらのレシピには、Python コード実行をトレースおよび視覚化するための低オーバーヘッドツールである VizTracer も組み込まれています。詳細については、「VizTracer
テンソルボードログが生成され、 内に保存されますlog_dir。これらのログにローカルでアクセスして分析するには、次の手順を使用します。
-
Tensorboard 実験フォルダをトレーニング環境からローカルマシンにダウンロードします。
-
ローカルコンピュータで、コマンドプロンプトまたはターミナルを開きます。
-
ダウンロードした実験フォルダを含むディレクトリに移動します。
-
コマンドを実行して Tensorboard を起動します。
tensorboard --port=<port> --bind_all --logdir experiment. -
ウェブブラウザを開き、 にアクセスします
http://localhost:8008。
Tensorboard インターフェイスでトレーニングジョブのステータスと可視化を確認できるようになりました。ステータスと視覚化を確認することで、トレーニングプロセスをモニタリングして分析できます。トレーニングプロセスのモニタリングと分析は、モデルの動作とパフォーマンスに関するインサイトを得るのに役立ちます。Tensorboard でトレーニングをモニタリングおよび分析する方法の詳細については、NVIDIA NeMo Framework ユーザーガイド
VizTracer
VizTracer を有効にするには、環境変数を ENABLE_VIZTRACER に設定してレシピを変更できます1。トレーニングが完了すると、VizTracer プロファイルは実験フォルダ にありますlog_dir/viztracer_xxx.json。プロファイルを分析するには、 vizviewerツールを使用してプロファイルをダウンロードして開くことができます。
vizviewer --port <port> viztracer_xxx.json
このコマンドは、ポート 9001 で vizviewer を起動します。VizTracer を表示するには、ブラウザで http://localhost:<port> にアクセスします。VizTracer を開くと、トレーニングの分析が開始されます。VizTracer の使用の詳細については、VizTracer のドキュメント