付録 - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

付録

HyperPod レシピを使用してトレーニング結果をモニタリングする

SageMaker HyperPod レシピは、トレーニング動作を分析するための Tensorboard 統合を提供します。これらのレシピには、Python コード実行をトレースおよび視覚化するための低オーバーヘッドツールである VizTracer も組み込まれています。詳細については、「VizTracer」を参照してください。

テンソルボードログが生成され、 内に保存されますlog_dir。これらのログにローカルでアクセスして分析するには、次の手順を使用します。

  1. Tensorboard 実験フォルダをトレーニング環境からローカルマシンにダウンロードします。

  2. ローカルコンピュータで、コマンドプロンプトまたはターミナルを開きます。

  3. ダウンロードした実験フォルダを含むディレクトリに移動します。

  4. コマンドを実行して Tensorboard を起動します。

    tensorboard --port=<port> --bind_all --logdir experiment.
  5. ウェブブラウザを開き、 にアクセスしますhttp://localhost:8008

Tensorboard インターフェイスでトレーニングジョブのステータスと可視化を確認できるようになりました。ステータスと視覚化を確認することで、トレーニングプロセスをモニタリングして分析できます。トレーニングプロセスのモニタリングと分析は、モデルの動作とパフォーマンスに関するインサイトを得るのに役立ちます。Tensorboard でトレーニングをモニタリングおよび分析する方法の詳細については、NVIDIA NeMo Framework ユーザーガイドを参照してください。

VizTracer

VizTracer を有効にするには、環境変数を ENABLE_VIZTRACER に設定してレシピを変更できます1。トレーニングが完了すると、VizTracer プロファイルは実験フォルダ にありますlog_dir/viztracer_xxx.json。プロファイルを分析するには、 vizviewerツールを使用してプロファイルをダウンロードして開くことができます。

vizviewer --port <port> viztracer_xxx.json

このコマンドは、ポート 9001 で vizviewer を起動します。VizTracer を表示するには、ブラウザで http://localhost:<port> にアクセスします。VizTracer を開くと、トレーニングの分析が開始されます。VizTracer の使用の詳細については、VizTracer のドキュメントを参照してください。