附錄 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

附錄

透過 HyperPod 配方監控訓練結果

SageMaker HyperPod 配方提供 Tensorboard 整合來分析訓練行為。這些配方也包含 VizTracer,這是一種用於追蹤和視覺化 Python 程式碼執行的低額外負荷工具。如需詳細資訊,請參閱 VizTracer

會產生張量板日誌並存放在 中log_dir。若要在本機存取和分析這些日誌,請使用下列程序:

  1. 將 Tensorboard 實驗資料夾從您的訓練環境下載至本機電腦。

  2. 在您的本機電腦上開啟終端機或命令提示。

  3. 導覽至包含所下載實驗資料夾的目錄。

  4. 執行 命令來啟動 Tensorboard:

    tensorboard --port=<port> --bind_all --logdir experiment.
  5. 開啟您的 Web 瀏覽器並造訪 http://localhost:8008

您現在可以在 Tensorboard 介面內查看訓練任務的狀態和視覺化。查看狀態和視覺化可協助您監控和分析訓練程序。監控和分析訓練程序可協助您洞悉模型的行為和效能。如需如何使用 Tensorboard 監控和分析訓練的詳細資訊,請參閱 NVIDIA NeMo Framework 使用者指南

VizTracer

若要啟用 VizTracer,您可以將環境變數設定為 ENABLE_VIZTRACER 來修改配方1。訓練完成後,您的 VizTracer 設定檔會位於實驗資料夾 中log_dir/viztracer_xxx.json。若要分析您的設定檔,您可以使用 vizviewer工具下載並開啟它:

vizviewer --port <port> viztracer_xxx.json

此命令會在連接埠 9001 上啟動 vizviewer。您可以在瀏覽器中前往 http://localhost:<port> 來檢視 VizTracer。在您開啟 VizTracer 之後,就會開始分析訓練。如需使用 VizTracer 的詳細資訊,請參閱 VizTracer 文件