本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker AI 中的 TensorBoard
使用 TensorBoard 的 Amazon SageMaker AI 是一種 Amazon SageMaker AI 的功能,將 TensorBoard
注意
此功能適用於使用 PyTorch 或 TensorFlow 來偵錯深度學習模型訓練。
對於資料科學家
訓練大型模型可能會遇到科學問題,這些問題需要資料科學家對其進行偵錯和解決,以改善模型收斂並穩定梯度下降程序。
當您遇到模型訓練問題時 (例如遺失值未收斂、權重和梯度消失或爆炸),您需要存取張量資料,以深入探索並分析模型參數、純量和任何自訂指標。使用 SageMaker AI 搭配 TensorBoard,您可以從訓練任務擷取視覺化模型的輸出張量。當您試圖使用不同的模型、多個訓練執行和建立超參數的模型時,您可以在 TensorBoard 中選取多個訓練任務,並在同一處進行比較。
針對管理員
您可以透過 SageMaker AI 主控台或 SageMaker AI 網域中的 TensorBoard 登陸頁面,管理 TensorBoard 應用程式使用者 (如果您是一位 AWS 帳戶管理員或 SageMaker AI 網域)。每個網域使用者都可以透過授予許可存取自己的 TensorBoard 應用程式。身為 SageMaker AI 網域管理員和網域使用者,您可以根據擁有的權限層級,建立和刪除 TensorBoard 應用程式。
注意
您不能分享 TensorBoard 應用程式進行協作,因為 SageMaker AI 網域不允許使用者間共用應用程式。如果使用者有儲存貯體的存取權限,他們可以共用儲存在 S3 儲存貯體中的輸出張量。
支援的架構與 AWS 區域
SageMaker AI 中的 TensorBoard 應用程式適用於下列機器學習架構和 AWS 區域。
架構
-
PyTorch
-
TensorFlow
-
Hugging Face 轉換器
AWS 區域
-
美國東部 (維吉尼亞北部) (
us-east-1) -
美國東部 (俄亥俄) (
us-east-2) -
美國西部 (奧勒岡) (
us-west-2) -
歐洲 (法蘭克福) (
eu-central-1) -
歐洲 (愛爾蘭) (
eu-west-1)
注意
具有 TensorBoard 的 Amazon SageMaker AI 會在 ml.r5.large 執行個體上執行,並在使用 SageMaker AI 免費方案或該功能的免費試用期後產生費用。如需更多資訊,請參閱 Amazon SageMaker AI 定價