

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# Amazon SageMaker AI 中的 TensorBoard
<a name="tensorboard-on-sagemaker"></a>

使用 TensorBoard 的 Amazon SageMaker AI 是一種 Amazon SageMaker AI 的功能，將 [TensorBoard](https://www.tensorflow.org/tensorboard) 的視覺化工具帶到 SageMaker AI，與 SageMaker 訓練和網域進行整合。它提供選項來透過 [SageMaker AI 網域](https://docs.aws.amazon.com/sagemaker/latest/dg/sm-domain.html)管理 AWS 您的帳戶和屬於該帳戶的使用者，讓網域使用者存取具有 Amazon S3 適當許可的 TensorBoard 資料，並協助網域使用者使用 TensorBoard 視覺化外掛程式執行模型偵錯任務。具有 TensorBoard 的 SageMaker AI 透過 SageMaker AI 資料管理員外掛程式進行擴充，讓網域使用者可以集中在 TensorBoard 應用程式存取許多訓練任務。

**注意**  
此功能適用於使用 PyTorch 或 TensorFlow 來偵錯深度學習模型訓練。

**對於資料科學家**

訓練大型模型可能會遇到科學問題，這些問題需要資料科學家對其進行偵錯和解決，以改善模型收斂並穩定梯度下降程序。

當您遇到模型訓練問題時 (例如遺失值未收斂、權重和梯度消失或爆炸)，您需要存取張量資料，以深入探索並分析模型參數、純量和任何自訂指標。使用 SageMaker AI 搭配 TensorBoard，您可以從訓練任務擷取視覺化模型的輸出張量。當您試圖使用不同的模型、多個訓練執行和建立超參數的模型時，您可以在 TensorBoard 中選取多個訓練任務，並在同一處進行比較。

**針對管理員**

如果您是 AWS 帳戶或 SageMaker AI 網域的管理員，您可以透過 SageMaker AI 主控台或 [SageMaker AI](https://docs.aws.amazon.com/sagemaker/latest/dg/sm-domain.html) SageMaker 網域中的 TensorBoard 登陸頁面來管理 TensorBoard 應用程式使用者。 TensorBoard 每個網域使用者都可以透過授予許可存取自己的 TensorBoard 應用程式。身為 SageMaker AI 網域管理員和網域使用者，您可以根據擁有的權限層級，建立和刪除 TensorBoard 應用程式。

**注意**  
您不能分享 TensorBoard 應用程式進行協作，因為 SageMaker AI 網域不允許使用者間共用應用程式。如果使用者有儲存貯體的存取權限，他們可以共用儲存在 S3 儲存貯體中的輸出張量。

## 支援的架構和 AWS 區域
<a name="debugger-htb-support"></a>

SageMaker AI 中的 TensorBoard 應用程式適用於下列機器學習架構和 AWS 區域。

**架構**
+ PyTorch
+ TensorFlow
+ Hugging Face 轉換器

**AWS 區域**
+ 美國東部 (維吉尼亞北部) (`us-east-1`)
+ 美國東部 (俄亥俄) (`us-east-2`)
+ 美國西部 (奧勒岡) (`us-west-2`)
+ 歐洲 (法蘭克福) (`eu-central-1`)
+ 歐洲 (愛爾蘭) (`eu-west-1`)

**注意**  
具有 TensorBoard 的 Amazon SageMaker AI 會在 `ml.r5.large` 執行個體上執行，並在使用 SageMaker AI 免費方案或該功能的免費試用期後產生費用。如需更多資訊，請參閱 [Amazon SageMaker AI 定價](https://aws.amazon.com/sagemaker/pricing/)。

**Topics**
+ [支援的架構和 AWS 區域](#debugger-htb-support)
+ [準備訓練任務以收集 TensorBoard 輸出資料](debugger-htb-prepare-training-job.md)
+ [在 SageMaker AI 上存取 TensorBoard 應用程式](debugger-htb-access-tb.md)
+ [使用 TensorBoard 應用程式載入和視覺化輸出張量](debugger-htb-access-tb-data.md)
+ [刪除未使用的 TensorBoard 應用程式](debugger-htb-delete-app.md)