

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 偵錯並改善模型效能
<a name="train-debug-and-improve-model-performance"></a>

訓練機器學習模型、深度學習神經網路、轉換器模型的核心在於實現穩定的模型收斂，因此，最先進的模型具有數百萬、數十億或數兆個模型參數。在每次反覆執行期間，更新龐大數量的模型參數的操作次數很容易變成天文數字。若要識別模型收斂問題，必須能夠存取最佳化程序期間運算的模型參數、啟用和漸層。

Amazon SageMaker AI 提供兩種偵錯工具，可協助識別此類收斂問題，並深入了解您的模型。

**具備 TensorBoard 的 Amazon SageMaker AI**

為了提供與 SageMaker AI Training 平台中開放原始碼社群工具的更佳相容性，SageMaker AI 將 TensorBoard 託管為 [SageMaker AI 網域](https://docs.aws.amazon.com/sagemaker/latest/dg/sm-domain.html)中的應用程式。您可以將訓練任務帶到 SageMaker AI，並繼續使用 TensorBoard 摘要寫入器來收集模型輸出張量。由於 TensorBoard 已實作到 [SageMaker AI 網域](https://docs.aws.amazon.com/sagemaker/latest/dg/sm-domain.html)中，它也為您提供更多選項來管理您 AWS 帳戶中 SageMaker AI 網域下的使用者設定檔，並透過授予對特定動作和資源的存取權，提供對使用者設定檔的精細控制。如需詳細資訊，請參閱 [Amazon SageMaker AI 中的 TensorBoard](tensorboard-on-sagemaker.md)。

**Amazon SageMaker Debugger**

Amazon SageMaker Debugger 是 SageMaker AI 的功能，提供工具來註冊回呼勾點，以擷取模型輸出張量，並將其儲存在 Amazon Simple Storage Service。它為偵測模型收斂問題提供[內建規則](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-built-in-rules.html)，例如過度擬合、飽和啟動函式、消失梯度等。您也可以使用 Amazon CloudWatch Events 設定內建規則 AWS Lambda ，並針對偵測到的問題採取自動動作，以及設定 Amazon Simple Notification Service 來接收電子郵件或簡訊通知。如需進一步了解，請參閱[Amazon SageMaker Debugger](train-debugger.md)。

**Topics**
+ [Amazon SageMaker AI 中的 TensorBoard](tensorboard-on-sagemaker.md)
+ [Amazon SageMaker Debugger](train-debugger.md)
+ [透過 存取訓練容器 AWS Systems Manager 以進行遠端偵錯](train-remote-debugging.md)
+ [Amazon SageMaker AI 偵錯功能的版本備註](debugger-release-notes.md)