偵錯並改善模型效能

訓練機器學習模型、深度學習神經網路、轉換器模型的核心在於實現穩定的模型收斂，因此，最先進的模型具有數百萬、數十億或數兆個模型參數。在每次反覆執行期間，更新龐大數量的模型參數的操作次數很容易變成天文數字。若要識別模型收斂問題，必須能夠存取最佳化程序期間運算的模型參數、啟用和漸層。

Amazon SageMaker AI 提供兩種偵錯工具，可協助識別此類收斂問題，並深入了解您的模型。

具備 TensorBoard 的 Amazon SageMaker AI

為了提供與 SageMaker AI Training 平台中開放原始碼社群工具的更佳相容性，SageMaker AI 將 TensorBoard 託管為 SageMaker AI 網域中的應用程式。您可以將訓練任務帶到 SageMaker AI，並繼續使用 TensorBoard 摘要寫入器來收集模型輸出張量。由於 TensorBoard 已實作到 SageMaker AI 網域中，它也為您提供更多選項來管理您 AWS 帳戶中 SageMaker AI 網域下的使用者設定檔，並透過授予對特定動作和資源的存取權，提供對使用者設定檔的精細控制。如需詳細資訊，請參閱 Amazon SageMaker AI 中的 TensorBoard。

Amazon SageMaker Debugger

Amazon SageMaker Debugger 是 SageMaker AI 的功能，提供工具來註冊回呼勾點，以擷取模型輸出張量，並將其儲存在 Amazon Simple Storage Service。它為偵測模型收斂問題提供內建規則，例如過度擬合、飽和啟動函式、消失梯度等。您也可以使用 Amazon CloudWatch Events 設定內建規則 AWS Lambda ，並針對偵測到的問題採取自動動作，以及設定 Amazon Simple Notification Service 來接收電子郵件或簡訊通知。如需進一步了解，請參閱Amazon SageMaker Debugger。

主題

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

版本備註

SageMaker AI 中的 TensorBoard