本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
偵錯並改善模型效能
訓練機器學習模型、深度學習神經網路、轉換器模型的核心在於實現穩定的模型收斂,因此,最先進的模型具有數百萬、數十億或數兆個模型參數。在每次反覆執行期間,更新龐大數量的模型參數的操作次數很容易變成天文數字。若要識別模型收斂問題,必須能夠存取最佳化程序期間運算的模型參數、啟用和漸層。
Amazon SageMaker AI 提供兩種偵錯工具,可協助識別此類收斂問題,並深入了解您的模型。
具備 TensorBoard 的 Amazon SageMaker AI
為了提供與 SageMaker AI Training 平台中開放原始碼社群工具的更大相容性,SageMaker AI 將 TensorBoard 託管為 SageMaker AI 網域中的應用程式。您可以將訓練任務帶到 SageMaker AI,並繼續使用 TensorBoard 摘要寫入器來收集模型輸出張量。由於 TensorBoard 已實作到 SageMaker AI 網域中,它也為您提供更多選項來管理AWS您帳戶中 SageMaker AI 網域下的使用者設定檔,並透過授予對特定動作和資源的存取權,提供對使用者設定檔的精細控制。如需詳細資訊,請參閱 Amazon SageMaker AI 中的 TensorBoard。
Amazon SageMaker Debugger
Amazon SageMaker Debugger 是 SageMaker AI 的功能,提供工具來註冊回呼勾點,以擷取模型輸出張量,並將其儲存在 Amazon Simple Storage Service。它為偵測模型收斂問題提供內建規則,例如過度擬合、飽和啟動函式、消失梯度等。您也可以使用 Amazon CloudWatch Events 設定內建規則AWS Lambda,並針對偵測到的問題採取自動動作,以及設定 Amazon Simple Notification Service 來接收電子郵件或簡訊通知。如需詳細資訊,請參閱 Amazon SageMaker Debugger。