

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 用於監控和分析訓練任務的 Amazon CloudWatch 指標
<a name="training-metrics"></a>

Amazon SageMaker 訓練任務是一種透過呈現訓練資料集的範例，以教導模型進行預測的反覆程序。一般來說，訓練演算法會計算訓練錯誤和預測準確度等多個指標。這些指標有助於診斷模型是否順利學習，並足夠普遍化，可對未知資料進行預測。訓練演算法可將這些指標值寫入日誌，由 SageMaker AI 即時監控並傳送到 Amazon CloudWatch。若要分析訓練任務的效能，您可以在 CloudWatch 中檢視這些指標的圖表。當訓練任務完成之後，您也可以呼叫 [https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html](https://docs.aws.amazon.com/sagemaker/latest/APIReference/API_DescribeTrainingJob.html) 操作，以獲得訓練任務在其最終反覆運算中計算的指標值清單。

**注意**  
Amazon CloudWatch 支援[高解析度警示自訂指標](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/publishingMetrics.html)，其最佳解析度為 1 秒。然而，解析度越好，CloudWatch 指標的壽命就越短。對於 1 秒頻率解析度，CloudWatch 指標的可用時間為 3 小時。有關 CloudWatch 指標的分辨率和使用壽命的詳細資訊，請參閱[GetMetricStatistics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)在*Amazon CloudWatch API 參考*。

**提示**  
如果您想要以更精細的解析度 (最小到 100 毫秒) (0.1 秒) 的粒度來分析訓練任務，並隨時在 Amazon S3 中無限期存放訓練指標以進行自訂分析，請考慮使用 [Amazon SageMaker Debugger](https://docs.aws.amazon.com/sagemaker/latest/dg/train-debugger.html)。SageMaker Debugger 提供內建規則，可自動偵測常見的訓練問題；偵測硬體資源使用率問題 (例如 CPU、GPU 和 I/O 瓶頸) 和非融合模型問題 (例如過度擬合、消失漸層和爆炸張量)。SageMaker Debugger 也會透過 Studio Classic 及其分析報告提供視覺效果。要瀏覽 Debugger 視覺化效果，請參閱 [SageMaker 除錯器見解儀表板演練](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-on-studio-insights-walkthrough.htm)、[除錯器性能分析報告演練](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-profiling-report.html#debugger-profiling-report-walkthrough)，以及[使用 SMDebug 用戶端資料庫分析資料](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-analyze-data.html)。

**Topics**
+ [定義訓練指標](define-train-metrics.md)
+ [檢視訓練任務指標](view-train-metrics.md)
+ [範例：檢視訓練和驗證曲線](train-valid-curve.md)