

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 在 Amazon SageMaker Studio Classic 中監控 AWS 運算資源使用率
<a name="debugger-profile-training-jobs"></a>

若要追蹤訓練任務的運算資源使用率，請使用 Amazon SageMaker Debugger 提供的監控工具。

針對您使用 SageMaker Python SDK 在 SageMaker AI 中執行的任何訓練任務，偵錯工具會每隔 500 毫秒收集一次基本資源使用率指標，例如 CPU 利用率、GPU 使用率、GPU 記憶體使用率、網路和 I/O 等待時間。若要查看訓練任務的資源使用率指標儀表板，只要[在 SageMaker Studio 實驗中使用 SageMaker Debugger 使用者介面](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-on-studio.html)即可。

深度學習作業和步驟可能以毫秒間隔運作。相較於依 1 秒間隔收集指標的 Amazon CloudWatch 指標，偵錯工具提供更精細的資源使用率指標，最低可達 100 毫秒 (0.1 秒) 間隔，以便您可以更深入地了解作業或步驟層級的指標。

如果您想要變更指標收集時間間隔，您可以將分析組態參數新增至訓練任務啟動器。例如，如果您使用的是 SageMaker AI Python SDK，您必須在建立估算器物件時傳遞 `profiler_config` 參數。若要了解如何調整資源使用率指標收集間隔，請參閱[程式碼範本，用於以 SageMaker AI Python SDK 內的 SageMaker Debugger Python 模組設定 SageMaker AI 估算器物件](debugger-configuration-for-profiling.md#debugger-configuration-structure-profiler)和[為系統資源使用率的基本分析進行設定](debugger-configure-system-monitoring.md)。

此外，您還可以再新增由 SageMaker Debugger 提供的問題偵測工具，稱為*內建分析規則*。內建分析規則會針對資源使用率指標執行分析，並偵測運算效能問題。如需更多詳細資訊，請參閱 [使用透過 Amazon SageMaker Debugger 管理的內建剖析工具規則](use-debugger-built-in-profiler-rules.md)。您可以透過 [SageMaker Studio 實驗中的 SageMaker Debugger 使用者介面](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-on-studio.html)或 [SageMaker Debugger 分析報告](https://docs.aws.amazon.com/sagemaker/latest/dg/debugger-profiling-report.html)接收規則分析結果。您還可以使用 SageMaker Python SDK，建立自訂分析規則。

若要進一步了解 SageMaker Debugger 提供的監控功能，請參閱下列主題。

**Topics**
+ [使用 Amazon SageMaker Debugger Python 設定基本分析的估算器組態及參數](debugger-configuration-for-profiling.md)
+ [使用透過 Amazon SageMaker Debugger 管理的內建剖析工具規則](use-debugger-built-in-profiler-rules.md)
+ [偵錯工具內建剖析工具規則清單](debugger-built-in-profiler-rules.md)
+ [Amazon SageMaker Studio Classic 實驗中的 Amazon SageMaker Debugger 使用者介面](debugger-on-studio.md)
+ [SageMaker Debugger 互動報告](debugger-profiling-report.md)
+ [使用偵錯工具 Python 用戶端程式庫分析資料](debugger-analyze-data.md)