

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 監控
<a name="tutorial-gpu-monitoring"></a>

您的 DLAMI 預先安裝了數種 GPU 監控工具。本指南還提及可供下載和安裝的工具。
+ [使用 CloudWatch 監控 GPU](tutorial-gpu-monitoring-gpumon.md) - 預先安裝的公用程式，可將 GPU 用量統計資料報告給 Amazon CloudWatch。
+ [nvidia-smi CLI](https://developer.nvidia.com/nvidia-system-management-interface) - 用於監控整體 GPU 運算和記憶體使用率的公用程式。這已預先安裝在您的 AWS 深度學習 AMIs (DLAMI) 上。
+ [NVML C 程式庫](https://developer.nvidia.com/nvidia-management-library-nvml) – 以 C 為基礎的 API，可直接存取 GPU 監控和管理功能。這是由 nvidia-smi CLI 在幕後使用，並預先安裝在 DLAMI 上。它還有 Python 和 Perl 繫結，有助於以這些語言來開發。預先安裝在 DLAMI 的 gpumon.py 公用程式使用 [nvidia-ml-py](https://pypi.org/project/nvidia-ml-py/) 中的 pynvml 套件。
+ [NVIDIA DCGM](https://developer.nvidia.com/data-center-gpu-manager-dcgm) - 叢集管理工具。造訪開發人員頁面，了解如何安裝和設定這個工具。

**提示**  
如需使用已安裝 DLAMI 之 CUDA 工具的最新資訊，請參閱 NVIDIA 的開發人員部落格：  
[使用 Nsight IDE 和 nvprof 監控 TensorCore 使用率](https://devblogs.nvidia.com/using-nsight-compute-nvprof-mixed-precision-deep-learning-models/)。