

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 收集 NVIDIA GPU 指標
<a name="CloudWatch-Agent-NVIDIA-GPU"></a>

 您可以使用 CloudWatch 代理程式，從 Linux 伺服器收集 NVIDIA GPU 指標。若要設定此項目，請在 CloudWatch 代理程式組態檔案的 `metrics_collected` 區段中新增 `nvidia_gpu` 區段。如需詳細資訊，請參閱[Linux 區段](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section)。

此外，執行個體必須已安裝 NVIDIA 驅動程式。某些 Amazon Machine Image (AMI) 上預先安裝了 NVIDIA 驅動程式。或者，可以手動安裝驅動程式。如需詳細資訊，請參閱[在 Linux 執行個體上安裝 NVIDIA 驅動程式](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/install-nvidia-driver.html)。

可以收集以下指標。收集的所有這些指標都沒有 CloudWatch `Unit`，但您可以透過向 CloudWatch 代理程式組態檔案新增參數來為每個指標指定單位。如需詳細資訊，請參閱[Linux 區段](CloudWatch-Agent-Configuration-File-Details.md#CloudWatch-Agent-Linux-section)。


| 指標 | CloudWatch 中的指標名稱 | Description | 
| --- | --- | --- | 
| `utilization_gpu` | `nvidia_smi_utilization_gpu` | 在過去的抽樣週期內，GPU 上的一個或多個核心執行的時間百分比。 | 
| `temperature_gpu` | `nvidia_smi_temperature_gpu` | 核心 GPU 溫度 (以攝氏度為單位)。 | 
| `power_draw` | `nvidia_smi_power_draw` | 整個電路板的最後一次測量功耗 (以瓦特為單位)。 | 
| `utilization_memory` | `nvidia_smi_utilization_memory` | 在過去的抽樣週期內讀取或寫入全域 (裝置) 記憶體的時間百分比。 | 
| `fan_speed` | `nvidia_smi_fan_speed` | 裝置風扇目前計劃執行的最大風扇速度百分比。 | 
| `memory_total` | `nvidia_smi_memory_total` | 記錄的記憶體總計 (MB)。 | 
| `memory_used` | `nvidia_smi_memory_used` | 使用的記憶體 (MB)。 | 
| `memory_free` | `nvidia_smi_memory_free` | 可用的記憶體 (MB)。 | 
| `pcie_link_gen_current` | `nvidia_smi_pcie_link_gen_current` | 目前連結版本。 | 
| `pcie_link_width_current` | `nvidia_smi_pcie_link_width_current` | 目前連結頻寬。 | 
| `encoder_stats_session_count` | `nvidia_smi_encoder_stats_session_count` | 目前編碼器工作階段數。 | 
| `encoder_stats_average_fps` | `nvidia_smi_encoder_stats_average_fps` | 每秒編碼影格的移動平均值。 | 
| `encoder_stats_average_latency` | `nvidia_smi_encoder_stats_average_latency` | 編碼延遲的移動平均值 (以微秒為單位)。 | 
| `clocks_current_graphics` | `nvidia_smi_clocks_current_graphics` | 圖形 (著色器) 時脈的目前頻率。 | 
| `clocks_current_sm` | `nvidia_smi_clocks_current_sm` | 串流多處理器 (SM) 時脈的目前頻率。 | 
| `clocks_current_memory` | `nvidia_smi_clocks_current_memory` | 記憶體時脈的目前頻率。 | 
| `clocks_current_video` | `nvidia_smi_clocks_current_video` | 影片 (編碼器與解碼器) 時脈的目前頻率。 | 

所有這些指標均採用以下維度進行收集：


| 維度 | Description | 
| --- | --- | 
| `index` | 此伺服器上 GPU 的唯一識別碼。表示裝置的 NVIDIA 管理庫 (NVML) 索引。 | 
| `name` | GPU 的類型。例如 `NVIDIA Tesla A100` | 
| `arch` | 伺服器架構。 | 