Raccolta dei parametri della GPU NVIDIA - Amazon CloudWatch

Raccolta dei parametri della GPU NVIDIA

Puoi utilizzare l'agente CloudWatch per raccogliere i parametri della GPU NVIDIA dai server Linux. Per configurarlo, aggiungi una sezione nvidia_gpu in quella metrics_collected del file di configurazione dell'agente CloudWatch. Per ulteriori informazioni, consulta Sezione Linux.

Inoltre, sull'istanza deve essere installato un driver NVIDIA. I driver NVIDIA sono preinstallati su alcune Amazon Machine Image (AMI). In caso contrario, il driver può essere installato manualmente. Per ulteriori informazioni, consulta Installazione dei driver NVIDIA sulle istanze Linux.

È possibile raccogliere i seguenti parametri. Tutti questi parametri vengono raccolti senza Unit CloudWatch, ma puoi definire un'unità per ogni parametro aggiungendone uno al file di configurazione dell'agente CloudWatch. Per ulteriori informazioni, consulta la pagina Sezione Linux.

Parametro Nome del parametro in CloudWatch Descrizione

utilization_gpu

nvidia_smi_utilization_gpu

La percentuale di tempo nell'ultimo periodo di campionamento in cui erano in esecuzione uno o più kernel sulla GPU.

temperature_gpu

nvidia_smi_temperature_gpu

La temperatura del core della GPU in gradi Celsius.

power_draw

nvidia_smi_power_draw

L'ultimo assorbimento di potenza misurato per l'intera scheda, in watt.

utilization_memory

nvidia_smi_utilization_memory

La percentuale di tempo nell'ultimo periodo di campionamento in cui la memoria globale (dispositivo) veniva letta o scritta.

fan_speed

nvidia_smi_fan_speed

La percentuale di velocità massima attualmente prevista per il funzionamento della ventola del dispositivo.

memory_total

nvidia_smi_memory_total

Memoria totale riportata, in MB.

memory_used

nvidia_smi_memory_used

Memoria utilizzata, in MB.

memory_free

nvidia_smi_memory_free

Memoria libera, in MB.

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

L'attuale generazione del collegamento.

pcie_link_width_current

nvidia_smi_pcie_link_width_current

L'attuale larghezza del collegamento.

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

Il numero attuale di sessioni dell'encoder.

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

La media mobile dei fotogrammi di codifica al secondo.

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

La media mobile della latenza di codifica in microsecondi.

clocks_current_graphics

nvidia_smi_clocks_current_graphics

L'attuale frequenza di clock della scheda video (shader).

clocks_current_sm

nvidia_smi_clocks_current_sm

L'attuale frequenza di clock dello Streaming Multiprocessor (SM).

clocks_current_memory

nvidia_smi_clocks_current_memory

L'attuale frequenza di clock della memoria.

clocks_current_video

nvidia_smi_clocks_current_video

L'attuale frequenza di clock del video (encoder più decoder).

Tutti questi parametri vengono raccolti con le seguenti dimensioni:

Dimensione Descrizione

index

Un identificatore univoco per la GPU su questo server. Rappresenta l'indice NVIDIA Management Library (NVML) del dispositivo.

name

Il tipo di GPU. Ad esempio, NVIDIA Tesla A100

arch

L'architettura del server.