Erfassen von NVIDIA GPU-Metriken - Amazon CloudWatch

Erfassen von NVIDIA GPU-Metriken

Sie können den CloudWatch-Agenten verwenden, um NVIDIA GPU-Metriken von Linux-Servern zu erfassen. Um dies einzurichten, fügen Sie einen nvidia_gpu-Abschnitt im metrics_collected-Abschnitt der CloudWatch-Agent-Konfigurationsdatei hinzu. Weitere Informationen finden Sie unter Linux-Abschnitt.

Darüber hinaus muss auf der Instance ein NVIDIA-Treiber installiert sein. NVIDIA-Treiber sind auf einigen Amazon Machine Images (AMIs) vorinstalliert. Andernfalls können Sie den Treiber manuell installieren. Weitere Informationen finden Sie unter Installieren von NVIDIA-Treibern auf Linux-Instances.

Die folgenden Metriken können erfasst werden. Alle diese Metriken werden ohne CloudWatch-Unit erfasst, aber Sie können für jede Metrik eine Einheit angeben, indem Sie der Konfigurationsdatei des CloudWatch-Agenten einen Parameter hinzufügen. Weitere Informationen finden Sie unter Linux-Abschnitt.

Metrik Metrikname in CloudWatch Beschreibung

utilization_gpu

nvidia_smi_utilization_gpu

Der Prozentsatz der Zeit im vergangenen Erfassungszeitraum, während dessen ein oder mehrere Kernel der GPU aktiv waren.

temperature_gpu

nvidia_smi_temperature_gpu

Die GPU-Kerntemperatur in Grad Celsius.

power_draw

nvidia_smi_power_draw

Die letzte gemessene Leistungsaufnahme des gesamten Boards in Watt.

utilization_memory

nvidia_smi_utilization_memory

Der Prozentsatz der Zeit im vergangenen Erfassungszeitraum, während dessen der globale Speicher (Gerätespeicher) gelesen oder geschrieben wurde.

fan_speed

nvidia_smi_fan_speed

Der Prozentsatz der maximalen Lüfterdrehzahl, mit der der Lüfter des Geräts derzeit laufen soll.

memory_total

nvidia_smi_memory_total

Der gemeldete Gesamtspeicher in MB.

memory_used

nvidia_smi_memory_used

Der verwendete Speicher in MB.

memory_free

nvidia_smi_memory_free

Der freie Speicher in MB.

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

Die aktuelle Link-Generation.

pcie_link_width_current

nvidia_smi_pcie_link_width_current

Die aktuelle Link-Breite.

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

Aktuelle Anzahl von Encoder-Sitzungen.

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

Der gleitende Durchschnitt der Codierungs-Frames pro Sekunde.

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

Der gleitende Durchschnitt der Codier-Latenz in Mikrosekunden.

clocks_current_graphics

nvidia_smi_clocks_current_graphics

Die aktuelle Frequenz der Grafikuhr (Shader).

clocks_current_sm

nvidia_smi_clocks_current_sm

Die aktuelle Frequenz der SM-Uhr (Streaming Multiprozessor).

clocks_current_memory

nvidia_smi_clocks_current_memory

Die aktuelle Frequenz der Speicheruhr.

clocks_current_video

nvidia_smi_clocks_current_video

Die aktuelle Frequenz der Videouhr (Encoder plus Decoder).

Alle diese Metriken werden mit den folgenden Dimensionen erfasst:

Dimension Beschreibung

index

Ein eindeutiger Bezeichner für die GPU dieses Servers. Stellt den NVML-Index (NVIDIA Management Library) des Geräts dar.

name

Die Art der GPU. Beispiel: NVIDIA Tesla A100

arch

Die Serverarchitektur.