Erfassen von NVIDIA GPU-Metriken - Amazon CloudWatch

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erfassen von NVIDIA GPU-Metriken

Sie können den CloudWatch Agenten verwenden, um NVIDIA-GPU-Metriken von Linux-Servern zu sammeln. Um dies einzurichten, fügen Sie dem nvidia_gpu metrics_collected Abschnitt der CloudWatch Agenten-Konfigurationsdatei einen Abschnitt hinzu. Weitere Informationen finden Sie unter Linux-Abschnitt.

Darüber hinaus muss auf der Instance ein NVIDIA-Treiber installiert sein. NVIDIA-Treiber sind auf einigen Amazon Machine Images vorinstalliert (AMIs). Andernfalls können Sie den Treiber manuell installieren. Weitere Informationen finden Sie unter Installieren von NVIDIA-Treibern auf Linux-Instances.

Die folgenden Metriken können erfasst werden. Alle diese Metriken werden ohne Angabe erfasst CloudWatch Unit, aber Sie können für jede Metrik eine Einheit angeben, indem Sie der CloudWatch Agentenkonfigurationsdatei einen Parameter hinzufügen. Weitere Informationen finden Sie unter Linux-Abschnitt.

Metrik Name der Metrik in CloudWatch Beschreibung

utilization_gpu

nvidia_smi_utilization_gpu

Der Prozentsatz der Zeit im vergangenen Erfassungszeitraum, während dessen ein oder mehrere Kernel der GPU aktiv waren.

temperature_gpu

nvidia_smi_temperature_gpu

Die GPU-Kerntemperatur in Grad Celsius.

power_draw

nvidia_smi_power_draw

Die letzte gemessene Leistungsaufnahme des gesamten Boards in Watt.

utilization_memory

nvidia_smi_utilization_memory

Der Prozentsatz der Zeit im vergangenen Erfassungszeitraum, während dessen der globale Speicher (Gerätespeicher) gelesen oder geschrieben wurde.

fan_speed

nvidia_smi_fan_speed

Der Prozentsatz der maximalen Lüfterdrehzahl, mit der der Lüfter des Geräts derzeit laufen soll.

memory_total

nvidia_smi_memory_total

Der gemeldete Gesamtspeicher in MB.

memory_used

nvidia_smi_memory_used

Der verwendete Speicher in MB.

memory_free

nvidia_smi_memory_free

Der freie Speicher in MB.

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

Die aktuelle Link-Generation.

pcie_link_width_current

nvidia_smi_pcie_link_width_current

Die aktuelle Link-Breite.

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

Aktuelle Anzahl von Encoder-Sitzungen.

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

Der gleitende Durchschnitt der Codierungs-Frames pro Sekunde.

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

Der gleitende Durchschnitt der Codier-Latenz in Mikrosekunden.

clocks_current_graphics

nvidia_smi_clocks_current_graphics

Die aktuelle Frequenz der Grafikuhr (Shader).

clocks_current_sm

nvidia_smi_clocks_current_sm

Die aktuelle Frequenz der SM-Uhr (Streaming Multiprozessor).

clocks_current_memory

nvidia_smi_clocks_current_memory

Die aktuelle Frequenz der Speicheruhr.

clocks_current_video

nvidia_smi_clocks_current_video

Die aktuelle Frequenz der Videouhr (Encoder plus Decoder).

Alle diese Metriken werden mit den folgenden Dimensionen erfasst:

Dimension Beschreibung

index

Ein eindeutiger Bezeichner für die GPU dieses Servers. Stellt den NVML-Index (NVIDIA Management Library) des Geräts dar.

name

Die Art der GPU. Beispiel: NVIDIA Tesla A100

arch

Die Serverarchitektur.