Erfassen von NVIDIA GPU-Metriken

Sie können den CloudWatch-Agenten verwenden, um NVIDIA GPU-Metriken von Linux-Servern zu erfassen. Um dies einzurichten, fügen Sie einen nvidia_gpu-Abschnitt im metrics_collected-Abschnitt der CloudWatch-Agent-Konfigurationsdatei hinzu. Weitere Informationen finden Sie unter Linux-Abschnitt.

Darüber hinaus muss auf der Instance ein NVIDIA-Treiber installiert sein. NVIDIA-Treiber sind auf einigen Amazon Machine Images (AMIs) vorinstalliert. Andernfalls können Sie den Treiber manuell installieren. Weitere Informationen finden Sie unter Installieren von NVIDIA-Treibern auf Linux-Instances.

Die folgenden Metriken können erfasst werden. Alle diese Metriken werden ohne CloudWatch-Unit erfasst, aber Sie können für jede Metrik eine Einheit angeben, indem Sie der Konfigurationsdatei des CloudWatch-Agenten einen Parameter hinzufügen. Weitere Informationen finden Sie unter Linux-Abschnitt.

Metrik	Metrikname in CloudWatch	Beschreibung
`utilization_gpu`	`nvidia_smi_utilization_gpu`	Der Prozentsatz der Zeit im vergangenen Erfassungszeitraum, während dessen ein oder mehrere Kernel der GPU aktiv waren.
`temperature_gpu`	`nvidia_smi_temperature_gpu`	Die GPU-Kerntemperatur in Grad Celsius.
`power_draw`	`nvidia_smi_power_draw`	Die letzte gemessene Leistungsaufnahme des gesamten Boards in Watt.
`utilization_memory`	`nvidia_smi_utilization_memory`	Der Prozentsatz der Zeit im vergangenen Erfassungszeitraum, während dessen der globale Speicher (Gerätespeicher) gelesen oder geschrieben wurde.
`fan_speed`	`nvidia_smi_fan_speed`	Der Prozentsatz der maximalen Lüfterdrehzahl, mit der der Lüfter des Geräts derzeit laufen soll.
`memory_total`	`nvidia_smi_memory_total`	Der gemeldete Gesamtspeicher in MB.
`memory_used`	`nvidia_smi_memory_used`	Der verwendete Speicher in MB.
`memory_free`	`nvidia_smi_memory_free`	Der freie Speicher in MB.
`pcie_link_gen_current`	`nvidia_smi_pcie_link_gen_current`	Die aktuelle Link-Generation.
`pcie_link_width_current`	`nvidia_smi_pcie_link_width_current`	Die aktuelle Link-Breite.
`encoder_stats_session_count`	`nvidia_smi_encoder_stats_session_count`	Aktuelle Anzahl von Encoder-Sitzungen.
`encoder_stats_average_fps`	`nvidia_smi_encoder_stats_average_fps`	Der gleitende Durchschnitt der Codierungs-Frames pro Sekunde.
`encoder_stats_average_latency`	`nvidia_smi_encoder_stats_average_latency`	Der gleitende Durchschnitt der Codier-Latenz in Mikrosekunden.
`clocks_current_graphics`	`nvidia_smi_clocks_current_graphics`	Die aktuelle Frequenz der Grafikuhr (Shader).
`clocks_current_sm`	`nvidia_smi_clocks_current_sm`	Die aktuelle Frequenz der SM-Uhr (Streaming Multiprozessor).
`clocks_current_memory`	`nvidia_smi_clocks_current_memory`	Die aktuelle Frequenz der Speicheruhr.
`clocks_current_video`	`nvidia_smi_clocks_current_video`	Die aktuelle Frequenz der Videouhr (Encoder plus Decoder).

Alle diese Metriken werden mit den folgenden Dimensionen erfasst:

Dimension	Beschreibung
`index`	Ein eindeutiger Bezeichner für die GPU dieses Servers. Stellt den NVML-Index (NVIDIA Management Library) des Geräts dar.
`name`	Die Art der GPU. Beispiel: `NVIDIA Tesla A100`
`arch`	Die Serverarchitektur.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erfassen von EC2-Instance-Speicher-Metriken

Erfassung von Java Management Extensions (JMX)-Metriken