Erfassen von NVIDIA GPU-Metriken
Sie können den CloudWatch-Agenten verwenden, um NVIDIA GPU-Metriken von Linux-Servern zu erfassen. Um dies einzurichten, fügen Sie einen nvidia_gpu-Abschnitt im metrics_collected-Abschnitt der CloudWatch-Agent-Konfigurationsdatei hinzu. Weitere Informationen finden Sie unter Linux-Abschnitt.
Darüber hinaus muss auf der Instance ein NVIDIA-Treiber installiert sein. NVIDIA-Treiber sind auf einigen Amazon Machine Images (AMIs) vorinstalliert. Andernfalls können Sie den Treiber manuell installieren. Weitere Informationen finden Sie unter Installieren von NVIDIA-Treibern auf Linux-Instances.
Die folgenden Metriken können erfasst werden. Alle diese Metriken werden ohne CloudWatch-Unit erfasst, aber Sie können für jede Metrik eine Einheit angeben, indem Sie der Konfigurationsdatei des CloudWatch-Agenten einen Parameter hinzufügen. Weitere Informationen finden Sie unter Linux-Abschnitt.
| Metrik | Metrikname in CloudWatch | Beschreibung |
|---|---|---|
|
|
|
Der Prozentsatz der Zeit im vergangenen Erfassungszeitraum, während dessen ein oder mehrere Kernel der GPU aktiv waren. |
|
|
|
Die GPU-Kerntemperatur in Grad Celsius. |
|
|
|
Die letzte gemessene Leistungsaufnahme des gesamten Boards in Watt. |
|
|
|
Der Prozentsatz der Zeit im vergangenen Erfassungszeitraum, während dessen der globale Speicher (Gerätespeicher) gelesen oder geschrieben wurde. |
|
|
|
Der Prozentsatz der maximalen Lüfterdrehzahl, mit der der Lüfter des Geräts derzeit laufen soll. |
|
|
|
Der gemeldete Gesamtspeicher in MB. |
|
|
|
Der verwendete Speicher in MB. |
|
|
|
Der freie Speicher in MB. |
|
|
|
Die aktuelle Link-Generation. |
|
|
|
Die aktuelle Link-Breite. |
|
|
|
Aktuelle Anzahl von Encoder-Sitzungen. |
|
|
|
Der gleitende Durchschnitt der Codierungs-Frames pro Sekunde. |
|
|
|
Der gleitende Durchschnitt der Codier-Latenz in Mikrosekunden. |
|
|
|
Die aktuelle Frequenz der Grafikuhr (Shader). |
|
|
|
Die aktuelle Frequenz der SM-Uhr (Streaming Multiprozessor). |
|
|
|
Die aktuelle Frequenz der Speicheruhr. |
|
|
|
Die aktuelle Frequenz der Videouhr (Encoder plus Decoder). |
Alle diese Metriken werden mit den folgenden Dimensionen erfasst:
| Dimension | Beschreibung |
|---|---|
|
|
Ein eindeutiger Bezeichner für die GPU dieses Servers. Stellt den NVML-Index (NVIDIA Management Library) des Geräts dar. |
|
|
Die Art der GPU. Beispiel: |
|
|
Die Serverarchitektur. |