CloudWatch Lösung: NVIDIA-GPU-Workload bei Amazon EC2 - Amazon CloudWatch

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

CloudWatch Lösung: NVIDIA-GPU-Workload bei Amazon EC2

Diese Lösung hilft Ihnen bei der Konfiguration der out-of-the-box Metrikerfassung mithilfe von CloudWatch Agenten für NVIDIA-GPU-Workloads, die auf EC2 Instanzen ausgeführt werden. Darüber hinaus hilft sie Ihnen bei der Einrichtung eines vorkonfigurierten Dashboards CloudWatch . Allgemeine Informationen zu allen CloudWatch Observability-Lösungen finden Sie unter. CloudWatch Observability-Lösungen

Voraussetzungen

Diese Lösung ist für folgende Bedingungen relevant:

  • Berechnung: Amazon EC2

  • Unterstützt bis zu 500 GPUs auf allen EC2 Instanzen in einer bestimmten Instanz AWS-Region

  • Aktuelle Version des CloudWatch Agenten

  • Der SSM-Agent ist auf der EC2 Instanz installiert

  • Auf der EC2 Instanz muss ein NVIDIA-Treiber installiert sein. NVIDIA-Treiber sind auf einigen Amazon Machine Images (AMIs) vorinstalliert. Andernfalls können Sie den Treiber manuell installieren. Weitere Informationen finden Sie unter Installieren von NVIDIA-Treibern auf Linux-Instances.

Anmerkung

AWS Systems Manager (SSM-Agent) ist auf einigen Amazon Machine Images (AMIs) vorinstalliert, die von vertrauenswürdigen Drittanbietern AWS bereitgestellt werden. Wenn der Agent nicht installiert ist, können Sie ihn manuell installieren, indem Sie das Verfahren für Ihren Betriebssystemtyp verwenden.

Vorteile

Die Lösung bietet NVIDIA-Überwachung und wertvolle Erkenntnisse für die folgenden Anwendungsfälle:

  • Analysieren Sie die GPU- und Speichernutzung im Hinblick auf Leistungsengpässe oder den Bedarf an zusätzlichen Ressourcen.

  • Überwachen Sie Temperatur und Stromverbrauch, um sicherzustellen, dass der GPUs Betrieb innerhalb sicherer Grenzwerte erfolgt.

  • Bewerten Sie die Encoder-Leistung für GPU-Video-Workloads.

  • Überprüfen Sie die PCIe Konnektivität für die erwartete Generation und Breite.

  • Überwachen Sie die GPU-Taktraten, um Probleme mit Skalierung und Drosselung zu erkennen.

Im Folgenden sind die Hauptvorteile der Lösung aufgeführt:

  • Automatisiert die Erfassung von Metriken für NVIDIA mithilfe der CloudWatch Agentenkonfiguration, wodurch die manuelle Instrumentierung entfällt.

  • Bietet ein vorkonfiguriertes, konsolidiertes CloudWatch Dashboard für NVIDIA-Metriken. Das Dashboard verarbeitet automatisch Metriken von neuen EC2 NVIDIA-Instanzen, die mit der Lösung konfiguriert wurden, auch wenn diese Metriken bei der ersten Erstellung des Dashboards noch nicht vorhanden waren.

Die nachfolgende Abbildung ist ein Beispiel eines Dashboards dieser Lösung.

Beispiel-Dashboard für die NVIDIA-GPU-Lösung.

Kosten

Diese Lösung erstellt und nutzt Ressourcen in Ihrem Konto. Ihnen wird die Standardnutzung berechnet, einschließlich der folgenden Kosten:

  • Alle vom CloudWatch Agenten gesammelten Metriken werden als benutzerdefinierte Metriken berechnet. Die Anzahl der von dieser Lösung verwendeten Metriken hängt von der Anzahl der EC2 Hosts ab.

    • Jeder für die Lösung konfigurierte EC2 Host veröffentlicht insgesamt 17 Metriken pro GPU.

  • Ein benutzerdefiniertes Dashboard.

  • API-Operationen, die vom CloudWatch Agenten zur Veröffentlichung der Metriken angefordert wurden. Bei der Standardkonfiguration für diese Lösung ruft der CloudWatch Agent die PutMetricDataeinmal pro Minute für jeden EC2 Host auf. Das bedeutet, dass die PutMetricDataAPI innerhalb eines 30-Tage-Monats für jeden EC2 Host aufgerufen 30*24*60=43,200 wird.

Weitere Informationen zur CloudWatch Preisgestaltung finden Sie unter CloudWatch Amazon-Preise.

Mithilfe des Preisrechners können Sie die ungefähren monatlichen Kosten für die Nutzung dieser Lösung abschätzen.

Um den Preisrechner zur Schätzung Ihrer monatlichen Kosten für die Lösung zu verwenden
  1. Öffnen Sie den CloudWatch Amazon-Preisrechner.

  2. Wählen Sie unter Region auswählen die Region aus, in der die Lösung bereitgestellt werden soll.

  3. Geben Sie im Abschnitt Metriken für die Anzahl der Metriken den Wert 17 * average number of GPUs per EC2 host * number of EC2 instances configured for this solution ein.

  4. Geben Sie im APIsAbschnitt Anzahl der API-Anfragen den Wert ein43200 * number of EC2 instances configured for this solution.

  5. Standardmäßig führt der CloudWatch Agent für jeden EC2 Host eine PutMetricDataOperation pro Minute durch.

  6. Geben Sie im Abschnitt Dashboards und Alarme für Anzahl der Dashboards 1 ein.

  7. Sie finden Ihre geschätzten monatlichen Kosten unten im Preisrechner.

CloudWatch Agentenkonfiguration für diese Lösung

Der CloudWatch Agent ist eine Software, die kontinuierlich und autonom auf Ihren Servern und in containerisierten Umgebungen ausgeführt wird. Es sammelt Metriken, Logs und Traces aus Ihrer Infrastruktur und Ihren Anwendungen und sendet sie an CloudWatch X-Ray.

Weitere Informationen über den CloudWatch Agenten finden Sie unterErfassen Sie mithilfe des CloudWatch Agenten Metriken, Protokolle und Traces.

Die Agentenkonfiguration in dieser Lösung erfasst verschiedene Metriken, die Ihnen den Einstieg in die Überwachung und Beobachtung Ihrer NVIDIA-GPU erleichtern. Der CloudWatch Agent kann so konfiguriert werden, dass er standardmäßig mehr NVIDIA-GPU-Metriken sammelt, als das Dashboard anzeigt. Eine Liste aller NVIDIA-GPU-Metriken, die Sie erfassen können, finden Sie unter Erfassen von NVIDIA GPU-Metriken.

Agentenkonfiguration für diese Lösung

Die vom Agenten zu erfassenden Metriken werden in der Agentenkonfiguration definiert. Die Lösung bietet Agenten-Konfigurationen zum Erfassen der empfohlenen Metriken mit geeigneten Dimensionen für das Dashboard der Lösung.

Verwenden Sie die folgende CloudWatch Agentenkonfiguration für EC2 Instanzen mit NVIDIA GPUs. Die Konfiguration wird als Parameter im Parameterspeicher von SSM gespeichert, wie weiter unten in beschrieben Schritt 2: Speichern Sie die empfohlene CloudWatch Agentenkonfigurationsdatei im Systems Manager Parameter Store.

{ "metrics": { "namespace": "CWAgent", "append_dimensions": { "InstanceId": "${aws:InstanceId}" }, "metrics_collected": { "nvidia_gpu": { "measurement": [ "utilization_gpu", "temperature_gpu", "power_draw", "utilization_memory", "fan_speed", "memory_total", "memory_used", "memory_free", "pcie_link_gen_current", "pcie_link_width_current", "encoder_stats_session_count", "encoder_stats_average_fps", "encoder_stats_average_latency", "clocks_current_graphics", "clocks_current_sm", "clocks_current_memory", "clocks_current_video" ], "metrics_collection_interval": 60 } } }, "force_flush_interval": 60 }

Bereitstellung des Agenten für Ihre Lösung

Je nach Anwendungsfall gibt es mehrere Ansätze für die Installation des CloudWatch Agenten. Wir empfehlen die Nutzung von Systems Manager für diese Lösung. Es bietet eine Konsolenerfahrung und erleichtert die Verwaltung einer Flotte verwalteter Server innerhalb eines einzigen AWS Kontos. Die Anweisungen in diesem Abschnitt verwenden Systems Manager und sind für den Fall vorgesehen, dass der CloudWatch Agent nicht mit vorhandenen Konfigurationen ausgeführt wird. Sie können überprüfen, ob der CloudWatch Agent ausgeführt wird, indem Sie die Schritte unter befolgenStellen Sie sicher, dass der CloudWatch Agent läuft.

Wenn Sie den CloudWatch Agenten bereits auf den EC2 Hosts ausführen, auf denen der Workload bereitgestellt wird, und die Agentenkonfigurationen verwalten, können Sie die Anweisungen in diesem Abschnitt überspringen und Ihren vorhandenen Bereitstellungsmechanismus verwenden, um die Konfiguration zu aktualisieren. Stellen Sie sicher, dass Sie die Agentenkonfiguration von NVDIA-GPU mit Ihrer vorhandenen Agentenkonfiguration zusammenführen und dann diese zusammengeführte Konfiguration bereitstellen. Wenn Sie Systems Manager verwenden, um die Konfiguration für den CloudWatch Agenten zu speichern und zu verwalten, können Sie die Konfiguration mit dem vorhandenen Parameterwert zusammenführen. Weitere Informationen finden Sie unter CloudWatch Agent-Konfigurationsdateien verwalten.

Anmerkung

Wenn Sie Systems Manager zur Bereitstellung der folgenden CloudWatch Agentenkonfigurationen verwenden, werden alle vorhandenen CloudWatch Agentenkonfigurationen auf Ihren EC2 Instanzen ersetzt oder überschrieben. Sie können diese Konfiguration an Ihre individuelle Umgebung oder Ihren jeweiligen Anwendungsfall anpassen. Die in der Konfiguration definierten Metriken sind die Mindestwerte, die für das Dashboard der Lösung erforderlich sind.

Der Bereitstellungsprozess umfasst die folgenden Schritte:

  • Schritt 1: Stellen Sie sicher, dass die EC2 Zielinstanzen über die erforderlichen IAM-Berechtigungen verfügen.

  • Schritt 2: Speichern Sie die empfohlene Agentenkonfigurationsdatei in Systems Manager Parameter Store.

  • Schritt 3: Installieren Sie den CloudWatch Agenten mithilfe eines CloudFormation Stacks auf einer oder mehreren EC2 Instances.

  • Schritt 4: Stellen Sie sicher, dass das Agenten-Setup richtig konfiguriert ist

Schritt 1: Stellen Sie sicher, dass die EC2 Zielinstanzen über die erforderlichen IAM-Berechtigungen verfügen

Sie müssen Systems Manager die Erlaubnis erteilen, den CloudWatch Agenten zu installieren und zu konfigurieren. Sie müssen dem CloudWatch Agenten auch die Erlaubnis erteilen, Telemetriedaten von Ihrer EC2 Instanz an zu CloudWatch veröffentlichen. Stellen Sie sicher, dass der IAM-Rolle, die der Instance zugewiesen ist, die Amazon IAM-Richtlinien CloudWatchAgentServerPolicyund die Amazon SSMManaged InstanceCore IAM-Richtlinien angehängt sind.

Schritt 2: Speichern Sie die empfohlene CloudWatch Agentenkonfigurationsdatei im Systems Manager Parameter Store

Parameter Store vereinfacht die Installation des CloudWatch Agenten auf einer EC2 Instanz, indem Konfigurationsparameter sicher gespeichert und verwaltet werden, sodass keine hartcodierten Werte erforderlich sind. Das gestaltet den Bereitstellungsprozess sicherer und flexibler und ermöglicht eine zentrale Verwaltung und einfachere Aktualisierungen von Konfigurationen über mehrere Instances hinweg.

Gehen Sie wie folgt vor, um die empfohlene CloudWatch Agent-Konfigurationsdatei als Parameter im Parameter Store zu speichern.

Um die CloudWatch Agenten-Konfigurationsdatei als Parameter zu erstellen
  1. Öffnen Sie die AWS Systems Manager Konsole unter https://console.aws.amazon.com/systems-manager/.

  2. Sorgen Sie dafür, dass die ausgewählte Region auf der Konsole die Region ist, in der die NVIDIA-GPU-Workload ausgeführt wird.

  3. Wählen Sie im Navigationsbereich Anwendungsmanagement, Parameter Store aus.

  4. Befolgen Sie diese Schritte, um einen neuen Parameter für die Konfiguration zu erstellen.

    1. Wählen Sie Parameter erstellen aus.

    2. Geben Sie im Feld Name einen Namen ein, mit dem Sie in späteren Schritten auf die CloudWatch Agenten-Konfigurationsdatei verweisen werden. Beispiel, AmazonCloudWatch-NVIDIA-GPU-Configuration.

    3. (Optional) Geben Sie in das Feld Beschreibung eine Beschreibung für den Parameter ein.

    4. Wählen Sie für Parameterstufe die Option Standard aus.

    5. Wählen Sie unter Type (Typ) die Option String (Zeichenfolge) aus.

    6. Wählen Sie als Datentyp die Option Text aus.

    7. Fügen Sie in das Feld Wert den entsprechenden JSON-Block ein, der unter Agentenkonfiguration für diese Lösung aufgeführt war.

    8. Wählen Sie Parameter erstellen aus.

Schritt 3: Installieren Sie den CloudWatch Agenten und wenden Sie die Konfiguration mithilfe einer CloudFormation Vorlage an

Sie können AWS CloudFormation damit den Agenten installieren und ihn so konfigurieren, dass er die CloudWatch Agentenkonfiguration verwendet, die Sie in den vorherigen Schritten erstellt haben.

Um den CloudWatch Agenten für diese Lösung zu installieren und zu konfigurieren
  1. Öffnen Sie den CloudFormation Quick Create Stack Wizard über diesen Link: https://console.aws.amazon.com/cloudformation/Home? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw agent-installation-template -1.0.0.json.

  2. Sorgen Sie dafür, dass die ausgewählte Region auf der Konsole die Region ist, in der die NVIDIA-GPU-Workload ausgeführt wird.

  3. Geben Sie unter Stack-Name einen Namen für diesen Stack, z. B. CWAgentInstallationStack, ein.

  4. Gehen Sie im Abschnitt Parameter wie folgt vor:

    1. Geben Sie für CloudWatchAgentConfigSSM den Namen des Systems Manager Manager-Parameters für die Agentenkonfiguration ein, die Sie zuvor erstellt haben, z. B. AmazonCloudWatch-NVIDIA-GPU-Configuration

    2. Um die Ziel-Instances auszuwählen, haben Sie zwei Optionen.

      1. Geben Sie für InstanceIdseine durch Kommas getrennte Liste der Instanzen eine Liste der Instanzen IDs an, IDs in denen Sie den CloudWatch Agenten mit dieser Konfiguration installieren möchten. Sie können eine einzelne Instance oder mehrere Instances auflisten.

      2. Wenn Sie die Bereitstellung in großem Umfang durchführen, können Sie die TagKeyund die entsprechenden Optionen angeben, sodass alle EC2 Instanzen mit diesem TagValueTag und Wert als Ziel ausgewählt werden sollen. Wenn Sie eine angeben TagKey, müssen Sie eine entsprechende angeben TagValue. (Geben Sie für eine Auto Scaling Scaling-Gruppe aws:autoscaling:groupName für die TagKeyund den Namen der Auto Scaling Scaling-Gruppe an, die TagValueauf allen Instances innerhalb der Auto Scaling Scaling-Gruppe bereitgestellt werden soll.)

  5. Überprüfen Sie die Einstellungen und wählen Sie dann Stack erstellen aus.

Wenn Sie die Vorlagendatei zuerst bearbeiten möchten, um sie anzupassen, wählen Sie im Assistenten zum Erstellen von Stacks die Option Eine Vorlagendatei hochladen aus, um die bearbeitete Vorlage hochzuladen. Weitere Informationen finden Sie unter Einen Stack auf der CloudFormation Konsole erstellen.

Anmerkung

Nach Abschluss dieses Schritts wird dieser Systems Manager Manager-Parameter den CloudWatch Agenten zugeordnet, die in den Zielinstanzen ausgeführt werden. Dies bedeutet, dass:

  1. Wenn der Systems-Manager-Parameter gelöscht wird, wird der Agent gestoppt.

  2. Wenn der Systems-Manager-Parameter bearbeitet wird, werden die Konfigurationsänderungen automatisch in der geplanten Häufigkeit, die standardmäßig 30 Tage beträgt, für den Agenten übernommen.

  3. Wenn Sie Änderungen an diesem Systems-Manager-Parameter sofort anwenden möchten, müssen Sie diesen Schritt erneut ausführen. Weitere Informationen über Zuordnungen finden Sie unter Arbeiten mit Zuordnungen in Systems Manager.

Schritt 4: Stellen Sie sicher, dass das Agenten-Setup richtig konfiguriert ist

Sie können überprüfen, ob der CloudWatch Agent installiert ist, indem Sie die Schritte unter befolgenStellen Sie sicher, dass der CloudWatch Agent läuft. Wenn der CloudWatch Agent nicht installiert ist und nicht ausgeführt wird, stellen Sie sicher, dass Sie alles richtig eingerichtet haben.

Wenn alles korrekt eingerichtet ist, sollten Sie sehen, dass die NVIDIA-GPU-Metriken veröffentlicht werden CloudWatch. Sie können in der CloudWatch Konsole nachsehen, ob sie veröffentlicht wurden.

Um zu überprüfen, ob NVIDIA-GPU-Metriken veröffentlicht werden CloudWatch
  1. Öffnen Sie die CloudWatch Konsole unter https://console.aws.amazon.com/cloudwatch/.

  2. Wählen Sie Metriken, Alle Metriken aus.

  3. Vergewissern Sie sich, dass Sie die Region ausgewählt haben, in der Sie die Lösung bereitgestellt haben, und wählen Sie Benutzerdefinierte Namespaces,. CWAgent

  4. Suchen Sie nach den unter genannten Metriken in Agentenkonfiguration für diese Lösung, z. B. nvidia_smi_utilization_gpu. Wenn Sie Ergebnisse für diese Metriken sehen, werden die Metriken unter veröffentlicht. CloudWatch

Erstellen des Dashboards für die NVIDIA-GPU-Lösung

Das von dieser Lösung bereitgestellte Dashboard präsentiert GPUs NVIDIA-Metriken, indem es Metriken für alle Instanzen aggregiert und präsentiert. Das Dashboard zeigt eine Aufschlüsselung der wichtigsten Faktoren (Top-10-pro-Metrik-Widget) für jede Metrik. Auf diese Weise identifizieren Sie schnell Ausreißer oder Fälle, die erheblich zu den beobachteten Metriken beitragen.

Um das Dashboard zu erstellen, können Sie die folgenden Optionen nutzen.

  • Verwenden Sie die CloudWatch Konsole, um das Dashboard zu erstellen.

  • Verwenden Sie die AWS CloudFormation Konsole, um das Dashboard bereitzustellen.

  • Laden Sie die AWS CloudFormation Infrastruktur als Code herunter und integrieren Sie sie als Teil Ihrer Continuous Integration (CI) -Automatisierung.

Wenn Sie die CloudWatch Konsole zum Erstellen eines Dashboards verwenden, können Sie eine Vorschau des Dashboards anzeigen, bevor Sie es erstellen und bezahlen.

Anmerkung

Das CloudFormation in dieser Lösung erstellte Dashboard zeigt Metriken aus der Region an, in der die Lösung bereitgestellt wird. Stellen Sie sicher, dass Sie den CloudFormation Stack in der Region erstellen, in der Ihre NVIDIA-GPU-Metriken veröffentlicht werden.

Wenn Sie einen anderen benutzerdefinierten Namespace als CWAgent in der CloudWatch Agentenkonfiguration angegeben haben, müssen Sie die CloudFormation Vorlage für das Dashboard so ändern, dass sie durch den von Ihnen verwendeten benutzerdefinierten Namespace CWAgent ersetzt wird.

Um das Dashboard über die Konsole zu erstellen CloudWatch
  1. Öffnen Sie die CloudWatch Konsole Create Dashboard über diesen Link: https://console.aws.amazon.com/cloudwatch/Home? #dashboards? NvidiaGpuOnEcDashboardTemplate= 2&referrer=os-catalog.

  2. Sorgen Sie dafür, dass die ausgewählte Region auf der Konsole die Region ist, in der die NVIDIA-GPU-Workload ausgeführt wird.

  3. Geben Sie einen Namen für das Dashboard ein und wählen Sie Dashboard erstellen.

    Um dieses Dashboard leicht von ähnlichen Dashboards in anderen Regionen zu unterscheiden, empfehlen wir, den Namen der Region in den Namen des Dashboards aufzunehmen, z. B. NVIDIA-GPU-Dashboard-us-east-1.

  4. Zeigen Sie eine Vorschau des Dashboards an und wählen Sie Speichern aus, um das Dashboard zu erstellen.

Um das Dashboard zu erstellen über CloudFormation
  1. Öffnen Sie den Assistenten CloudFormation zum schnellen Erstellen von Stacks über diesen Link: https://console.aws.amazon.com/cloudformation/Home? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json.

  2. Sorgen Sie dafür, dass die ausgewählte Region auf der Konsole die Region ist, in der die NVIDIA-GPU-Workload ausgeführt wird.

  3. Geben Sie unter Stack-Name einen Namen für diesen Stack, z. B. NVIDIA-GPU-DashboardStack, ein.

  4. Geben Sie im Abschnitt Parameter den Namen des Dashboards unter dem Parameter an. DashboardName

  5. Um dieses Dashboard leicht von ähnlichen Dashboards in anderen Regionen zu unterscheiden, empfehlen wir, den Namen der Region in den Namen des Dashboards aufzunehmen, z. B. NVIDIA-GPU-Dashboard-us-east-1.

  6. Bestätigen Sie die Zugriffsmöglichkeiten für Transformationen unter Funktionen und Transformationen. Beachten Sie, dass dadurch CloudFormation keine IAM-Ressourcen hinzugefügt werden.

  7. Überprüfen Sie die Einstellungen und wählen Sie dann Stack erstellen aus.

  8. Wenn der Stack-Status CREATE_COMPLETE lautet, wählen Sie unter dem erstellten Stack die Registerkarte Ressourcen und dann den Link unter Physische ID aus, um zum Dashboard zu gelangen. Sie können auch in der CloudWatch Konsole auf das Dashboard zugreifen, indem Sie im linken Navigationsbereich der Konsole Dashboards auswählen und den Namen des Dashboards unter Benutzerdefinierte Dashboards suchen.

Wenn Sie die Vorlagendatei bearbeiten möchten, um sie für beliebige Zwecke anzupassen, können Sie im Assistenten zum Erstellen von Stacks die Option Eine Vorlagendatei hochladen auswählen, um die bearbeitete Vorlage hochzuladen. Weitere Informationen finden Sie unter Erstellen eines Stacks in der CloudFormation -Konsole. Sie können diesen Link verwenden, um die Vorlage herunterzuladen: https://aws-observability-solutions-prod-us-east-1.s3.us-east-1.amazonaws.com/NVIDIA_GPU_EC2/ CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json.

Erste Schritte mit dem NVIDIA-GPU-Dashboard

Hier finden Sie ein paar Aufgaben, die Sie mit dem neuen NVIDIA-GPU-Dashboard ausprobieren können. Mit diesen Aufgaben können Sie überprüfen, ob das Dashboard ordnungsgemäß funktioniert, und Sie erhalten praktische Erfahrungen mit der Verwendung des Dashboards zur Überwachung Ihres NVIDIA-Geräts. GPUs Wenn Sie diese Optionen ausprobieren, werden Sie sich mit der Navigation im Dashboard und der Interpretation der visualisierten Metriken vertraut machen.

Überprüfen der GPU-Auslastung

Suchen Sie im Abschnitt Auslastung nach den Widgets GPU-Auslastung und Speicherauslastung. Diese zeigen den Prozentsatz der Zeit, in der die GPU aktiv für Berechnungen verwendet wird, und den Prozentsatz des globalen Speichers, der gelesen bzw. geschrieben wird. Eine hohe Auslastung könnte auf potenzielle Leistungsengpässe oder den Bedarf an zusätzlichen GPU-Ressourcen hindeuten.

Analysieren der GPU-Speicherauslastung

Suchen Sie im Bereich Speicher nach den Widgets Gesamtspeicher, Verwendeter Speicher und Freier Speicher. Diese geben Aufschluss über die Gesamtspeicherkapazität von GPUs und darüber, wie viel Speicher derzeit verbraucht oder verfügbar ist. Speicherauslastung kann zu Leistungsproblemen oder out-of-memory Fehlern führen. Daher ist es wichtig, diese Messwerte zu überwachen und sicherzustellen, dass ausreichend Arbeitsspeicher für Ihre Workloads verfügbar ist.

Überwachen von Temperatur und Stromaufnahme

Suchen Sie im Bereich Temperatur/Leistung nach den Widgets GPU-Temperatur und Stromaufnahme. Diese Messwerte sind wichtig, um sicherzustellen, dass Sie GPUs innerhalb sicherer Wärme- und Leistungsgrenzen arbeiten.

Identifizieren der Encoder-Leistung

Suchen Sie im Bereich Encoder nach den Widgets Anzahl der Encoder-Sitzungen, Durchschnittliche FPS und Durchschnittliche Latenz. Diese Metriken sind relevant, wenn Sie Videokodierungs-Workloads auf Ihrem GPUs ausführen. Überwachen Sie diese Messwerte, um dafür zu sorgen, dass Ihre Encoder optimal funktionieren, und um potenzielle Engpässe oder Leistungsprobleme zu identifizieren.

Überprüfen Sie den PCIe Linkstatus

Suchen Sie in PCIediesem Abschnitt nach den Widgets PCIe Linkgenerierung und PCIe Linkbreite. Diese Metriken liefern Informationen über den PCIe Link, der die GPU mit dem Hostsystem verbindet. Stellen Sie sicher, dass der Link mit der erwarteten Generation und Breite betrieben wird, um mögliche Leistungseinschränkungen aufgrund von PCIe Engpässen zu vermeiden.

Überprüfen der GPU-Taktfrequenzen

Suchen Sie im Bereich Taktfrequenz nach den Widgets Grafiktakt, SM-Takt, Speichertakt und Videotakt. Diese Metriken zeigen die aktuellen Betriebsfrequenzen verschiedener GPU-Komponenten. Durch die Überwachung dieser Taktfrequenzen können potenzielle Probleme mit der GPU-Taktskalierung oder Frequenzdrosselung erkannt werden, die sich auf die Leistung auswirken könnten.