Slurm-Exporter-Dashboard Knoten-Exporter-Dashboard Exporter-Dashboard von NVIDIA DCGM Dashboard für EFA-Metriken Dashboard von FSx für Lustre

Referenz zu exportierten Metriken

Die folgenden Abschnitte enthalten umfassende Listen von Metriken, die SageMaker HyperPod nach erfolgreicher Konfiguration des CloudFormation Stacks für Observability aus Amazon Managed Service for SageMaker HyperPod Prometheus exportiert wurden. Sie können mit der Überwachung dieser in den Dashboards von Amazon Managed Grafana visualisierten Metriken beginnen.

Slurm-Exporter-Dashboard

Stellt visualisierte Informationen zu Slurm-Clustern bereit. SageMaker HyperPod

Arten von Metriken

Cluster-Übersicht: Anzeige der Gesamtzahl der Knoten, Aufträgen und ihrer Status.
Auftragsmetriken: Visualisierung der Anzahl und des Status von Aufträgen im Zeitverlauf.
Knotenmetriken: Anzeige des Knotenstatus, der Zuweisung und der verfügbaren Ressourcen.
Partitionsmetriken: Überwachung partitionsspezifischer Metriken wie CPU-, Arbeitsspeicher- und GPU-Auslastung.
Auftragseffizienz: Berechnung der Auftragseffizienz auf der Grundlage der eingesetzten Ressourcen.

Liste der Metriken

Metrikname	Description
`slurm_job_count`	Die Gesamtzahl der Aufträge im Slurm-Cluster
`slurm_job_state_count`	Anzahl der Aufträge in jedem Status (z. B. wird ausgeführt, ausstehend, abgeschlossen)
`slurm_node_count`	Die Gesamtzahl der Knoten im Slurm-Cluster
`slurm_node_state_count`	Anzahl der Knoten in jedem Status (z. B. inaktiv, alloc, mix)
`slurm_partition_node_count`	Anzahl der Knoten in jeder Partition
`slurm_partition_job_count`	Anzahl der Aufträge in jeder Partition
`slurm_partition_alloc_cpus`	Gesamtzahl der zugewiesenen CPUs in jeder Partition
`slurm_partition_free_cpus`	Gesamtzahl der verfügbaren CPUs in jeder Partition
`slurm_partition_alloc_memory`	Insgesamt zugewiesener Speicher in jeder Partition
`slurm_partition_free_memory`	Insgesamt verfügbarer Speicher in jeder Partition
`slurm_partition_alloc_gpus`	Insgesamt zugewiesene GPUs in jeder Partition
`slurm_partition_free_gpus`	Insgesamt verfügbare GPUs in jeder Partition

Knoten-Exporter-Dashboard

Stellt visualisierte Informationen zu Systemmetriken bereit, die vom Prometheus-Knotenexporter von den Clusterknoten gesammelt wurden. HyperPod

Arten von Metriken

Systemübersicht: Anzeige der durchschnittlichen CPU-Last und der Speicherauslastung.
Speichermetriken: Visualisierung der Speicherauslastung, einschließlich Gesamtspeicher, freiem Speicher und Auslagerungsbereich.
Festplattennutzung: Überwachung der Festplattenauslastung und -verfügbarkeit.
Netzwerkverkehr: Anzeige der im Laufe der Zeit empfangenen und übertragenen Netzwerkbytes.
Dateisystem-Metriken: Analyse der Nutzung und Verfügbarkeit des Dateisystems.
I/O Festplatten-Metriken: Visualisierung der Lese- und Schreibaktivitäten auf der Festplatte.

Liste der Metriken

Eine vollständige Liste der exportierten Metriken finden Sie in den Repositorys Node Exporter und GitHub procfs. Die folgende Tabelle zeigt einen Teil der Metriken, die Einblicke in die Nutzung der Systemressourcen wie CPU-Auslastung, Speicherverbrauch, Festplattenspeicher und Netzwerkaktivität geben.

Metrikname	Description
`node_load1`	Durchschnittliche Auslastung 1 Minute
`node_load5`	Durchschnittliche Auslastung 5 Minuten
`node_load15`	Durchschnittliche Auslastung 15 Minuten
`node_memory_MemTotal`	Gesamtsystemspeicher
`node_memory_MemFree`	Freier Systemspeicher
`node_memory_MemAvailable`	Verfügbarer Speicher für die Zuweisung zu Prozessen
`node_memory_Buffers`	Speicher, der vom Kernel für die Pufferung verwendet wird
`node_memory_Cached`	Speicher, der vom Kernel für das Zwischenspeichern von Dateisystemdaten verwendet wird
`node_memory_SwapTotal`	Verfügbarer Auslagerungsbereich
`node_memory_SwapFree`	Kostenloser Auslagerungsbereich
`node_memory_SwapCached`	Einmal ausgelagerter Speicher wird wieder eingelagert, befindet sich aber weiterhin im Swap
`node_filesystem_avail_bytes`	Verfügbarer Festplattenspeicher in Byte
`node_filesystem_size_bytes`	Gesamter Festplattenspeicher in Byte
`node_filesystem_free_bytes`	Freier Festplattenspeicher in Byte
`node_network_receive_bytes`	Empfangene Netzwerk-Byte
`node_network_transmit_bytes`	Übertragene Netzwerk-Byte
`node_disk_read_bytes`	Gelesene Festplatten-Byte
`node_disk_written_bytes`	Geschriebene Festplatten-Byte

Exporter-Dashboard von NVIDIA DCGM

Bietet visualisierte Informationen zu NVIDIA-GPU-Metriken, die vom NVIDIA-DCGM-Exporter erfasst wurden.

Arten von Metriken

GPU-Übersicht: Anzeige der GPU-Auslastung, der Temperaturen, des Stromverbrauchs und der Speicherauslastung.
Temperaturmetriken: Visualisierung der GPU-Temperaturen im Zeitverlauf.
Stromverbrauch: Überwachung des GPU-Stromverbrauchs und der Trends beim Stromverbrauch.
Speicherauslastung: Analyse der GPU-Speichernutzung, einschließlich belegtem, freiem Speicher und Gesamtspeicher.
Lüftergeschwindigkeit: Anzeige der Geschwindigkeiten und Variationen der GPU-Lüfter.
ECC-Fehler: Verfolgung von ECC-Fehlern und ausstehenden Fehlern im GPU-Speicher.

Liste der Metriken

Die folgende Tabelle enthält eine Liste der Metriken, die Einblicke in den Zustand und die Leistung der NVIDIA-GPU bieten, darunter Taktfrequenzen, Temperaturen, Stromverbrauch, Speicherauslastung, Lüftergeschwindigkeiten und Fehlermetriken.

Metrikname	Description
`DCGM_FI_DEV_SM_CLOCK`	SM-Taktfrequenz (in MHz)
`DCGM_FI_DEV_MEM_CLOCK`	Speicher-Taktfrequenz (in MHz)
`DCGM_FI_DEV_MEMORY_TEMP`	Speichertemperatur (in C)
`DCGM_FI_DEV_GPU_TEMP`	GPU-Temperatur (in C)
`DCGM_FI_DEV_POWER_USAGE`	Leistungsaufnahme (in W)
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION`	Gesamtenergieverbrauch seit dem Start (in mJ)
`DCGM_FI_DEV_PCIE_REPLAY_COUNTER`	Gesamtzahl der PCIe-Wiederholversuche
`DCGM_FI_DEV_MEM_COPY_UTIL`	Speichernutzung (in %)
`DCGM_FI_DEV_ENC_UTIL`	Encoder-Nutzung (in%)
`DCGM_FI_DEV_DEC_UTIL`	Decoder-Nutzung (in%)
`DCGM_FI_DEV_XID_ERRORS`	Wert des letzten aufgetretenen XID-Fehlers
`DCGM_FI_DEV_FB_FREE`	Freier Frame-Pufferspeicher (in MiB)
`DCGM_FI_DEV_FB_USED`	Verwendeter Frame-Pufferspeicher (in MiB)
`DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL`	Gesamtzahl der NVLink-Bandbreitenzähler für alle Lanes
`DCGM_FI_DEV_VGPU_LICENSE_STATUS`	Status der vGPU-Lizenz
`DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS`	Anzahl der neu zugewiesenen Zeilen für nicht behebbare Fehler
`DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS`	Anzahl der neu zugewiesenen Zeilen für behebbare Fehler
`DCGM_FI_DEV_ROW_REMAP_FAILURE`	Ob die Neuzuweisung von Zeilen fehlgeschlagen ist

Dashboard für EFA-Metriken

Stellt visualisierte Informationen zu den Metriken von Amazon Elastic Fabric Adapter (EFA) bereit, die auf P-Instances installiert sind und vom EFA-Knoten-Exporter erfasst wurden.

Arten von Metriken

EFA-Fehlermetriken: Visualisierung von Fehlern wie Zuweisungsfehler, Befehlsfehler und Speicherzuordnungsfehler.
EFA-Netzwerkverkehr: Überwachung empfangener und übertragener Byte, Pakete und Arbeitsanfragen.
EFA-RDMA-Leistung: Analyse von RDMA-Lese- und Schreibvorgängen, einschließlich übertragener Byte und Fehlerraten.
Lebensdauer von EFA-Ports: Anzeige der Lebensdauer von EFA-Ports im Zeitverlauf.
EFA-Keep-Alive-Pakete: Verfolgung der Anzahl der empfangenen Keep-Alive-Pakete.

Liste der Metriken

Die folgende Tabelle enthält eine Liste der Metriken, die Einblicke in verschiedene Aspekte des EFA-Betriebs bieten, darunter Fehler, ausgeführte Befehle, Netzwerkverkehr und Ressourcenauslastung.

Metrikname	Description
`node_amazonefa_info`	Non-numeric Daten von/sys/class/infiniband/, Wert ist immer 1.
`node_amazonefa_lifespan`	Lebensdauer des Ports
`node_amazonefa_rdma_read_bytes`	Anzahl der mit RDMA gelesenen Byte
`node_amazonefa_rdma_read_resp_bytes`	Anzahl der mit RDMA gelesenen Antwort-Byte
`node_amazonefa_rdma_read_wr_err`	Anzahl der Lese- und Schreibfehler mit RDMA
`node_amazonefa_rdma_read_wrs`	Anzahl der mit RDMA gelesenen rs
`node_amazonefa_rdma_write_bytes`	Anzahl der mit RDMA geschriebenen Byte
`node_amazonefa_rdma_write_recv_bytes`	Anzahl der mit RDMA geschriebenen und empfangenen Byte
`node_amazonefa_rdma_write_wr_err`	Anzahl der mit Fehler geschriebenen Byte RDMA
`node_amazonefa_rdma_write_wrs`	Anzahl der geschriebenen Byte wrs RDMA
`node_amazonefa_recv_bytes`	Anzahl der empfangenen Bytes
`node_amazonefa_recv_wrs`	Anzahl der empfangenen Bytes wrs
`node_amazonefa_rx_bytes`	Anzahl der empfangenen Bytes
`node_amazonefa_rx_drops`	Anzahl der verworfenen Pakete
`node_amazonefa_rx_pkts`	Anzahl der empfangenen Pakete
`node_amazonefa_send_bytes`	Anzahl der gesendeten Byte
`node_amazonefa_send_wrs`	Anzahl der gesendeten wrs
`node_amazonefa_tx_bytes`	Anzahl der übertragenen Bytes
`node_amazonefa_tx_pkts`	Anzahl der übertragenen Pakete

Dashboard von FSx für Lustre

Stellt visualisierte Informationen zu den von Amazon gesammelten Metriken aus dem Dateisystem Amazon FSx for Lustre bereit. CloudWatch

Anmerkung

Das Grafana FSx for Lustre-Dashboard verwendet Amazon CloudWatch als Datenquelle, was sich von den anderen Dashboards unterscheidet, die Sie für die Verwendung von Amazon Managed Service für Prometheus konfiguriert haben. Um eine genaue Überwachung und Visualisierung von Metriken zu gewährleisten, die sich auf Ihr FSx for Lustre-Dateisystem beziehen, konfigurieren Sie das FSx for Lustre-Dashboard so, dass Amazon CloudWatch als Datenquelle verwendet wird, und geben Sie an, AWS-Region wo Ihr FSx for Lustre-Dateisystem bereitgestellt wird.

Arten von Metriken

DataReadBytes: Die Anzahl der Byte für Lesevorgänge im Dateisystem.
DataWriteBytes: Die Anzahl der Byte für Schreiboperationen im Dateisystem.
DataReadOperations: Die Anzahl der Lesevorgänge.
DataWriteOperations: Die Anzahl der Schreiboperationen.
MetadataOperations: Die Anzahl der Metadatenoperationen.
FreeDataStorageCapacity: Die Menge der verfügbaren Speicherkapazität.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Einrichten eines Grafana-Workspaces

Slurm-Metriken