View a markdown version of this page

Slurm-Metriken auf PCS AWS - AWS PCS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Slurm-Metriken auf PCS AWS

AWS PCS unterstützt die Metrikfunktion von Slurm, die Clusterdaten in Echtzeit über HTTP-Endpunkte bereitstellt, die mit Prometheus und anderen Überwachungssystemen kompatibel sind. Einzelheiten, einschließlich Auswirkungen auf die Leistung und Sicherheitsaspekte, finden Sie im Metrics Guide in der Slurm-Dokumentation.

Voraussetzungen

Bevor Sie Slurm-Metriken aktivieren, stellen Sie sicher, dass Sie über Folgendes verfügen:

  • Cluster-Version: Slurm-Version 25.11 oder höher.

  • Sicherheitsgruppe: Regeln, die HTTP-Verkehr auf Port 6817 von Ihren gewünschten Quellen zulassen.

Aktivieren Sie den Metrik-Endpunkt

Legen Sie die folgenden benutzerdefinierten Slurm-Einstellungen auf Clusterebene fest:

  • MetricsType— Muss ein unterstütztes Metrik-Plugin angeben, wie z. metrics/openmetrics

  • CommunicationParameters— Muss enthaltenenable_http.

    Wichtig

    Durch die Aktivierung enable_http wird ein nicht authentifizierter HTTP-Endpunkt verfügbar gemacht. Jeder mit Netzwerkzugriff auf Port 6817 kann Cluster-, Job- und Knotenmetriken lesen. Verwenden Sie Sicherheitsgruppenregeln, um den Zugriff nur auf vertrauenswürdige Quellen zu beschränken.

  • PrivateData— Darf nicht gesetzt werden.

Weitere Informationen zu benutzerdefinierten Slurm-Einstellungen finden Sie unterKonfiguration benutzerdefinierter Slurm-Einstellungen in PCS AWS.

Verwenden Sie den Metrik-Endpunkt

Fragen Sie den Metrik-Endpunkt von einem Host mit Netzwerkzugriff auf den Controller ab:

curl http://controller-ip:6817/metrics

Weitere Informationen zu verfügbaren Metriken und zur Scraping-Konfiguration finden Sie im Metrics Guide in der Slurm-Dokumentation.