Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Slurm-Metriken auf PCS AWS
AWS PCS unterstützt die Metrikfunktion von Slurm, die Clusterdaten in Echtzeit über HTTP-Endpunkte bereitstellt, die mit Prometheus und anderen Überwachungssystemen kompatibel sind. Einzelheiten, einschließlich Auswirkungen auf die Leistung und Sicherheitsaspekte, finden Sie im Metrics Guide in der Slurm-Dokumentation
Voraussetzungen
Bevor Sie Slurm-Metriken aktivieren, stellen Sie sicher, dass Sie über Folgendes verfügen:
-
Cluster-Version: Slurm-Version 25.11 oder höher.
-
Sicherheitsgruppe: Regeln, die HTTP-Verkehr auf Port 6817 von Ihren gewünschten Quellen zulassen.
Aktivieren Sie den Metrik-Endpunkt
Legen Sie die folgenden benutzerdefinierten Slurm-Einstellungen auf Clusterebene fest:
-
MetricsType— Muss ein unterstütztes Metrik-Plugin angeben, wie z.metrics/openmetrics -
CommunicationParameters— Muss enthaltenenable_http.Wichtig
Durch die Aktivierung
enable_httpwird ein nicht authentifizierter HTTP-Endpunkt verfügbar gemacht. Jeder mit Netzwerkzugriff auf Port 6817 kann Cluster-, Job- und Knotenmetriken lesen. Verwenden Sie Sicherheitsgruppenregeln, um den Zugriff nur auf vertrauenswürdige Quellen zu beschränken. -
PrivateData— Darf nicht gesetzt werden.
Weitere Informationen zu benutzerdefinierten Slurm-Einstellungen finden Sie unterKonfiguration benutzerdefinierter Slurm-Einstellungen in PCS AWS.
Verwenden Sie den Metrik-Endpunkt
Fragen Sie den Metrik-Endpunkt von einem Host mit Netzwerkzugriff auf den Controller ab:
curl http://controller-ip:6817/metrics
Weitere Informationen zu verfügbaren Metriken und zur Scraping-Konfiguration finden Sie im Metrics Guide