Festplatten- und Speicheralarme Gesundheitscheck und CPU-Alarme Heartbeat-Alarm des Daemons für die Clusterverwaltung

CloudWatch Amazon-Alarme für Cluster-Metriken

AWS ParallelCluster konfiguriert CloudWatch Amazon-Alarme zur Überwachung des Zustands und der Ressourcennutzung des Hauptknotens. Alarme werden benanntcluster-name-HeadNode-metric, wobei der Name Ihres Clusters cluster-name steht und die zu überwachende Metrik metric identifiziert wird.

Greifen Sie auf die Alarme in der CloudWatch Konsole zu, indem Sie im Navigationsbereich Alarme auswählen.

Ein zusammengesetzter Alarm mit dem Namen cluster-name-HeadNode geht in den ALARM Status über, wenn einer der Alarme der einzelnen Kopfknoten ausgelöst wird.

Festplatten- und Speicheralarme

Ab AWS ParallelCluster Version 3.6.0 werden die folgenden CloudWatch Alarme erstellt:

cluster-name-HeadNode-Disk— Überwacht die disk_used_percent Metrik für das Root-Volumen. Wechselt in den ALARM Status, wenn die Festplattennutzung für einen Datenpunkt innerhalb eines Zeitraums von 1 Minute mehr als 90% beträgt.
cluster-name-HeadNode-Mem— Überwacht die mem_used_percent Metrik. Wechselt in den ALARM Status, wenn die Speicherauslastung für einen Datenpunkt innerhalb eines Zeitraums von 1 Minute mehr als 90% beträgt.

Weitere Informationen finden Sie unter Vom CloudWatchAgenten erhobene Metriken im CloudWatch Amazon-Benutzerhandbuch.

Gesundheitscheck und CPU-Alarme

Ab AWS ParallelCluster Version 3.8.0 werden die folgenden CloudWatch Alarme erstellt:

cluster-name-HeadNode-Health— Überwacht die Amazon StatusCheckFailed EC2-Metrik. Wechselt in den ALARM Status, wenn der Wert für einen Datenpunkt innerhalb eines Zeitraums von 1 Minute größer als 0 ist.
cluster-name-HeadNode-Cpu— Überwacht die Amazon CPUUtilization EC2-Metrik. Wechselt in den ALARM Status, wenn die CPU-Auslastung für einen Datenpunkt innerhalb eines Zeitraums von 1 Minute mehr als 90% beträgt.

Heartbeat-Alarm des Daemons für die Clusterverwaltung

Ab AWS ParallelCluster Version 3.15.0, wenn die CloudWatch Amazon-Protokollierung aktiviert ist und der Slurm Scheduler verwendet wird, wird der folgende Alarm erzeugt:

cluster-name-HeadNode-ClustermgtdHeartbeat— Überwacht die ClustermgtdHeartbeat Metrik im Namespace. ParallelCluster Der Alarm geht in den ALARM Status über, wenn für 10 aufeinanderfolgende Datenpunkte innerhalb eines Zeitraums von 1 Minute weniger als ein Heartbeat empfangen wird. Fehlende Daten werden als Sicherheitsverletzung behandelt.

Anmerkung

Alle Alarme werden symmetrisch wiederhergestellt: Für die Wiederherstellung gelten dieselben Datenpunkte und der gleiche Bewertungszeitraum, die den Alarm ausgelöst haben. Beispiel: Alarme mit einem Datenpunkt werden nach einem guten Datenpunkt innerhalb desselben Beobachtungszeitraums wiederhergestellt. In ähnlicher Weise benötigt der ClustermgtdHeartbeat Alarm 10 aufeinanderfolgende gute Datenpunkte (10 Minuten), um zu ihm zurückzukehren. OK

Anmerkung

AWS ParallelCluster konfiguriert keine Alarmaktionen. Informationen zum Einrichten von Alarmaktionen, z. B. zum Senden von Benachrichtigungen, finden Sie unter Alarmaktionen. Weitere Informationen zu CloudWatch Amazon-Alarmen finden Sie unter CloudWatch Amazon-Alarme verwenden im CloudWatch Amazon-Benutzerhandbuch.

Für AWS ParallelCluster Version 3.8.0 und höher deaktivieren Sie Alarme, indem Sie false in Ihrer Cluster-Konfiguration MonitoringAlarms//Enabledauf setzen.

Für AWS ParallelCluster Versionen vor 3.8.0 deaktivieren Sie Alarme, indem Sie false in Ihrer CloudWatchClusterkonfiguration MonitoringDashboards///Enabledauf setzen. Beachten Sie, dass diese Einstellung auch das CloudWatch Amazon-Dashboard deaktiviert. Weitere Informationen CloudWatch Amazon-Dashboard finden Sie unter.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

CloudWatch Amazon-Dashboard

AWS ParallelCluster konfigurierte Protokollrotation