Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
CloudWatch Amazon-Alarme für Cluster-Metriken
AWS ParallelCluster konfiguriert CloudWatch Amazon-Alarme zur Überwachung des Zustands und der Ressourcennutzung des Hauptknotens. Alarme werden benannt, wobei der Name Ihres Clusters cluster-name-HeadNode-metriccluster-name steht und die zu überwachende Metrik metric identifiziert wird.
Greifen Sie auf die Alarme in der CloudWatch Konsole zu, indem Sie im Navigationsbereich Alarme auswählen.
Ein zusammengesetzter Alarm mit dem Namen geht in den cluster-name-HeadNodeALARM Status über, wenn einer der Alarme der einzelnen Kopfknoten ausgelöst wird.
Festplatten- und Speicheralarme
Ab AWS ParallelCluster Version 3.6.0 werden die folgenden CloudWatch Alarme erstellt:
-
— Überwacht diecluster-name-HeadNode-Diskdisk_used_percentMetrik für das Root-Volumen. Wechselt in denALARMStatus, wenn die Festplattennutzung für einen Datenpunkt innerhalb eines Zeitraums von 1 Minute mehr als 90% beträgt. -
— Überwacht diecluster-name-HeadNode-Memmem_used_percentMetrik. Wechselt in denALARMStatus, wenn die Speicherauslastung für einen Datenpunkt innerhalb eines Zeitraums von 1 Minute mehr als 90% beträgt.
Weitere Informationen finden Sie unter Vom CloudWatchAgenten erhobene Metriken im CloudWatch Amazon-Benutzerhandbuch.
Gesundheitscheck und CPU-Alarme
Ab AWS ParallelCluster Version 3.8.0 werden die folgenden CloudWatch Alarme erstellt:
-
— Überwacht die Amazoncluster-name-HeadNode-HealthStatusCheckFailedEC2-Metrik. Wechselt in denALARMStatus, wenn der Wert für einen Datenpunkt innerhalb eines Zeitraums von 1 Minute größer als 0 ist. -
— Überwacht die Amazoncluster-name-HeadNode-CpuCPUUtilizationEC2-Metrik. Wechselt in denALARMStatus, wenn die CPU-Auslastung für einen Datenpunkt innerhalb eines Zeitraums von 1 Minute mehr als 90% beträgt.
Heartbeat-Alarm des Daemons für die Clusterverwaltung
Ab AWS ParallelCluster Version 3.15.0, wenn die CloudWatch Amazon-Protokollierung aktiviert ist und der Slurm Scheduler verwendet wird, wird der folgende Alarm erzeugt:
-
— Überwacht diecluster-name-HeadNode-ClustermgtdHeartbeatClustermgtdHeartbeatMetrik im Namespace.ParallelClusterDer Alarm geht in denALARMStatus über, wenn für 10 aufeinanderfolgende Datenpunkte innerhalb eines Zeitraums von 1 Minute weniger als ein Heartbeat empfangen wird. Fehlende Daten werden als Sicherheitsverletzung behandelt.
Anmerkung
Alle Alarme werden symmetrisch wiederhergestellt: Für die Wiederherstellung gelten dieselben Datenpunkte und der gleiche Bewertungszeitraum, die den Alarm ausgelöst haben. Beispiel: Alarme mit einem Datenpunkt werden nach einem guten Datenpunkt innerhalb desselben Beobachtungszeitraums wiederhergestellt. In ähnlicher Weise benötigt der ClustermgtdHeartbeat Alarm 10 aufeinanderfolgende gute Datenpunkte (10 Minuten), um zu ihm zurückzukehren. OK
Anmerkung
AWS ParallelCluster konfiguriert keine Alarmaktionen. Informationen zum Einrichten von Alarmaktionen, z. B. zum Senden von Benachrichtigungen, finden Sie unter Alarmaktionen. Weitere Informationen zu CloudWatch Amazon-Alarmen finden Sie unter CloudWatch Amazon-Alarme verwenden im CloudWatch Amazon-Benutzerhandbuch.
Für AWS ParallelCluster Version 3.8.0 und höher deaktivieren Sie Alarme, indem Sie false in Ihrer Cluster-Konfiguration MonitoringAlarms//Enabledauf setzen.
Für AWS ParallelCluster Versionen vor 3.8.0 deaktivieren Sie Alarme, indem Sie false in Ihrer CloudWatchClusterkonfiguration MonitoringDashboards///Enabledauf setzen. Beachten Sie, dass diese Einstellung auch das CloudWatch Amazon-Dashboard deaktiviert. Weitere Informationen CloudWatch Amazon-Dashboard finden Sie unter.