CloudWatch Alarmes Amazon pour les métriques du cluster - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

CloudWatch Alarmes Amazon pour les métriques du cluster

AWS ParallelCluster configure les CloudWatch alarmes Amazon pour surveiller l'état et l'utilisation des ressources du nœud principal. Les alarmes sont nomméescluster-name-HeadNode-metric, où se cluster-name trouve le nom de votre cluster et metric identifie la métrique surveillée.

Accédez aux alarmes de la CloudWatch console en choisissant Alarmes dans le volet de navigation.

Une alarme composite nommée cluster-name-HeadNode entre dans l'ALARMétat lorsque l'une des alarmes individuelles du nœud principal se déclenche.

Alarmes de disque et de mémoire

À partir de AWS ParallelCluster la version 3.6.0, les CloudWatch alarmes suivantes sont créées :

  • cluster-name-HeadNode-Disk— Surveille la disk_used_percent métrique du volume racine. Entre dans l'ALARMétat où l'utilisation du disque est supérieure à 90 % pour 1 point de données sur une période d'une minute.

  • cluster-name-HeadNode-Mem— Surveille la mem_used_percent métrique. Entre dans l'ALARMétat où l'utilisation de la mémoire est supérieure à 90 % pour 1 point de données sur une période d'une minute.

Pour plus d'informations, consultez la section Mesures collectées par l' CloudWatchagent dans le guide de CloudWatch l'utilisateur Amazon.

Health check et alarmes du processeur

À partir de AWS ParallelCluster la version 3.8.0, les CloudWatch alarmes suivantes sont créées :

  • cluster-name-HeadNode-Health— Surveille la métrique Amazon EC2. StatusCheckFailed Entre dans l'ALARMétat où la valeur est supérieure à 0 pour 1 point de données sur une période d'une minute.

  • cluster-name-HeadNode-Cpu— Surveille la métrique Amazon EC2. CPUUtilization Entre dans l'ALARMétat où l'utilisation du processeur est supérieure à 90 % pour 1 point de données sur une période d'une minute.

Alarme de rythme cardiaque du démon de gestion du cluster

À partir de AWS ParallelCluster la version 3.15.0, lorsque la CloudWatch journalisation Amazon est activée et que le Slurm planificateur est utilisé, l'alarme suivante est créée :

  • cluster-name-HeadNode-ClustermgtdHeartbeat— Surveille la ClustermgtdHeartbeat métrique dans l'espace de ParallelCluster noms. L'alarme entre dans l'ALARMétat lorsque moins d'un battement de cœur est reçu pour 10 points de données consécutifs sur une période d'une minute. Les données manquantes sont considérées comme des violations.

Note

Toutes les alarmes se rétablissent de manière symétrique : les mêmes points de données et la même période d'évaluation qui déclenchent l'alarme régissent également la restauration. Par exemple, les alarmes comportant 1 point de données se rétablissent après 1 point de données valide au cours de la même période d'observation. De même, l'ClustermgtdHeartbeatalarme a besoin de 10 bons points de données consécutifs (10 minutes) pour revenir àOK.

Note

AWS ParallelCluster ne configure pas les actions d'alarme. Pour plus d'informations sur la configuration des actions d'alarme, telles que l'envoi de notifications, voir Actions d'alarme. Pour plus d'informations sur les CloudWatch alarmes Amazon, consultez la section Utilisation des CloudWatch alarmes Amazon dans le guide de CloudWatch l'utilisateur Amazon.

Pour les AWS ParallelCluster versions 3.8.0 et ultérieures, désactivez les alarmes en définissant Monitoring/Alarms/Enabledsur false dans la configuration de votre cluster.

Pour AWS ParallelCluster les versions antérieures à 3.8.0, désactivez les alarmes en attribuant Enabledà Monitoring/Dashboards/CloudWatch/la valeur false dans la configuration de votre cluster. Notez que ce paramètre désactive également le tableau de CloudWatch bord Amazon. Voir Tableau de CloudWatch bord Amazon pour plus de détails.