Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
CloudWatch Alarmes Amazon pour les métriques du cluster
AWS ParallelCluster configure les CloudWatch alarmes Amazon pour surveiller l'état et l'utilisation des ressources du nœud principal. Les alarmes sont nommées, où se cluster-name-HeadNode-metriccluster-name trouve le nom de votre cluster et metric identifie la métrique surveillée.
Accédez aux alarmes de la CloudWatch console en choisissant Alarmes dans le volet de navigation.
Une alarme composite nommée entre dans l'cluster-name-HeadNodeALARMétat lorsque l'une des alarmes individuelles du nœud principal se déclenche.
Alarmes de disque et de mémoire
À partir de AWS ParallelCluster la version 3.6.0, les CloudWatch alarmes suivantes sont créées :
-
— Surveille lacluster-name-HeadNode-Diskdisk_used_percentmétrique du volume racine. Entre dans l'ALARMétat où l'utilisation du disque est supérieure à 90 % pour 1 point de données sur une période d'une minute. -
— Surveille lacluster-name-HeadNode-Memmem_used_percentmétrique. Entre dans l'ALARMétat où l'utilisation de la mémoire est supérieure à 90 % pour 1 point de données sur une période d'une minute.
Pour plus d'informations, consultez la section Mesures collectées par l' CloudWatchagent dans le guide de CloudWatch l'utilisateur Amazon.
Health check et alarmes du processeur
À partir de AWS ParallelCluster la version 3.8.0, les CloudWatch alarmes suivantes sont créées :
-
— Surveille la métrique Amazon EC2.cluster-name-HeadNode-HealthStatusCheckFailedEntre dans l'ALARMétat où la valeur est supérieure à 0 pour 1 point de données sur une période d'une minute. -
— Surveille la métrique Amazon EC2.cluster-name-HeadNode-CpuCPUUtilizationEntre dans l'ALARMétat où l'utilisation du processeur est supérieure à 90 % pour 1 point de données sur une période d'une minute.
Alarme de rythme cardiaque du démon de gestion du cluster
À partir de AWS ParallelCluster la version 3.15.0, lorsque la CloudWatch journalisation Amazon est activée et que le Slurm planificateur est utilisé, l'alarme suivante est créée :
-
— Surveille lacluster-name-HeadNode-ClustermgtdHeartbeatClustermgtdHeartbeatmétrique dans l'espace deParallelClusternoms. L'alarme entre dans l'ALARMétat lorsque moins d'un battement de cœur est reçu pour 10 points de données consécutifs sur une période d'une minute. Les données manquantes sont considérées comme des violations.
Note
Toutes les alarmes se rétablissent de manière symétrique : les mêmes points de données et la même période d'évaluation qui déclenchent l'alarme régissent également la restauration. Par exemple, les alarmes comportant 1 point de données se rétablissent après 1 point de données valide au cours de la même période d'observation. De même, l'ClustermgtdHeartbeatalarme a besoin de 10 bons points de données consécutifs (10 minutes) pour revenir àOK.
Note
AWS ParallelCluster ne configure pas les actions d'alarme. Pour plus d'informations sur la configuration des actions d'alarme, telles que l'envoi de notifications, voir Actions d'alarme. Pour plus d'informations sur les CloudWatch alarmes Amazon, consultez la section Utilisation des CloudWatch alarmes Amazon dans le guide de CloudWatch l'utilisateur Amazon.
Pour les AWS ParallelCluster versions 3.8.0 et ultérieures, désactivez les alarmes en définissant Monitoring/Alarms/Enabledsur false dans la configuration de votre cluster.
Pour AWS ParallelCluster les versions antérieures à 3.8.0, désactivez les alarmes en attribuant Enabledà Monitoring/Dashboards/CloudWatch/la valeur false dans la configuration de votre cluster. Notez que ce paramètre désactive également le tableau de CloudWatch bord Amazon. Voir Tableau de CloudWatch bord Amazon pour plus de détails.