Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
CloudWatch Alarmas de Amazon para métricas de clústeres
AWS ParallelCluster configura las CloudWatch alarmas de Amazon para supervisar el estado y la utilización de los recursos del nodo principal. Las alarmas tienen un nombre, donde cluster-name-HeadNode-metriccluster-name aparece el nombre del clúster e metric identifica la métrica que se está monitoreando.
Acceda a las alarmas de la CloudWatch consola seleccionando Alarmas en el panel de navegación.
Una alarma compuesta denominada entra en cluster-name-HeadNodeALARM estado cuando se activa cualquiera de las alarmas individuales del nodo principal.
Alarmas de disco y memoria
A partir de AWS ParallelCluster la versión 3.6.0, se crean las siguientes CloudWatch alarmas:
-
— Supervisa lacluster-name-HeadNode-Diskdisk_used_percentmétrica del volumen raíz. Entra en elALARMestado en el que el uso del disco es superior al 90% para 1 punto de datos en un período de 1 minuto. -
— Supervisa lacluster-name-HeadNode-Memmem_used_percentmétrica. Entra en elALARMestado en el que el uso de memoria es superior al 90% para 1 punto de datos en un período de 1 minuto.
Para obtener más información, consulta las métricas recopiladas por el CloudWatch agente en la Guía del CloudWatch usuario de Amazon.
Health Check y alarmas de CPU
A partir de AWS ParallelCluster la versión 3.8.0, se crean las siguientes CloudWatch alarmas:
-
— Supervisa la métrica de Amazon EC2cluster-name-HeadNode-HealthStatusCheckFailed. Ingresa alALARMestado cuando el valor es superior a 0 para 1 punto de datos en un período de 1 minuto. -
— Supervisa la métrica de Amazon EC2cluster-name-HeadNode-CpuCPUUtilization. Entra en elALARMestado en el que el uso de la CPU es superior al 90% para 1 punto de datos en un período de 1 minuto.
Alarma de latido del daemon de administración de clústeres
A partir de AWS ParallelCluster la versión 3.15.0, cuando se habilita el CloudWatch registro de Amazon y se utiliza el Slurm programador, se crea la siguiente alarma:
-
— Supervisa lacluster-name-HeadNode-ClustermgtdHeartbeatClustermgtdHeartbeatmétrica en el espacio de nombres.ParallelClusterLa alarma entra enALARMestado cuando se recibe menos de 1 latido por 10 puntos de datos consecutivos en un período de 1 minuto. Los datos faltantes se consideran una violación.
nota
Todas las alarmas se recuperan simétricamente: la recuperación se rige por los mismos puntos de datos y el mismo período de evaluación que activaron la alarma. Por ejemplo, las alarmas con 1 punto de datos se recuperan después de 1 punto de datos válido dentro del mismo período de observación; del mismo modo, la ClustermgtdHeartbeat alarma necesita 10 puntos de datos válidos consecutivos (10 minutos) para volver a ellos. OK
nota
AWS ParallelCluster no configura las acciones de alarma. Para obtener información sobre cómo configurar las acciones de alarma, como el envío de notificaciones, consulte Acciones de alarma. Para obtener más información sobre CloudWatch las alarmas de Amazon, consulta Uso de CloudWatch las alarmas de Amazon en la Guía del CloudWatch usuario de Amazon.
Para AWS ParallelCluster la versión 3.8.0 y posteriores, deshabilite las alarmas configurando Monitoring/Alarms/falseen Enabledla configuración de su clúster.
Para AWS ParallelCluster las versiones anteriores a la 3.8.0, deshabilite las alarmas configurando Monitoring/Dashboards/CloudWatch/falseen Enabledla configuración del clúster. Ten en cuenta que esta configuración también desactiva el CloudWatch panel de control de Amazon. Consulta CloudWatch Panel de control de Amazon para obtener más información.