CloudWatch Alarmas de Amazon para métricas de clústeres - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

CloudWatch Alarmas de Amazon para métricas de clústeres

AWS ParallelCluster configura las CloudWatch alarmas de Amazon para supervisar el estado y la utilización de los recursos del nodo principal. Las alarmas tienen un nombrecluster-name-HeadNode-metric, donde cluster-name aparece el nombre del clúster e metric identifica la métrica que se está monitoreando.

Acceda a las alarmas de la CloudWatch consola seleccionando Alarmas en el panel de navegación.

Una alarma compuesta denominada cluster-name-HeadNode entra en ALARM estado cuando se activa cualquiera de las alarmas individuales del nodo principal.

Alarmas de disco y memoria

A partir de AWS ParallelCluster la versión 3.6.0, se crean las siguientes CloudWatch alarmas:

  • cluster-name-HeadNode-Disk— Supervisa la disk_used_percent métrica del volumen raíz. Entra en el ALARM estado en el que el uso del disco es superior al 90% para 1 punto de datos en un período de 1 minuto.

  • cluster-name-HeadNode-Mem— Supervisa la mem_used_percent métrica. Entra en el ALARM estado en el que el uso de memoria es superior al 90% para 1 punto de datos en un período de 1 minuto.

Para obtener más información, consulta las métricas recopiladas por el CloudWatch agente en la Guía del CloudWatch usuario de Amazon.

Health Check y alarmas de CPU

A partir de AWS ParallelCluster la versión 3.8.0, se crean las siguientes CloudWatch alarmas:

  • cluster-name-HeadNode-Health— Supervisa la métrica de Amazon EC2StatusCheckFailed. Ingresa al ALARM estado cuando el valor es superior a 0 para 1 punto de datos en un período de 1 minuto.

  • cluster-name-HeadNode-Cpu— Supervisa la métrica de Amazon EC2CPUUtilization. Entra en el ALARM estado en el que el uso de la CPU es superior al 90% para 1 punto de datos en un período de 1 minuto.

Alarma de latido del daemon de administración de clústeres

A partir de AWS ParallelCluster la versión 3.15.0, cuando se habilita el CloudWatch registro de Amazon y se utiliza el Slurm programador, se crea la siguiente alarma:

  • cluster-name-HeadNode-ClustermgtdHeartbeat— Supervisa la ClustermgtdHeartbeat métrica en el espacio de nombres. ParallelCluster La alarma entra en ALARM estado cuando se recibe menos de 1 latido por 10 puntos de datos consecutivos en un período de 1 minuto. Los datos faltantes se consideran una violación.

nota

Todas las alarmas se recuperan simétricamente: la recuperación se rige por los mismos puntos de datos y el mismo período de evaluación que activaron la alarma. Por ejemplo, las alarmas con 1 punto de datos se recuperan después de 1 punto de datos válido dentro del mismo período de observación; del mismo modo, la ClustermgtdHeartbeat alarma necesita 10 puntos de datos válidos consecutivos (10 minutos) para volver a ellos. OK

nota

AWS ParallelCluster no configura las acciones de alarma. Para obtener información sobre cómo configurar las acciones de alarma, como el envío de notificaciones, consulte Acciones de alarma. Para obtener más información sobre CloudWatch las alarmas de Amazon, consulta Uso de CloudWatch las alarmas de Amazon en la Guía del CloudWatch usuario de Amazon.

Para AWS ParallelCluster la versión 3.8.0 y posteriores, deshabilite las alarmas configurando Monitoring/Alarms/falseen Enabledla configuración de su clúster.

Para AWS ParallelCluster las versiones anteriores a la 3.8.0, deshabilite las alarmas configurando Monitoring/Dashboards/CloudWatch/falseen Enabledla configuración del clúster. Ten en cuenta que esta configuración también desactiva el CloudWatch panel de control de Amazon. Consulta CloudWatch Panel de control de Amazon para obtener más información.