As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
CloudWatch Alarmes da Amazon para métricas de cluster
AWS ParallelCluster configura os CloudWatch alarmes da Amazon para monitorar a saúde e a utilização de recursos do nó principal. Os alarmes são nomeados, onde cluster-name-HeadNode-metriccluster-name está o nome do seu cluster e metric identifica a métrica que está sendo monitorada.
Acesse os alarmes no CloudWatch console escolhendo Alarmes no painel de navegação.
Um alarme composto chamado entra no cluster-name-HeadNodeALARM estado em que qualquer um dos alarmes individuais do nó principal é acionado.
Alarmes de disco e memória
A partir da AWS ParallelCluster versão 3.6.0, os seguintes CloudWatch alarmes são criados:
-
— Monitora acluster-name-HeadNode-Diskdisk_used_percentmétrica do volume raiz. Entra noALARMestado em que o uso do disco é maior que 90% para 1 ponto de dados em um período de 1 minuto. -
— Monitora acluster-name-HeadNode-Memmem_used_percentmétrica. Entra noALARMestado em que o uso da memória é maior que 90% para 1 ponto de dados em um período de 1 minuto.
Para obter mais informações, consulte Métricas coletadas pelo CloudWatch agente no Guia CloudWatch do usuário da Amazon.
Verificação de saúde e alarmes de CPU
A partir da AWS ParallelCluster versão 3.8.0, os seguintes CloudWatch alarmes são criados:
-
— Monitora a métrica do Amazon EC2cluster-name-HeadNode-HealthStatusCheckFailed. Insere oALARMestado em que o valor é maior que 0 para 1 ponto de dados em um período de 1 minuto. -
— Monitora a métrica do Amazon EC2cluster-name-HeadNode-CpuCPUUtilization. Entra noALARMestado em que a utilização da CPU é superior a 90% para 1 ponto de dados em um período de 1 minuto.
Alarme de pulsação do daemon de gerenciamento de cluster
A partir da AWS ParallelCluster versão 3.15.0, quando o Amazon CloudWatch Logging é ativado e o Slurm agendador é usado, o seguinte alarme é criado:
-
— Monitora acluster-name-HeadNode-ClustermgtdHeartbeatClustermgtdHeartbeatmétrica noParallelClusternamespace. O alarme entra noALARMestado em que menos de 1 pulsação é recebida por 10 pontos de dados consecutivos em um período de 1 minuto. Os dados perdidos são tratados como violação.
nota
Todos os alarmes se recuperam simetricamente: os mesmos pontos de dados e período de avaliação que acionam o alarme também governam a recuperação. Por exemplo, alarmes com 1 ponto de dados se recuperam após 1 ponto de dados bom dentro do mesmo período de observação. Da mesma forma, o ClustermgtdHeartbeat alarme requer 10 bons pontos de dados consecutivos (10 minutos) para OK retornar.
nota
AWS ParallelCluster não configura ações de alarme. Para obter informações sobre como configurar ações de alarme, como enviar notificações, consulte Ações de alarme. Para obter mais informações sobre CloudWatch os alarmes da Amazon, consulte Como usar CloudWatch alarmes da Amazon no Guia CloudWatch do usuário da Amazon.
Para a AWS ParallelCluster versão 3.8.0 e posterior, desative os alarmes definindo Monitoring/Alarms/Enabledpara false na configuração do cluster.
Para AWS ParallelCluster versões anteriores à 3.8.0, desative os alarmes definindo Monitoring//DashboardsCloudWatch/Enabledcomo false na configuração do cluster. Observe que essa configuração também desativa o CloudWatch painel da Amazon. Consulte CloudWatch Painel da Amazon para obter detalhes adicionais.