CloudWatch Allarmi Amazon per le metriche dei cluster - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

CloudWatch Allarmi Amazon per le metriche dei cluster

AWS ParallelCluster configura gli CloudWatch allarmi Amazon per monitorare lo stato e l'utilizzo delle risorse del nodo principale. Gli allarmi hanno un nomecluster-name-HeadNode-metric, cluster-name dov'è il nome del cluster e metric identifica la metrica da monitorare.

Accedi agli allarmi nella CloudWatch console selezionando Allarmi nel pannello di navigazione.

Un allarme composito denominato cluster-name-HeadNode entra nello ALARM stato in cui si attiva uno qualsiasi dei singoli allarmi del nodo principale.

Allarmi su disco e memoria

A partire dalla AWS ParallelCluster versione 3.6.0, vengono creati i seguenti CloudWatch allarmi:

  • cluster-name-HeadNode-Disk— Monitora la metrica del volume principale. disk_used_percent Entra nello ALARM stato in cui l'utilizzo del disco è superiore al 90% per 1 punto dati in un periodo di 1 minuto.

  • cluster-name-HeadNode-Mem— Monitora la mem_used_percent metrica. Entra nello ALARM stato in cui l'utilizzo della memoria è superiore al 90% per 1 punto dati in un periodo di 1 minuto.

Per ulteriori informazioni, consulta le metriche raccolte dall' CloudWatchagente nella Amazon CloudWatch User Guide.

Health check e allarmi CPU

A partire dalla AWS ParallelCluster versione 3.8.0, vengono creati i seguenti CloudWatch allarmi:

  • cluster-name-HeadNode-Health— Monitora il parametro Amazon StatusCheckFailed EC2. Entra nello ALARM stato quando il valore è maggiore di 0 per 1 punto dati in un periodo di 1 minuto.

  • cluster-name-HeadNode-Cpu— Monitora il parametro Amazon CPUUtilization EC2. Immette lo ALARM stato in cui l'utilizzo della CPU è superiore al 90% per 1 punto dati in un periodo di 1 minuto.

Heartbeat alarm (daemon) di gestione del cluster

A partire dalla AWS ParallelCluster versione 3.15.0, quando la CloudWatch registrazione di Amazon è abilitata e viene utilizzato lo Slurm scheduler, viene creato il seguente allarme:

  • cluster-name-HeadNode-ClustermgtdHeartbeat— Monitora la metrica nel ClustermgtdHeartbeat namespace. ParallelCluster L'allarme entra in funzione quando ALARM viene ricevuto meno di 1 battito cardiaco per 10 punti dati consecutivi in un periodo di 1 minuto. I dati mancanti vengono considerati violazioni.

Nota

Tutti gli allarmi vengono ripristinati in modo simmetrico: anche il ripristino è regolato dagli stessi punti dati e dallo stesso periodo di valutazione che attivano l'allarme. Ad esempio, gli allarmi con 1 punto dati vengono ripristinati dopo 1 punto dati valido entro lo stesso periodo di osservazione, allo stesso modo l'ClustermgtdHeartbeatallarme richiede 10 punti dati consecutivi validi (10 minuti) per tornare. OK

Nota

AWS ParallelCluster non configura le azioni di allarme. Per informazioni su come impostare le azioni di allarme, come l'invio di notifiche, vedi Azioni di allarme. Per ulteriori informazioni sugli CloudWatch allarmi Amazon, consulta Using Amazon CloudWatch alarms nella Amazon CloudWatch User Guide.

Per la AWS ParallelCluster versione 3.8.0 e successive, disabilita gli allarmi impostando Monitoring/Alarms/Enabledsu nella configurazione del cluster. false

Per AWS ParallelCluster le versioni precedenti alla 3.8.0, disabilita gli allarmi impostando Monitoring//DashboardsCloudWatch/Enabledsu nella configurazione del cluster. false Tieni presente che questa impostazione disabilita anche la CloudWatch dashboard di Amazon. Vedi CloudWatch Pannello di controllo Amazon per ulteriori dettagli.