Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
CloudWatch Allarmi Amazon per le metriche dei cluster
AWS ParallelCluster configura gli CloudWatch allarmi Amazon per monitorare lo stato e l'utilizzo delle risorse del nodo principale. Gli allarmi hanno un nome, cluster-name-HeadNode-metriccluster-name dov'è il nome del cluster e metric identifica la metrica da monitorare.
Accedi agli allarmi nella CloudWatch console selezionando Allarmi nel pannello di navigazione.
Un allarme composito denominato entra nello cluster-name-HeadNodeALARM stato in cui si attiva uno qualsiasi dei singoli allarmi del nodo principale.
Allarmi su disco e memoria
A partire dalla AWS ParallelCluster versione 3.6.0, vengono creati i seguenti CloudWatch allarmi:
-
— Monitora la metrica del volume principale.cluster-name-HeadNode-Diskdisk_used_percentEntra nelloALARMstato in cui l'utilizzo del disco è superiore al 90% per 1 punto dati in un periodo di 1 minuto. -
— Monitora lacluster-name-HeadNode-Memmem_used_percentmetrica. Entra nelloALARMstato in cui l'utilizzo della memoria è superiore al 90% per 1 punto dati in un periodo di 1 minuto.
Per ulteriori informazioni, consulta le metriche raccolte dall' CloudWatchagente nella Amazon CloudWatch User Guide.
Health check e allarmi CPU
A partire dalla AWS ParallelCluster versione 3.8.0, vengono creati i seguenti CloudWatch allarmi:
-
— Monitora il parametro Amazoncluster-name-HeadNode-HealthStatusCheckFailedEC2. Entra nelloALARMstato quando il valore è maggiore di 0 per 1 punto dati in un periodo di 1 minuto. -
— Monitora il parametro Amazoncluster-name-HeadNode-CpuCPUUtilizationEC2. Immette loALARMstato in cui l'utilizzo della CPU è superiore al 90% per 1 punto dati in un periodo di 1 minuto.
Heartbeat alarm (daemon) di gestione del cluster
A partire dalla AWS ParallelCluster versione 3.15.0, quando la CloudWatch registrazione di Amazon è abilitata e viene utilizzato lo Slurm scheduler, viene creato il seguente allarme:
-
— Monitora la metrica nelcluster-name-HeadNode-ClustermgtdHeartbeatClustermgtdHeartbeatnamespace.ParallelClusterL'allarme entra in funzione quandoALARMviene ricevuto meno di 1 battito cardiaco per 10 punti dati consecutivi in un periodo di 1 minuto. I dati mancanti vengono considerati violazioni.
Nota
Tutti gli allarmi vengono ripristinati in modo simmetrico: anche il ripristino è regolato dagli stessi punti dati e dallo stesso periodo di valutazione che attivano l'allarme. Ad esempio, gli allarmi con 1 punto dati vengono ripristinati dopo 1 punto dati valido entro lo stesso periodo di osservazione, allo stesso modo l'ClustermgtdHeartbeatallarme richiede 10 punti dati consecutivi validi (10 minuti) per tornare. OK
Nota
AWS ParallelCluster non configura le azioni di allarme. Per informazioni su come impostare le azioni di allarme, come l'invio di notifiche, vedi Azioni di allarme. Per ulteriori informazioni sugli CloudWatch allarmi Amazon, consulta Using Amazon CloudWatch alarms nella Amazon CloudWatch User Guide.
Per la AWS ParallelCluster versione 3.8.0 e successive, disabilita gli allarmi impostando Monitoring/Alarms/Enabledsu nella configurazione del cluster. false
Per AWS ParallelCluster le versioni precedenti alla 3.8.0, disabilita gli allarmi impostando Monitoring//DashboardsCloudWatch/Enabledsu nella configurazione del cluster. false Tieni presente che questa impostazione disabilita anche la CloudWatch dashboard di Amazon. Vedi CloudWatch Pannello di controllo Amazon per ulteriori dettagli.