Alarm disk dan memori Pemeriksaan Kesehatan dan Alarm CPU Alarm detak jantung daemon manajemen cluster

CloudWatch Alarm Amazon untuk metrik klaster

AWS ParallelCluster mengonfigurasi CloudWatch alarm Amazon untuk memantau kesehatan dan pemanfaatan sumber daya dari node kepala. Alarm diberi namacluster-name-HeadNode-metric, di cluster-name mana nama cluster Anda dan metric mengidentifikasi metrik yang sedang dipantau.

Akses alarm di CloudWatch konsol dengan memilih Alarm di panel navigasi.

Alarm komposit bernama cluster-name-HeadNode memasuki ALARM status ketika salah satu alarm node kepala individu dipicu.

Alarm disk dan memori

Dimulai dengan AWS ParallelCluster versi 3.6.0, CloudWatch alarm berikut dibuat:

cluster-name-HeadNode-Disk— Memantau disk_used_percent metrik volume root. Memasuki ALARM status ketika penggunaan disk lebih besar dari 90% untuk 1 titik data dalam periode 1 menit.
cluster-name-HeadNode-Mem— Memantau mem_used_percent metrik. Memasuki ALARM status ketika penggunaan memori lebih besar dari 90% untuk 1 titik data dalam periode 1 menit.

Untuk informasi selengkapnya, lihat Metrik yang dikumpulkan oleh CloudWatch agen di Panduan CloudWatch Pengguna Amazon.

Pemeriksaan Kesehatan dan Alarm CPU

Dimulai dengan AWS ParallelCluster versi 3.8.0, CloudWatch alarm berikut dibuat:

cluster-name-HeadNode-Health— Memantau metrik Amazon EC2StatusCheckFailed. Memasuki ALARM keadaan ketika nilainya lebih besar dari 0 untuk 1 titik data dalam periode 1 menit.
cluster-name-HeadNode-Cpu— Memantau metrik Amazon EC2CPUUtilization. Memasuki ALARM keadaan ketika pemanfaatan CPU lebih besar dari 90% untuk 1 titik data dalam periode 1 menit.

Alarm detak jantung daemon manajemen cluster

Dimulai dengan AWS ParallelCluster versi 3.15.0, CloudWatch saat pencatatan Amazon diaktifkan dan Slurm penjadwal digunakan, alarm berikut dibuat:

cluster-name-HeadNode-ClustermgtdHeartbeat— Memantau ClustermgtdHeartbeat metrik di ParallelCluster namespace. Alarm memasuki ALARM keadaan ketika kurang dari 1 detak jantung diterima selama 10 titik data berturut-turut dalam periode 1 menit. Data yang hilang diperlakukan sebagai pelanggaran.

catatan

Semua alarm pulih secara simetris: titik data dan periode evaluasi yang sama yang memicu alarm juga mengatur pemulihan. Misalnya, alarm dengan 1 titik data pulih setelah 1 titik data yang baik dalam periode pengamatan yang sama, demikian pula ClustermgtdHeartbeat alarm membutuhkan 10 titik data baik berturut-turut (10 menit) untuk kembali ke. OK

catatan

AWS ParallelCluster tidak mengonfigurasi tindakan alarm. Untuk informasi tentang cara mengatur tindakan alarm, seperti mengirim notifikasi, lihat Tindakan alarm. Untuk informasi selengkapnya tentang CloudWatch alarm Amazon, lihat Menggunakan CloudWatch alarm Amazon di CloudWatch Panduan Pengguna Amazon.

Untuk AWS ParallelCluster versi 3.8.0 dan yang lebih baru, nonaktifkan alarm dengan menyetel Monitoring/Alarms/Enabledke false dalam konfigurasi cluster Anda.

Untuk AWS ParallelCluster versi sebelum 3.8.0, nonaktifkan alarm dengan menyetel Monitoring//DashboardsCloudWatch/Enabledke false dalam konfigurasi cluster Anda. Perhatikan bahwa pengaturan ini juga menonaktifkan CloudWatch dasbor Amazon. Lihat CloudWatch Dasbor Amazon untuk detail tambahan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

CloudWatch Dasbor Amazon

AWS ParallelCluster rotasi log yang dikonfigurasi