本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
叢集指標的 Amazon CloudWatch 警示
AWS ParallelCluster 設定 Amazon CloudWatch 警示以監控前端節點的運作狀態和資源使用率。警示名為 ,其中 cluster-name-HeadNode-metriccluster-name 是叢集的名稱,指標會識別要監控的指標。
在導覽窗格中選擇警示,以存取 CloudWatch 主控台中的警示。
當觸發任何個別頭部節點警示時,名為 的複合警示會進入 cluster-name-HeadNodeALARM 狀態。
磁碟和記憶體警示
從 3.6.0 AWS ParallelCluster 版開始,會建立下列 CloudWatch 警示:
-
— 監控根磁碟區cluster-name-HeadNode-Diskdisk_used_percent指標。在 1 分鐘內 1 個資料點的磁碟用量大於 90% 時,進入ALARM狀態。 -
— 監控cluster-name-HeadNode-Memmem_used_percent指標。在 1 分鐘內 1 個資料點的記憶體用量大於 90% 時,進入ALARM狀態。
如需詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的 CloudWatch 代理程式收集的指標。
運作狀態檢查和 CPU 警示
從 3.8.0 AWS ParallelCluster 版開始,會建立下列 CloudWatch 警示:
-
— 監控 Amazon EC2cluster-name-HeadNode-HealthStatusCheckFailed指標。在 1 分鐘內 1 個資料點的值大於 0 時,進入ALARM狀態。 -
— 監控 Amazon EC2cluster-name-HeadNode-CpuCPUUtilization指標。當 CPU 使用率在 1 分鐘內 1 個資料點大於 90% 時, 會進入ALARM狀態。
叢集管理常駐程式活動訊號警示
從 3.15.0 AWS ParallelCluster 版開始,啟用 Amazon CloudWatch 記錄並使用Slurm排程器時,會建立下列警示:
-
— 監控cluster-name-HeadNode-ClustermgtdHeartbeatParallelCluster命名空間中的ClustermgtdHeartbeat指標。在 1 分鐘內連續 10 個資料點收到少於 1 個活動訊號時,警示會進入ALARM狀態。遺失的資料會被視為違規。
注意
所有警示會以對稱的方式復原:觸發警示的相同資料點和評估期間也會管理復原。例如,具有 1 個資料點的警示會在相同觀察期間內 1 個良好資料點後復原,同樣地,ClustermgtdHeartbeat警示需要連續 10 個良好資料點 (10 分鐘) 才能返回 OK。
注意
AWS ParallelCluster 不會設定警示動作。如需有關如何設定警示動作的資訊,例如傳送通知,請參閱警示動作。如需 Amazon CloudWatch 警示的詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的使用 Amazon CloudWatch 警示。 Amazon CloudWatch
對於 3.8.0 版和更新 AWS ParallelCluster 版本,請在叢集組態false中將 Monitoring / Alarms / 設定為 Enabled來停用警示。
對於 3.8.0 之前的 AWS ParallelCluster 版本,請在叢集組態false中將 Monitoring / Dashboards / CloudWatch / 設定為 Enabled來停用警示。請注意,此設定也會停用 Amazon CloudWatch 儀表板。如需其他詳細資訊Amazon CloudWatch 儀表板,請參閱 。