View a markdown version of this page

叢集指標的 Amazon CloudWatch 警示 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

叢集指標的 Amazon CloudWatch 警示

AWS ParallelCluster 設定 Amazon CloudWatch 警示以監控前端節點的運作狀態和資源使用率。警示名為 cluster-name-HeadNode-metric,其中 cluster-name 是叢集的名稱,指標會識別要監控的指標。

在導覽窗格中選擇警示,以存取 CloudWatch 主控台中的警示

當觸發任何個別頭部節點警示時,名為 的複合警示會cluster-name-HeadNode進入 ALARM 狀態。

磁碟和記憶體警示

從 3.6.0 AWS ParallelCluster 版開始,會建立下列 CloudWatch 警示:

  • cluster-name-HeadNode-Disk — 監控根磁碟區disk_used_percent指標。在 1 分鐘內 1 個資料點的磁碟用量大於 90% 時,進入 ALARM 狀態。

  • cluster-name-HeadNode-Mem — 監控mem_used_percent指標。在 1 分鐘內 1 個資料點的記憶體用量大於 90% 時,進入 ALARM 狀態。

如需詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的 CloudWatch 代理程式收集的指標

運作狀態檢查和 CPU 警示

從 3.8.0 AWS ParallelCluster 版開始,會建立下列 CloudWatch 警示:

  • cluster-name-HeadNode-Health — 監控 Amazon EC2 StatusCheckFailed 指標。在 1 分鐘內 1 個資料點的值大於 0 時,進入 ALARM 狀態。

  • cluster-name-HeadNode-Cpu — 監控 Amazon EC2 CPUUtilization 指標。當 CPU 使用率在 1 分鐘內 1 個資料點大於 90% 時, 會進入 ALARM 狀態。

叢集管理常駐程式活動訊號警示

從 3.15.0 AWS ParallelCluster 版開始,啟用 Amazon CloudWatch 記錄並使用Slurm排程器時,會建立下列警示:

  • cluster-name-HeadNode-ClustermgtdHeartbeat — 監控 ParallelCluster 命名空間中的ClustermgtdHeartbeat指標。在 1 分鐘內連續 10 個資料點收到少於 1 個活動訊號時,警示會進入 ALARM 狀態。遺失的資料會被視為違規。

注意

所有警示會以對稱的方式復原:觸發警示的相同資料點和評估期間也會管理復原。例如,具有 1 個資料點的警示會在相同觀察期間內 1 個良好資料點後復原,同樣地,ClustermgtdHeartbeat警示需要連續 10 個良好資料點 (10 分鐘) 才能返回 OK

注意

AWS ParallelCluster 不會設定警示動作。如需有關如何設定警示動作的資訊,例如傳送通知,請參閱警示動作。如需 Amazon CloudWatch 警示的詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的使用 Amazon CloudWatch 警示Amazon CloudWatch

對於 3.8.0 版和更新 AWS ParallelCluster 版本,請在叢集組態false中將 Monitoring / Alarms / 設定為 Enabled來停用警示。

對於 3.8.0 之前的 AWS ParallelCluster 版本,請在叢集組態false中將 Monitoring / Dashboards / CloudWatch / 設定為 Enabled來停用警示。請注意,此設定也會停用 Amazon CloudWatch 儀表板。如需其他詳細資訊Amazon CloudWatch 儀表板,請參閱 。