叢集指標的 Amazon CloudWatch 警示

AWS ParallelCluster 設定 Amazon CloudWatch 警示以監控前端節點的運作狀態和資源使用率。警示名為 cluster-name-HeadNode-metric，其中 cluster-name 是叢集的名稱，指標會識別要監控的指標。

在導覽窗格中選擇警示，以存取 CloudWatch 主控台中的警示。

當觸發任何個別頭部節點警示時，名為的複合警示會cluster-name-HeadNode進入 ALARM 狀態。

磁碟和記憶體警示

從 3.6.0 AWS ParallelCluster 版開始，會建立下列 CloudWatch 警示：

cluster-name-HeadNode-Disk — 監控根磁碟區disk_used_percent指標。在 1 分鐘內 1 個資料點的磁碟用量大於 90% 時，進入 ALARM 狀態。
cluster-name-HeadNode-Mem — 監控mem_used_percent指標。在 1 分鐘內 1 個資料點的記憶體用量大於 90% 時，進入 ALARM 狀態。

如需詳細資訊，請參閱《Amazon CloudWatch 使用者指南》中的 CloudWatch 代理程式收集的指標。

運作狀態檢查和 CPU 警示

從 3.8.0 AWS ParallelCluster 版開始，會建立下列 CloudWatch 警示：

cluster-name-HeadNode-Health — 監控 Amazon EC2 StatusCheckFailed 指標。在 1 分鐘內 1 個資料點的值大於 0 時，進入 ALARM 狀態。
cluster-name-HeadNode-Cpu — 監控 Amazon EC2 CPUUtilization 指標。當 CPU 使用率在 1 分鐘內 1 個資料點大於 90% 時，會進入 ALARM 狀態。

叢集管理常駐程式活動訊號警示

從 3.15.0 AWS ParallelCluster 版開始，啟用 Amazon CloudWatch 記錄並使用Slurm排程器時，會建立下列警示：

cluster-name-HeadNode-ClustermgtdHeartbeat — 監控 ParallelCluster 命名空間中的ClustermgtdHeartbeat指標。在 1 分鐘內連續 10 個資料點收到少於 1 個活動訊號時，警示會進入 ALARM 狀態。遺失的資料會被視為違規。

注意

所有警示會以對稱的方式復原：觸發警示的相同資料點和評估期間也會管理復原。例如，具有 1 個資料點的警示會在相同觀察期間內 1 個良好資料點後復原，同樣地，ClustermgtdHeartbeat警示需要連續 10 個良好資料點 (10 分鐘）才能返回 OK。

注意

AWS ParallelCluster 不會設定警示動作。如需有關如何設定警示動作的資訊，例如傳送通知，請參閱警示動作。如需 Amazon CloudWatch 警示的詳細資訊，請參閱《Amazon CloudWatch 使用者指南》中的使用 Amazon CloudWatch 警示。 Amazon CloudWatch

對於 3.8.0 版和更新 AWS ParallelCluster 版本，請在叢集組態false中將 Monitoring / Alarms / 設定為 Enabled來停用警示。

對於 3.8.0 之前的 AWS ParallelCluster 版本，請在叢集組態false中將 Monitoring / Dashboards / CloudWatch / 設定為 Enabled來停用警示。請注意，此設定也會停用 Amazon CloudWatch 儀表板。如需其他詳細資訊Amazon CloudWatch 儀表板，請參閱。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

Amazon CloudWatch 儀表板

AWS ParallelCluster 設定的日誌輪換