翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
クラスターメトリクス用の Amazon CloudWatch アラーム
AWS ParallelCluster は、ヘッドノードのヘルスとリソース使用率をモニタリングするように Amazon CloudWatch アラームを設定します。アラームの名前は です。ここで、cluster-name-HeadNode-metriccluster-name はクラスターの名前であり、メトリクスはモニタリング対象のメトリクスを識別します。
ナビゲーションペインで [アラーム] を選択して、CloudWatch コンソールのアラームにアクセスします。
という名前の複合アラームは、個々のヘッドノードアラームのいずれかがトリガーされると ALARM状態になります。cluster-name-HeadNode
ディスクとメモリのアラーム
AWS ParallelCluster バージョン 3.6.0 以降では、次の CloudWatch アラームが作成されます。
-
— ルートボリュームcluster-name-HeadNode-Diskdisk_used_percentメトリクスをモニタリングします。1 分間に 1 つのデータポイントでディスク使用量が 90% を超える場合ALARMの状態を入力します。 -
—cluster-name-HeadNode-Memmem_used_percentメトリクスをモニタリングします。1 分間に 1 つのデータポイントでメモリ使用量が 90% を超える場合ALARMの状態を入力します。
詳細については、「Amazon CloudWatch ユーザーガイド」の「CloudWatch エージェントにより収集されるメトリクス」を参照してください。
ヘルスチェックと CPU アラーム
AWS ParallelCluster バージョン 3.8.0 以降では、次の CloudWatch アラームが作成されます。
-
— Amazon EC2cluster-name-HeadNode-HealthStatusCheckFailedメトリクスをモニタリングします。1 分間に 1 つのデータポイントで値が 0 より大きい場合ALARMの状態を入力します。 -
— Amazon EC2cluster-name-HeadNode-CpuCPUUtilizationメトリクスをモニタリングします。1 分間に 1 つのデータポイントで CPU 使用率が 90% を超える場合ALARMの状態を入力します。
クラスター管理デーモンハートビートアラーム
AWS ParallelCluster バージョン 3.15.0 以降では、Amazon CloudWatch ログ記録が有効で、スSlurmケジューラが使用されている場合、次のアラームが作成されます。
-
—cluster-name-HeadNode-ClustermgtdHeartbeatParallelCluster名前空間のClustermgtdHeartbeatメトリクスをモニタリングします。アラームは、1 分間に 10 個の連続したデータポイントに対して 1 ハートビート未満を受信すると、ALARM状態になります。欠落データは違反として扱われます。
注記
すべてのアラームは対称的に復旧します。アラームをトリガーするのと同じデータポイントと評価期間も復旧を管理します。たとえば、1 つのデータポイントを持つアラームは、同じ観測期間内に 1 つの正常なデータポイントの後に回復します。同様に、ClustermgtdHeartbeatアラームは に戻るために 10 個の正常なデータポイント (10 分) が連続して必要ですOK。
注記
AWS ParallelCluster はアラームアクションを設定しません。通知の送信など、アラームアクションの設定方法については、「アラームアクション」を参照してください。Amazon CloudWatch アラームの使用の詳細については、「Amazon CloudWatch ユーザーガイド」の「Amazon CloudWatch アラームの使用」を参照してください。
AWS ParallelCluster バージョン 3.8.0 以降では、クラスター設定falseで Monitoring // Alarms Enabledを に設定してアラームを無効にします。
3.8.0 より前の AWS ParallelCluster バージョンでは、クラスター設定falseで Monitoring /Dashboards/// CloudWatch Enabledを に設定してアラームを無効にします。この設定により、Amazon CloudWatch ダッシュボードも無効になることに注意してください。詳細についてはAmazon CloudWatch ダッシュボード、「」を参照してください。