クラスターメトリクス用の Amazon CloudWatch アラーム - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

クラスターメトリクス用の Amazon CloudWatch アラーム

AWS ParallelCluster は、ヘッドノードのヘルスとリソース使用率をモニタリングするように Amazon CloudWatch アラームを設定します。アラームの名前は です。ここでcluster-name-HeadNode-metriccluster-name はクラスターの名前であり、メトリクスはモニタリング対象のメトリクスを識別します。

ナビゲーションペインで [アラーム] を選択して、CloudWatch コンソールのアラームにアクセスします。

という名前の複合アラームは、個々のヘッドノードアラームのいずれかがトリガーされると ALARM状態cluster-name-HeadNodeになります。

ディスクとメモリのアラーム

AWS ParallelCluster バージョン 3.6.0 以降では、次の CloudWatch アラームが作成されます。

  • cluster-name-HeadNode-Disk — ルートボリュームdisk_used_percentメトリクスをモニタリングします。1 分間に 1 つのデータポイントでディスク使用量が 90% を超える場合ALARMの状態を入力します。

  • cluster-name-HeadNode-Memmem_used_percentメトリクスをモニタリングします。1 分間に 1 つのデータポイントでメモリ使用量が 90% を超える場合ALARMの状態を入力します。

詳細については、「Amazon CloudWatch ユーザーガイド」の「CloudWatch エージェントにより収集されるメトリクス」を参照してください。

ヘルスチェックと CPU アラーム

AWS ParallelCluster バージョン 3.8.0 以降では、次の CloudWatch アラームが作成されます。

  • cluster-name-HeadNode-Health — Amazon EC2 StatusCheckFailedメトリクスをモニタリングします。1 分間に 1 つのデータポイントで値が 0 より大きい場合ALARMの状態を入力します。

  • cluster-name-HeadNode-Cpu — Amazon EC2 CPUUtilizationメトリクスをモニタリングします。1 分間に 1 つのデータポイントで CPU 使用率が 90% を超える場合ALARMの状態を入力します。

クラスター管理デーモンハートビートアラーム

AWS ParallelCluster バージョン 3.15.0 以降では、Amazon CloudWatch ログ記録が有効で、スSlurmケジューラが使用されている場合、次のアラームが作成されます。

  • cluster-name-HeadNode-ClustermgtdHeartbeatParallelCluster名前空間の ClustermgtdHeartbeatメトリクスをモニタリングします。アラームは、1 分間に 10 個の連続したデータポイントに対して 1 ハートビート未満を受信すると、 ALARM状態になります。欠落データは違反として扱われます。

注記

すべてのアラームは対称的に復旧します。アラームをトリガーするのと同じデータポイントと評価期間も復旧を管理します。たとえば、1 つのデータポイントを持つアラームは、同じ観測期間内に 1 つの正常なデータポイントの後に回復します。同様に、ClustermgtdHeartbeatアラームは に戻るために 10 個の正常なデータポイント (10 分) が連続して必要ですOK

注記

AWS ParallelCluster はアラームアクションを設定しません。通知の送信など、アラームアクションの設定方法については、「アラームアクション」を参照してください。Amazon CloudWatch アラームの使用の詳細については、「Amazon CloudWatch ユーザーガイド」の「Amazon CloudWatch アラームの使用」を参照してください。

AWS ParallelCluster バージョン 3.8.0 以降では、クラスター設定falseMonitoring // Alarms Enabledを に設定してアラームを無効にします。

3.8.0 より前の AWS ParallelCluster バージョンでは、クラスター設定falseMonitoring /Dashboards/// CloudWatch Enabledを に設定してアラームを無効にします。この設定により、Amazon CloudWatch ダッシュボードも無効になることに注意してください。詳細についてはAmazon CloudWatch ダッシュボード、「」を参照してください。