翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AMS Accelerate での Amazon EKS のモニタリングとインシデント管理のベースラインアラート
アラートを確認した後、AMS は Amazon EKS に対して次のアラートを有効にし、選択した Amazon EKS クラスターのモニタリングとインシデント管理を行います。応答時間サービスレベルアグリーメント (SLAs) とサービスレベル目標 (SLOs) は、選択したアカウントサービス階層 (Plus、Premium) によって異なります。詳細については、「AMS Accelerate でのインシデントレポートとサービスリクエスト」を参照してください。
アラートとアクション
次の表に、Amazon EKS アラートと、AMS が実行する各アクションを示します。
| アラート | しきい値 | アクション |
|---|---|---|
|
コンテナ OOM が強制終了されました |
過去 10 分以内にコンテナを再起動した合計数は 1 回以上で、ポッド内の Kubernetes コンテナは過去 10 分以内にOOMKilled」という理由で終了しています。 |
AMS は、OOM の強制終了の原因がコンテナ制限またはメモリ制限のオーバーコミットに達したかどうかを調査し、是正措置についてアドバイスします。 |
|
ポッドジョブ失敗 |
Kubernetes ジョブの完了に失敗します。失敗は、少なくとも 1 つの失敗したジョブステータスの存在によって示されます。 |
AMS は、Kubernetes ジョブまたは対応する cron ジョブが失敗した理由を調査し、是正措置についてアドバイスします。 |
|
StatefulSetダウン |
トラフィックを処理する準備ができているレプリカの数が、少なくとも 1 分間、StatefulSetあたりの既存のレプリカの現在の数と一致しません。 |
AMS は、ポッドイベントのエラーメッセージとポッドログのエラーログスニペットを確認することで、ポッドの準備が整っていない理由を判断し、是正措置についてアドバイスします。 |
|
HPA スケーリング機能 |
ステータス条件AbleToScale」が少なくとも 2 分間 false であるため、Horizontal Pod Autoscaler (HPA) はスケーリングできません。 |
AMS は、デプロイやStatefulSetなど、後続のワークロードリソースのポッドをスケーリングできない Kubernetes Horizontal Pod Autoscaler (HPA) を決定します。 |
|
HPA メトリクスの可用性 |
Horizontal Pod Autoscaler (HPA) は、ステータス条件ScalingActive」が少なくとも 2 分間 false であるため、メトリクスを収集できません。 |
AMS は、サーバー設定の問題や RBAC 認可の問題に関連するメトリクスなど、HPA がメトリクスを収集できない理由を決定します。 |
|
ポッドの準備中 |
Kubernetes ポッドは、15 分以上実行されていない状態 (保留中、不明、失敗など) のままになります。 |
AMS は、影響を受けるポッド (複数可) の詳細を調査し、ポッドログに関連するエラーやイベントを確認し、是正措置についてアドバイスします。 |
|
ポッドクラッシュループ |
ポッドコンテナは、少なくとも 15 分ごとに 1 時間再起動します。 |
AMS は、リソースの不足、別のコンテナによってロックされたファイル、別のコンテナによってロックされたデータベース、サービスの依存関係の失敗、外部サービスの DNS 問題、設定ミスなど、ポッドが起動しない理由を調査します。 |
|
デーモンセットのスケジュールミス |
10 分間に 1 つ以上の Kubernetes Daemonset ポッドが誤ってスケジュールされています。 |
AMS は、実行すべきではないノードでデーモンセットがスケジュールされている理由を決定します。これは、間違ったポッドnodeSelector/taints/affinitiesがデーモンセットポッドに適用された場合、またはノード (ノードプール) がテイントされ、既存のポッドがエビクション用にスケジュールされていない場合に発生する可能性があります。 |
|
Kubernetes API エラー |
Kubernetes API サーバーのエラー率が 2 分間で 3% を超えています。 |
AMS はコントロールプレーンログを分析して、このアラートの原因となっているエラーの量とタイプを判断し、マスターノードまたは etcd 自動スケーリンググループのリソース競合の問題を特定します。API サーバーが復旧しない場合、AMS は Amazon EKS サービスチームを関与させます。 |
|
Kubernetes API レイテンシー |
Kubernetes API サーバーへのリクエストの 99 パーセンタイルレイテンシーは、2 分間で 1 秒を超えています。 |
AMS はコントロールプレーンログを分析して、レイテンシーの原因となっているエラーの量とタイプを判断し、マスターノードまたは etcd 自動スケーリンググループのリソース競合の問題を特定します。API サーバーが復旧しない場合、AMS は Amazon EKS サービスチームを関与させます。 |
|
Kubernetes クライアント証明書の有効期限切れ |
Kubernetes API サーバーへの認証に使用されるクライアント証明書は、24 時間以内に期限切れになります。 |
AMS はこの通知を送信して、クラスター証明書が 24 時間後に期限切れになることを通知します。 |
|
ノードが準備中 |
Node の「準備完了」条件ステータスが少なくとも 10 分間 false です。 |
AMS は、API サーバーへの kubelet アクセスを妨げるネットワークの問題などのノード条件とイベントを調査します。 |
|
ノード高 CPU |
CPU 負荷が 5 分間で 80% を超えています。 |
AMS は、1 つ以上のポッドが異常に大量の CPU を消費しているかどうかを決定します。次に、AMS はリクエスト、制限、ポッドアクティビティが想定どおりであることを確認します。 |
|
ノード OOM の強制終了が検出されました |
4 分間にノードによって少なくとも 1 つのホスト OOM 強制終了が報告されています。 |
AMS は、OOM の強制終了の原因がコンテナの制限に達したか、ノードのオーバーコミットであるかを判断します。アプリケーションアクティビティが正常である場合、AMS はオーバーコミットとポッド制限の改訂のリクエストと制限についてアドバイスします。 |
|
ノード Conntrack の制限 |
接続追跡エントリの現在の数と最大制限の比率が 5 分間で 80% を超えています。 |
AMS は、コアあたりの推奨 conntrack 値についてアドバイスします。Kubernetes ノードは、ノードの合計メモリ容量に比例して conntrack 最大値を設定します。高負荷アプリケーション、特に小さなノードでは、conntrack の最大値を簡単に超えるため、接続のリセットとタイムアウトが発生する可能性があります。 |
|
ノードクロックが同期されていません |
2 分間の最小同期ステータスは 0 で、秒単位の最大エラーは 16 以上です。 |
AMS は、Network Time Protocol (NTP) がインストールされ、正常に機能しているかどうかを判断します。 |
|
Pod 高 CPU |
コンテナの CPU 使用率が 3 分間のレートで 80% を最低 2 分間超える。 |
AMS はポッドログを調査して、大量の CPU を消費するポッドタスクを決定します。 |
|
ポッドハイメモリ |
コンテナのメモリ使用量が 2 分間で指定されたメモリ制限の 80% を超えています。 |
AMS はポッドログを調査して、大量のメモリを消費するポッドタスクを決定します。 |
|
CoreDNS ダウン |
CoreDNS が Prometheus ターゲット検出から 15 分以上消えました。 |
これは、内部または外部のクラスターサービスのドメイン名解決が停止したことを示す重要なアラートです。AMS は CoreDNS ポッドのステータスをチェックし、CoreDNS 設定を検証し、CoreDNS ポッドをCoreDNS エンドポイントを検証し、CoreDNS 制限を検証し、承認があれば CoreDNS デバッグログ記録を有効にします。 |
|
CoreDNS エラー |
CoreDNS は、10 分間に DNS リクエストの 3% 以上について SERVFAIL エラーを返します。 |
このアラートは、アプリケーションの問題や設定ミスを示している可能性があります。AMS は CoreDNS ポッドのステータスをチェックし、CoreDNS 設定を検証し、CoreDNS ポッドをCoreDNS エンドポイントを検証し、CoreDNS 制限を検証し、承認があれば CoreDNS デバッグログ記録を有効にします。 |
|
CoreDNS レイテンシー |
DNS リクエスト期間の 99 パーセンタイルが 10 分間 4 秒を超えています。 |
このアラート CoreDNS が過負荷になっている可能性があることを示します。AMS は CoreDNS ポッドのステータスをチェックし、CoreDNS 設定を検証し、CoreDNS ポッドをポイントする DNS エンドポイントを検証し、CoreDNS 制限を検証し、お客様の承認により CoreDNS デバッグログ記録を有効にします。 |
| CoreDNS 転送レイテンシー | kube-dns への CoreDNS 転送リクエストの応答時間の 99 パーセンタイルが 10 分間で 4 秒を超えています。 |
CoreDNS が権威サーバーでない場合、またはドマニン名のキャッシュエントリがない場合、CoreDNS は DNS リクエストをアップストリーム DNS サーバーに転送します。このアラートは、CoreDNS が過負荷になっているか、アップストリーム DNS サーバーに問題がある可能性があることを示します。AMS は CoreDNS ポッドのステータスをチェックし、CoreDNS 設定を検証し、CoreDNS ポッドをCoreDNS エンドポイントを検証し、CoreDNS 制限を検証し、お客様の承認により CoreDNS デバッグログ記録を有効にします。 |
|
CoreDNS 転送エラー |
DNS クエリの 3% 以上が 5 分間失敗しています。 |
CoreDNS が権威サーバーでない場合、またはドマニン名のキャッシュエントリがない場合、CoreDNS は DNS リクエストをアップストリーム DNS サーバーに転送します。このアラートは、設定ミスの可能性やアップストリーム DNS サーバーの問題を示します。AMS は CoreDNS ポッドのステータスをチェックし、CoreDNS 設定を検証し、CoreDNS ポッドをCoreDNS エンドポイントを検証し、CoreDNS 制限を検証し、お客様の承認により CoreDNS デバッグログ記録を有効にします。 |