View a markdown version of this page

AMS Accelerate での Amazon EKS のモニタリングとインシデント管理の仕組み - AMS Accelerate ユーザーガイド

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AMS Accelerate での Amazon EKS のモニタリングとインシデント管理の仕組み

生成: EKS のオンボーディングモニタリングとインシデント管理の一環として、AMS はマネージドアカウントで選択した Amazon EKS クラスターのベースラインモニタリングを設定します。AMS は、Amazon Managed Service for Prometheus アラートマネージャールールと Amazon CloudWatch イベントルールを組み合わせて、ベースラインモニタリングを設定します。クラスター内の AMS 設定の Prometheus サーバーは、Prometheus メトリクスをスクレイプし、同じリージョン内の Amazon Managed Service for Prometheus エンドポイントにリモート書き込みます。ベースラインモニタリング設定は、Prometheus アラートマネージャールールがトリガーされるか、CloudWatch イベントが生成されるとアラートを生成します。

集約: AMS は、リソースが生成するすべてのアラートを AMS によって管理される Amazon Simple Notification Service トピックに送信することで、AMS モニタリングシステムに送信します。

処理と影響の分析: AMS はアラートを分析し、影響の可能性に基づいてアラートを処理します。AMS はアラートを次のように分類します。

  • 既知の顧客への影響があるアラート: これらのアラートの場合、AMS はインシデント管理プロセスを使用して新しいインシデントレポートを作成します。

  • 顧客への影響が不明なアラート: これらのアラートの場合、AMS はインシデントレポートを送信します。多くの場合、これらのアラートでは、AMS がアクションを実行する前に影響を確認するように求められます。このようなアラートの場合、AMS は詳細を含むアラート通知を送信し、アラートに緩和アクションが必要かどうかを確認します。AMS には、通知内のアクションを軽減するためのオプションが用意されています。返信でアラートがインシデントであることを確認した場合、AMS は新しいインシデントレポートの作成をトリガーし、インシデント管理プロセスを開始します。「顧客への影響なし」または 3 日間応答をまったく受信しないサービス通知は、解決済みとしてマークされます。また、対応するアラートは解決済みとしてマークされます。

  • 顧客への影響がないアラート: 評価後、AMS がアラートに顧客への影響がないと判断した場合、アラートは閉じられます。

AMS 責任マトリックス (RACI)

AMS 責任、説明責任、相談、情報、または RACI マトリックスは、さまざまなアクティビティについて顧客または AMS に主な責任を割り当てます。次の表は、Amazon EKS のモニタリングとインシデント管理を使用するアプリケーションにおけるアクティビティに関する顧客と AMS の責任の概要を示しています。

  • R は、タスクを達成するために作業を行う責任者を表します。

  • は、説明責任を負う当事者を表します。

  • C は、相談された当事者、通常は対象分野の専門家として意見を求める当事者、二国間通信を行う当事者を指します。

  • 多くの場合、タスクまたは成果物の完了時にのみ、進行状況が通知される当事者である、情報に基づく当事者です。

アクティビティ お客様 AMS

Discovery for AMS の要件

I

R

クラスターアクセスの AMS アクセス許可 (RBAC) を有効にする

R

C

ワーカーノードに Amazon EC2 Systems Manager Agent がまだ存在しない場合はインストールする

R C

必要に応じて、Prometheus、Prometheus Node Exporter、kube-state-metrics などのクラスター上の AMS コンポーネントを AMS 名前空間にデプロイします。

C R

AMS コントロールプレーンで Amazon Managed Service for Prometheus をプロビジョニングする

I R

AMS コントロールプレーンで Prometheus アラートマネージャーを設定する

I R

Amazon Managed Grafana テンプレートを提供し、設定を支援する

C R

GuardDuty EKS 監査ログのモニタリングを有効にする

C R

Amazon EKS コントロールプレーンのログ記録を有効にする

I R

Amazon EKS コントロールプレーンの状態とパフォーマンスをモニタリングする

I R

Amazon EKS クラスター (クラスター、ノード、ワークロード、ポッド、API Server、CoreDNS) の状態とパフォーマンスをモニタリングする

I R

アラートをトリアージし、Amazon EKS のインシデント対応を提供する

I R

インシデント中に診断コマンドを実行する

I R

インシデント中のログを分析する (コントロールプレーンとポッドログ)

I R

AWS ネットワーク問題のインシデント対応

I R

GuardDuty EKS 監査ログのモニタリング結果への対応

I R

可能であれば、インシデントを修正するためのアクションについて顧客ガイダンスを提供する

I R