本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon EKS 的監控和事件管理如何在 AMS Accelerate 中運作
產生:作為 EKS 加入監控和事件管理的一部分,AMS 會為您在受管帳戶中選取的 Amazon EKS 叢集設定基準監控。AMS 使用 Amazon Managed Service for Prometheus 警示管理員規則和 Amazon CloudWatch 事件規則的組合來設定基準監控。叢集中的 AMS 設定 Prometheus 伺服器會抓取您的 Prometheus 指標並將其遠端寫入相同區域中的 Amazon Managed Service for Prometheus 端點。觸發 Prometheus 警示管理員規則或產生 CloudWatch 事件時,基準監控組態會產生警示。
彙總:AMS 透過將資源導向 AMS 管理的 Amazon Simple Notification Service 主題,將資源產生的所有提醒傳送至 AMS 監控系統。
處理和影響分析:AMS 會分析警示,然後根據其影響的可能性進行處理。AMS 會將警示分類如下:
具有已知客戶影響的提醒:對於這些提醒,AMS 會使用事件管理程序建立新的事件報告。
具有不確定客戶影響的提醒:對於這些提醒,AMS 會傳送事件報告。在許多情況下,這些提醒會要求您驗證影響,AMS 才能採取行動。對於此類提醒,AMS 會傳送包含詳細資訊的提醒通知,並檢查提醒是否需要緩解動作。AMS 提供在通知中緩解動作的選項。如果您的回覆確認警示是事件,則 AMS 會觸發建立新事件報告,並啟動事件管理程序。收到「無客戶影響」或三天內完全沒有回應的任何服務通知都會標記為已解決。此外,對應的提醒會標示為已解析。
沒有客戶影響的提醒:如果在評估之後,AMS 判斷提醒沒有任何客戶影響,則提醒會關閉。
AMS 責任矩陣 (RACI)
AMS 負責、負責、諮詢和告知,或 RACI 矩陣會將主要責任指派給客戶或 AMS 以進行各種活動。下表概述了客戶和 AMS 在使用 Amazon EKS 監控和事件管理的應用程式中活動的責任。
R 代表負責執行任務以達成任務的一方。
代表責任方。
C 代表已諮詢的對象;尋求意見的對象,通常是主題專家;以及與之進行雙邊溝通的對象。
我代表知情;收到進度通知的一方,通常只在完成任務或可交付項目時。
| 活動 | 客戶 | AMS |
|---|---|---|
探索 AMS 需求 |
I |
R |
啟用叢集存取的 AMS 許可 (RBAC) |
R |
C |
|
如果工作者節點尚未存在,請在其上安裝 Amazon EC2 Systems Manager Agent |
R | C |
|
視需要在 AMS 命名空間中部署 AMS 叢集上元件,例如 Prometheus、Prometheus Node Exporter 和 kube-state-metrics。 |
C | R |
|
在 AMS 控制平面中佈建 Amazon Managed Service for Prometheus |
I | R |
|
在 AMS 控制平面中設定 Prometheus 警示管理員 |
I | R |
|
提供 Amazon Managed Grafana 範本並協助設定 |
C | R |
|
啟用 GuardDuty EKS 稽核日誌監控 |
C | R |
|
啟用 Amazon EKS 控制平面記錄 |
I | R |
|
監控 Amazon EKS 控制平面的運作狀態和效能 |
I | R |
|
監控 Amazon EKS 叢集 (叢集、節點、工作負載、Pod、API Server 和 CoreDNS) 的運作狀態和效能 |
I | R |
|
分類警示並提供 Amazon EKS 的事件回應 |
I | R |
|
在事件期間執行診斷命令 |
I | R |
|
在事件期間分析日誌 (控制平面和 Pod 日誌) |
I | R |
|
AWS 網路問題的事件回應 |
I | R |
|
回應 GuardDuty EKS 稽核日誌監控問題清單 |
I | R |
|
針對盡可能修復事件的動作提供客戶指引 |
I | R |