So funktionieren Überwachung und Vorfallmanagement für Amazon EKS in AMS Accelerate

Generierung: Im Rahmen der Onboarding-Überwachung und des Incident-Managements für EKS konfiguriert AMS die Basisüberwachung für die Amazon EKS-Cluster, die Sie in Ihrem verwalteten Konto ausgewählt haben. AMS verwendet eine Kombination aus Amazon Managed Service for Prometheus Alert Manager-Regeln und CloudWatch Amazon-Event-Regeln, um die Basisüberwachung zu konfigurieren. Ein AMS-konfigurierter Prometheus-Server in Ihrem Cluster scannt Ihre Prometheus-Metriken und schreibt sie remote auf einen Amazon Managed Service for Prometheus-Endpunkt in derselben Region. Die Basisüberwachungskonfiguration generiert eine Warnung, wenn eine Prometheus-Alert-Manager-Regel ausgelöst oder ein CloudWatch Ereignis generiert wird.

Aggregation: AMS sendet alle Benachrichtigungen, die Ihre Ressourcen generieren, an das AMS-Überwachungssystem, indem es sie an ein Amazon Simple Notification Service-Thema weiterleitet, das von AMS verwaltet wird.

Verarbeitung und Auswirkungsanalyse: AMS analysiert die Warnmeldungen und verarbeitet sie dann auf der Grundlage ihres Auswirkungspotenzials. AMS klassifiziert die Warnmeldungen wie folgt:

Warnmeldungen mit bekannten Auswirkungen auf den Kunden: Für diese Warnmeldungen erstellt AMS mithilfe des Incident-Management-Prozesses einen neuen Vorfallbericht.
Warnmeldungen mit ungewisser Auswirkung auf den Kunden: Für diese Warnmeldungen sendet AMS einen Vorfallbericht. In vielen Fällen werden Sie in diesen Benachrichtigungen aufgefordert, die Auswirkungen zu überprüfen, bevor AMS Maßnahmen ergreifen kann. Bei solchen Warnmeldungen sendet AMS eine Warnmeldung mit den Einzelheiten und prüft, ob für die Warnung eine Abhilfemaßnahme erforderlich ist. AMS bietet in der Benachrichtigung Optionen für Abhilfemaßnahmen. Wenn Ihre Antwort bestätigt, dass es sich bei der Warnung um einen Vorfall handelt, veranlasst AMS die Erstellung eines neuen Vorfallberichts und leitet den Vorfallmanagementprozess ein. Jede Servicemeldung, bei der drei Tage lang die Antwort „keine Auswirkungen auf den Kunden“ oder gar keine Antwort eingeht, wird als gelöst markiert. Außerdem wird die entsprechende Warnung als gelöst markiert.
Benachrichtigungen ohne Auswirkungen auf den Kunden: Wenn AMS nach der Auswertung feststellt, dass die Warnung keine Auswirkungen auf den Kunden hat, wird die Warnung geschlossen.

AMS-Verantwortungsmatrix (RACI)

Die RACI-Matrix „Verantwortlich, Rechenschaftspflichtig, Konsultiert und Informiert“ (AMS) weist entweder dem Kunden oder AMS die Hauptverantwortung für eine Vielzahl von Aktivitäten zu. Die folgende Tabelle bietet einen Überblick über die Verantwortlichkeiten von Kunde und AMS für Aktivitäten in einer Anwendung, die Monitoring and Incident Management für Amazon EKS verwendet.

R steht für die verantwortliche Partei, die die Arbeit zur Erfüllung der Aufgabe erledigt.
A steht für die verantwortliche Partei.
C steht für konsultiert, also für die Partei, deren Meinung eingeholt wird, in der Regel als Fachexperten, und mit der eine bilaterale Kommunikation besteht.
I steht für informiert, d. h. die Partei, die über den Stand der Dinge informiert wird, oft erst, wenn die Aufgabe oder das Ergebnis abgeschlossen ist.

Aktivität	Customer	AMS
Anforderungen von Discovery für AMS	I	R
Aktivieren Sie AMS-Berechtigungen (RBAC) für den Clusterzugriff	R	C
Installieren Sie Amazon EC2 Systems Manager Agent auf Worker-Knoten, falls er noch nicht vorhanden ist	R	C
Stellen Sie AMS-Komponenten im Cluster wie Prometheus, Prometheus Node Exporter und nach Bedarf kube-state-metrics in einem AMS-Namespace bereit.	C	R
Bereitstellen von Amazon Managed Service für Prometheus in der AMS-Steuerebene	I	R
Konfigurieren Sie den Prometheus Alert Manager in der AMS-Steuerebene	I	R
Stellen Sie die Amazon Managed Grafana-Vorlage bereit und helfen Sie bei der Konfiguration	C	R
Aktivieren Sie die GuardDuty EKS-Auditprotokollüberwachung	C	R
Protokollierung der Amazon EKS-Kontrollebene aktivieren	I	R
Überwachen Sie den Zustand und die Leistung der Amazon EKS-Steuerebene	I	R
Überwachen Sie den Zustand und die Leistung Ihres Amazon EKS-Clusters (Cluster, Knoten, Workload, Pod, API-Server und CoreDNS)	I	R
Analysieren Sie Warnmeldungen und reagieren Sie auf Vorfälle für Amazon EKS	I	R
Führen Sie bei Vorfällen Diagnosebefehle aus	I	R
Analysieren Sie Protokolle bei Vorfällen (Kontrollebene und Pod-Logs)	I	R
Reaktion auf Vorfälle bei AWS Netzwerkproblemen	I	R
Reagieren Sie auf die Ergebnisse von GuardDuty EKS Audit Log Monitoring	I	R
Bieten Sie Kunden nach Möglichkeit Hinweise zu Maßnahmen zur Behebung von Vorfällen	I	R

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Was ist Überwachung und Vorfallmanagement für Amazon EKS?

Basiswarnungen