Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Überwachung in Amazon EKS
<a name="monitoring"></a>

Die Überwachung in Amazon EKS bietet wichtige Einblicke in den Zustand, die Leistung und die Sicherheit Ihrer Kubernetes-Workloads. Ohne angemessene Überwachung riskieren Sie Serviceunterbrechungen, Sicherheitsverletzungen und eine ineffiziente Ressourcennutzung, die sich auf den Geschäftsbetrieb auswirken und die Kosten in die Höhe treiben können. Eine effektive Überwachung ermöglicht es Ihnen, Probleme proaktiv zu identifizieren und zu lösen, die Ressourcennutzung zu optimieren und die Compliance-Anforderungen für Ihre containerisierten Anwendungen einzuhalten. Durch die Implementierung umfassender Überwachungslösungen können Sie eine hohe Verfügbarkeit sicherstellen, Anomalien frühzeitig erkennen und datengestützte Entscheidungen zur Skalierung und Verbesserung Ihrer Amazon EKS-Infrastruktur treffen.

In diesem Abschnitt werden die verschiedenen Aspekte der Amazon EKS-Überwachung untersucht, darunter verschiedene Überwachungstypen, verfügbare Tools und bewährte Methoden, die Ihnen helfen, eine robuste Überwachungsstrategie für Ihre Kubernetes-Umgebung zu entwickeln.

**Topics**
+ [Arten der Überwachung](monitoring-types.md)
+ [Tools](monitoring-tools.md)
+ [Implementierung von Hochverfügbarkeit](monitoring-ha-setup.md)
+ [Best Practices](monitoring-best-practices.md)
+ [Überlegungen für Fortgeschrittene](monitoring-considerations.md)

# Arten der Überwachung in Amazon EKS
<a name="monitoring-types"></a>

Effektive Beobachtbarkeit in Amazon EKS umfasst Aktivitäten zur Infrastruktur-, Anwendungs- und Sicherheitsüberwachung.

## Überwachung der Infrastruktur
<a name="infrastructure"></a>

Die Infrastrukturüberwachung ist eine grundlegende Komponente der Amazon EKS-Observability, die tiefe Einblicke in den Zustand und die Leistung der grundlegenden Elemente Ihres Kubernetes-Clusters bietet. Im Kern geht es darum, die Vitalparameter sowohl der Komponenten der Kontrollebene als auch der Worker-Knoten zu verfolgen und sicherzustellen, dass die zugrunde liegende Plattform stabil und effizient bleibt.
+ Die **Überwachung der Kontrollebene** ist von entscheidender Bedeutung, da sie wichtige Komponenten wie den API-Server, die etcd-Datenbank und den Scheduler überwacht. Durch die Überwachung der API-Serverlatenz können Sie schnell Leistungsengpässe erkennen, die sich auf die Anwendungsbereitstellung oder Skalierung auswirken könnten. Die Etcd-Leistungsüberwachung überprüft, ob die Statusdatenbank des Clusters effizient funktioniert, und verhindert Datenkonsistenzprobleme, die sich auf den gesamten Cluster auswirken könnten.
+ Die **Überwachung auf Knotenebene** ist ebenso wichtig, da sie sich auf die Rechenressourcen konzentriert, die Ihre containerisierten Workloads ausführen. Dazu gehört die Verfolgung der CPU-Auslastung, des Speicherverbrauchs, der Festplatten-I/O und der Netzwerkleistung über alle Worker-Knoten hinweg. Das Verständnis dieser Metriken hilft, eine Erschöpfung der Ressourcen zu verhindern, Entscheidungen zur Knotenskalierung zu optimieren und eine angemessene Kapazitätsplanung sicherzustellen.
+ Die **Netzwerküberwachung** spielt eine entscheidende Rolle bei der Aufrechterhaltung einer zuverlässigen Kommunikation zwischen Pods, Diensten und externen Ressourcen. Durch die Überwachung von Netzwerkdurchsatz, Latenz und Verbindungsstatus können Sie Verbindungsprobleme frühzeitig erkennen und eine reibungslose Anwendungskommunikation sicherstellen. Die Speicherüberwachung ergänzt die Netzwerküberwachung, indem sie Volumenleistung, Kapazitätsauslastung und I/O Muster verfolgt, um datenbedingte Engpässe zu vermeiden.

Die Infrastrukturüberwachung dient als Frühwarnsystem für potenzielle Probleme, ermöglicht eine proaktive Wartung und gewährleistet eine optimale Ressourcenzuweisung. Ohne eine zuverlässige Infrastrukturüberwachung riskieren Sie unerwartete Ausfallzeiten, Leistungseinbußen und ineffiziente Ressourcennutzung, die sich erheblich auf den Geschäftsbetrieb und die Kosten auswirken können.

## Anwendungsüberwachung
<a name="application"></a>

Die Anwendungsüberwachung ist für die Aufrechterhaltung gesunder, leistungsfähiger und zuverlässiger containerisierter Anwendungen in Ihrer Amazon EKS-Umgebung unerlässlich. Diese Überwachungsebene konzentriert sich auf die tatsächlichen Workloads, die in Ihrem Cluster ausgeführt werden, und bietet wichtige Einblicke in das Verhalten, die Leistung und die Interaktion Ihrer Anwendungen mit anderen Diensten.

Die Anwendungsüberwachung umfasst die Überwachung auf Container-Ebene, die Überwachung auf Service-Ebene und die verteilte Ablaufverfolgung.
+ Auf **Container-Ebene** verfolgt die Anwendungsüberwachung wichtige Kennzahlen wie den Zustand des Containers, die Anzahl der Neustarts und die Muster des Ressourcenverbrauchs. Diese Metriken helfen Ihnen dabei, problematische Container zu identifizieren, die möglicherweise übermäßig viele Ressourcen verbrauchen oder häufig neu gestartet werden, was auf zugrunde liegende Probleme wie Speicherlecks oder Konfigurationsprobleme hinweisen könnte. Durch die Überwachung von Ereignissen im Container-Lebenszyklus können Sie sicherstellen, dass die Anwendung ordnungsgemäß funktioniert, und Bereitstellungsprobleme schnell beheben.
+ Die **Überwachung auf Service-Ebene** bietet Einblick in Kennzahlen zur Leistung und Zuverlässigkeit von Anwendungen wie Reaktionszeiten, Fehlerraten und Anforderungsdurchsatz. Diese Kennzahlen sind für die Einhaltung der Service-Level-Ziele (SLOs) und die Sicherstellung eines positiven Endbenutzererlebnisses von entscheidender Bedeutung. Sie können die Latenz an verschiedenen Service-Endpunkten verfolgen, Leistungsengpässe identifizieren und Fehlermuster überwachen, um die Zuverlässigkeit von Anwendungen aufrechtzuerhalten.
+ Die **verteilte Ablaufverfolgung** ist ein weiterer wichtiger Aspekt der Anwendungsüberwachung, insbesondere in Microservices-Architekturen. Durch die Implementierung der Ablaufverfolgung können Sie Anfragen verfolgen, während sie verschiedene Dienste durchlaufen, Abhängigkeiten verstehen und Leistungsengpässe identifizieren. Diese end-to-end Transparenz hilft Ihnen dabei, Serviceinteraktionen zu optimieren und komplexe Probleme zu beheben, die sich über mehrere Komponenten erstrecken.

Maßgeschneiderte Anwendungsmetriken spielen eine entscheidende Rolle bei der Bereitstellung geschäftsspezifischer Erkenntnisse. Dazu können Kennzahlen wie die Bearbeitungsrate von Bestellungen, die Häufigkeit der Benutzeranmeldungen oder die Erfolgsquote von Transaktionen gehören. Sie können diese benutzerdefinierten Metriken mit Infrastruktur- und Container-Metriken korrelieren, um besser zu verstehen, wie sich die Infrastrukturleistung auf den Geschäftsbetrieb auswirkt, und um datengestützte Entscheidungen zur Skalierung und Optimierung zu treffen.

Die Bedeutung der Anwendungsüberwachung liegt in ihrer Fähigkeit, einen umfassenden Überblick über den Zustand und die Leistung von Anwendungen zu bieten. Diese Überwachung ermöglicht es Ihnen, eine hohe Servicequalität aufrechtzuerhalten, Probleme schnell zu lösen und Ihre Anwendungen kontinuierlich zu optimieren, um Ihre Geschäftsziele zu erreichen.

## Überwachung der Sicherheit
<a name="security"></a>

Die Sicherheitsüberwachung in Amazon EKS ist eine wichtige Aktivität, die Unternehmen dabei unterstützt, die Integrität, Vertraulichkeit und Konformität ihrer Kubernetes-Umgebungen aufrechtzuerhalten. Dieser umfassende Sicherheitsansatz kombiniert kontinuierliche Überwachung, Bedrohungserkennung und Compliance-Überwachung, um containerisierte Workloads vor potenziellen Sicherheitsrisiken und unbefugtem Zugriff zu schützen. Er umfasst die Überwachung der Authentifizierung und Autorisierung, die Überwachung der Netzwerksicherheit sowie die Überwachung der Konfiguration und Einhaltung von Vorschriften.
+ Die **Authentifizierungs- und Autorisierungsüberwachung** bildet die erste Verteidigungslinie, indem sie alle Versuche, auf den Cluster zuzugreifen, verfolgt. Dazu gehören die Überwachung von API-Serveranfragen, die Nachverfolgung erfolgreicher und fehlgeschlagener Anmeldeversuche und die Prüfung von Änderungen der rollenbasierten Zugriffskontrolle (RBAC). Durch die Führung detaillierter Auditprotokolle darüber, wer wann auf welche Ressourcen zugegriffen hat, können Sie potenzielle Sicherheitsverletzungen, unbefugte Zugriffsversuche oder Aktivitäten zur Eskalation von Rechten schnell erkennen. Dies ist besonders wichtig in Umgebungen mit mehreren Mandanten, in denen strenge Zugriffskontrollen unerlässlich sind.
+ Die **Überwachung der Netzwerksicherheit** konzentriert sich auf die Erkennung und Verhinderung unbefugter Kommunikation zwischen Pods und Diensten. Durch die Überwachung von Verstößen gegen Netzwerkrichtlinien und ungewöhnlicher Datenverkehrsmuster können Sie potenzielle Sicherheitsbedrohungen wie Fluchtversuche in Containern oder seitliche Bewegungen innerhalb des Clusters identifizieren. Dazu gehört die Verfolgung sowohl der internen Cluster-Kommunikation als auch der externen Datenverkehrsmuster, um sicherzustellen, dass Container nur mit autorisierten Endpunkten kommunizieren und definierte Sicherheitsrichtlinien einhalten.
+ **Die Überwachung der Konfiguration und Einhaltung der Vorschriften** ist für die Aufrechterhaltung der Sicherheitsstandards und die Einhaltung gesetzlicher Anforderungen unerlässlich. Dazu gehören das kontinuierliche Scannen von Container-Images auf Sicherheitslücken, die Überwachung der Laufzeitsicherheit und die Nachverfolgung von Konfigurationsänderungen, die sich auf den Sicherheitsstatus auswirken könnten. Regelmäßige Compliance-Audits stellen die Einhaltung von Industriestandards und organisatorischen Sicherheitsrichtlinien sicher, und die Erkennung von Konfigurationsabweichungen hilft dabei, unbefugte Änderungen zu verhindern, die Sicherheitsrisiken mit sich bringen könnten.

Die Sicherheitsüberwachung in Amazon EKS bietet die nötige Transparenz und Kontrolle, um sich vor modernen Sicherheitsbedrohungen zu schützen und gleichzeitig die Einhaltung gesetzlicher Anforderungen sicherzustellen. Durch die Implementierung einer umfassenden Sicherheitsüberwachung kann Ihr Unternehmen ein solides Sicherheitsniveau aufrechterhalten, schnell auf Sicherheitsvorfälle reagieren und die Einhaltung verschiedener regulatorischer Standards nachweisen.

# Überwachungstools für Amazon EKS
<a name="monitoring-tools"></a>

In diesem Abschnitt werden drei Kategorien von Amazon EKS-Überwachungstools beschrieben: AWS Überwachungsdienste, Open-Source-Lösungen oder proprietäre Lösungen und spezielle Tools.

## AWS Dienste
<a name="monitoring-services"></a>
+ [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html): Umfassender Überwachungs- und Protokollierungsservice

  CloudWatch bildet das Rückgrat von AWS Überwachungslösungen und bietet umfangreiche Funktionen für Amazon EKS-Umgebungen. Es bietet Container Insights für detaillierte Container- und Cluster-Metriken, sodass Sie Leistung, Ressourcennutzung und Anwendungsintegrität überwachen können. Der Service zeichnet sich durch die Aggregation und Analyse von Protokollen aus und unterstützt die zentralisierte Protokollierung über Container und Knoten hinweg. CloudWatch integriert sich auf natürliche Weise in. AWS-Services Es bietet eine automatisierte Alarmkonfiguration und unterstützt benutzerdefinierte Metriken und Dashboards, was es zu einem unverzichtbaren Tool für die Amazon EKS-Überwachung macht.
+ [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html): Fortschrittliche verteilte Tracing-Plattform

  X-Ray verbessert die Beobachtbarkeit durch die Bereitstellung ausgeklügelter Funktionen zur verteilten Nachverfolgung. Die Visualisierung der Service Map bietet klare Einblicke in die Anwendungsarchitektur und die Abhängigkeiten, und die detaillierte Nachverfolgung von Anfragen hilft bei der Identifizierung von Leistungsengpässen zwischen Diensten. X-Ray kann Anfragen über komplexe Microservices-Architekturen verfolgen und ist daher für die Fehlerbehebung und Optimierung von unschätzbarem Wert, insbesondere in verteilten Systemen, die sich über mehrere Systeme erstrecken. AWS-Services
+ [AWS Distribution für: Einheitliches Observability-Framework OpenTelemetry](https://aws-otel.github.io/)

  Distro for OpenTelemetry bietet einheitliche Datenerfassungsfunktionen mit plattformübergreifender Unterstützung und ist daher ideal für Hybridumgebungen. Dieser Service lässt sich in andere integrieren AWS-Services, unterstützt kundenspezifische Instrumentierung und bietet Flexibilität bei der Implementierung umfassender Überwachungslösungen bei gleichzeitiger Wahrung der Kompatibilität mit Industriestandards.
+ [Amazon Managed Grafana: Visualisierung](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html) auf Unternehmensniveau

  Amazon Managed Grafana bietet einen vollständig verwalteten Service für Datenvisualisierung und -analyse. Es bietet eine nahtlose Integration mit anderen AWS-Services integrierten Sicherheitsfunktionen und Skalierbarkeit auf Unternehmensniveau. Der Service vereinfacht die Erstellung und Verwaltung von Dashboards und bietet gleichzeitig erweiterte Funktionen wie den kontoübergreifenden Zugriff auf Datenquellen und die Integration mit. AWS IAM Identity Center
+ [Amazon Managed Service für Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html): Hochverfügbare, sichere, verwaltete Überwachung

  Amazon Managed Service for Prometheus ist ein vollständig verwalteter, Promethus-kompatibler Überwachungsservice. Er bietet automatische Skalierung, hohe Verfügbarkeit und sichere Erfassung und Abfrage von Metriken. Der Service lässt sich nahtlos in Amazon EKS integrieren und macht den betrieblichen Aufwand für die Verwaltung von Prometheus-Servern überflüssig.

## Open-Source-Lösungen oder proprietäre Lösungen
<a name="monitoring-open-source"></a>

Die im vorherigen Abschnitt beschriebenen AWS Tools bieten eine nahtlose Integration und verwaltete Dienste. Die in diesem Abschnitt aufgeführten Open-Source-Tools ergänzen das Angebot AWS-Services durch Flexibilität und umfangreiche Anpassungsmöglichkeiten. Wenn Sie die Funktionen und Anwendungsfälle der einzelnen Tools kennen, können Sie Überwachungsstrategien entwickeln, die Ihren spezifischen Anforderungen am besten entsprechen.
+ [Prometheus](https://docs.aws.amazon.com/eks/latest/userguide/deploy-prometheus.html): Toolkit zur Erfassung von Metriken

  Prometheus ist eine Open-Source-Lösung für die Erfassung von Kennzahlen in Kubernetes-Umgebungen. Die Zeitreihen-Datenbank und die PromQL-Abfragesprache ermöglichen anspruchsvolle Metrikanalysen. Die Serviceerkennungsfunktionen der Plattform passen sich automatisch an dynamische Kubernetes-Umgebungen an, und das Alert-Management-System hält Sie über kritische Probleme auf dem Laufenden. Prometheus bietet umfangreiche Integrationsoptionen, die es zu einer vielseitigen Wahl für die umfassende Überwachung von Kennzahlen machen.
+ [Grafana](https://grafana.com/docs/grafana-cloud/monitor-infrastructure/kubernetes-monitoring/configuration/config-other-methods/config-aws-eks/): Fortschrittliche Visualisierungs-Engine

  Grafana wandelt mithilfe seiner Visualisierungsfunktionen komplexe Überwachungsdaten in umsetzbare Erkenntnisse um. Die Plattform erstellt maßgeschneiderte Dashboards, die Daten aus mehreren Quellen kombinieren und eine einheitliche Ansicht der Infrastruktur- und Anwendungsmetriken bieten. Die Unterstützung verschiedener Datenquellen und die Funktionen zur Verwaltung von Warnmeldungen ermöglichen eine umfassende Überwachung. Grafana kann Ihnen helfen, sowohl Echtzeit- als auch historische Daten zu visualisieren, sodass Sie Trends erkennen und fundierte Entscheidungen treffen können.
+ [Fluent Bit](https://fluentbit.io/): Einheitliche Protokollierungsebene

  Diese Protokollierungslösung ermöglicht die Erfassung und Verwaltung von Protokollen für Kubernetes-Umgebungen. Die native Kubernetes-Integration gewährleistet eine nahtlose Erfassung von Protokollen aus Containern und Knoten, und die Unterstützung mehrerer Ausgabeziele bietet Flexibilität bei der Speicherung und Analyse von Protokollen. Erweiterte Funktionen wie Log-Parsing und Filterung ermöglichen es Ihnen, Logs auf der Grundlage spezifischer Anforderungen zu verarbeiten und weiterzuleiten. Aufgrund seines geringen Gewichts eignet sich Fluent Bit besonders für containerisierte Umgebungen.
+ [Datadog](https://www.datadoghq.com/blog/eks-monitoring-datadog/): Beobachtbarkeit im gesamten Stack

  Datadog bietet umfassende Überwachungsfunktionen mit nativer Kubernetes-Unterstützung. Es bietet Infrastrukturüberwachung, Anwendungsleistungsüberwachung (APM), Protokollverwaltung und Echtzeitanalysen. Sie können die automatische Serviceerkennung und den umfangreichen Integrationskatalog der Plattform für die Amazon EKS-Überwachung sowie die Funktionen für maschinelles Lernen nutzen, um Anomalien zu erkennen und potenzielle Probleme vorherzusagen.
+ [New Relic](https://docs.newrelic.com/docs/infrastructure/amazon-integrations/connect/eks-add-on/): Überwachung der Anwendungsleistung

  New Relic bietet Einblick in die Anwendungsleistung und den Zustand der Infrastruktur. Die Kubernetes-Integration bietet detaillierte Einblicke in Container, verteiltes Tracing und benutzerdefinierte Dashboards. Die Plattform hilft Ihnen dabei, die Anwendungsleistung mit den Infrastrukturkennzahlen zu korrelieren, sodass Sie Probleme schnell identifizieren und lösen können.
+ [Elastic Stack (ELK Stack)](https://aws.amazon.com/opensearch-service/resources/the-benefits-of-the-elk-stack/): Protokollanalyse und Suche

  Der ELK Stack kombiniert Elasticsearch, Logstash und Kibana, um Funktionen zur Protokollverwaltung und -analyse bereitzustellen. Er bietet erweiterte Suchfunktionen, Visualisierungstools und Funktionen für maschinelles Lernen. Sie können den Stack verwenden, um große Mengen an Protokolldaten aus Ihren Amazon EKS-Umgebungen zu verarbeiten.

## Spezialisierte Tools
<a name="monitoring-special"></a>

Sie können die folgenden Tools je nach Ihren spezifischen Überwachungsanforderungen, Ihrem Betriebsumfang und Ihren Unternehmenspräferenzen kombinieren. Der Schlüssel liegt darin, einen Monitoring-Stack zu erstellen, der umfassende Transparenz bietet und gleichzeitig überschaubar und kostengünstig bleibt.
+ [kube-state-metrics (KSM)](https://github.com/kubernetes/kube-state-metrics): Überwachung des Kubernetes-Zustands

  Dieser Zusatzdienst überwacht den Kubernetes-API-Server und generiert Metriken über den Status von Objekten. Er bietet Einblicke in den Zustand von Bereitstellungen, Pods und anderen Kubernetes-Ressourcen.
+ [Kubernetes](https://docs.aws.amazon.com/eks/latest/userguide/metrics-server.html) Metrics Server: Ressourcen-Metriken

  Dieser Metrikserver sammelt Ressourcenmetriken von Kubelets und stellt sie über die Kubernetes-Metrik-API zur Verfügung. Er bietet horizontale automatische Pod-Skalierung und grundlegende CPU- und Speichermetriken.
+ [Kubecost: Kostenüberwachung für](https://github.com/kubecost/cost-analyzer-helm-chart) Kubernetes

  Tools wie Kubecost bieten detaillierte Kostenanalysen und Optimierungsempfehlungen für EKS-Cluster. Sie helfen Ihnen dabei, die Cloud-Ausgaben für verschiedene Namespaces, Bereitstellungen und Dienste zu verstehen und zu optimieren.

# Implementierung von Hochverfügbarkeit für Amazon EKS-Überwachungslösungen
<a name="monitoring-ha-setup"></a>

Eine robuste Hochverfügbarkeitsstrategie (HA) für die Amazon EKS-Überwachung ist entscheidend, um einen kontinuierlichen Einblick in Ihre Kubernetes-Umgebung zu gewährleisten. In diesem Abschnitt wird ein umfassender Ansatz zur Implementierung von HA in verschiedenen Aspekten Ihrer Überwachungsinfrastruktur erörtert.

## Architektonische Redundanz und Skalierbarkeit
<a name="architecture"></a>

Der Aufbau eines hochverfügbaren Überwachungssystems beginnt mit der richtigen architektonischen Gestaltung. Die Überwachungskomponenten sollten zum Schutz vor Zonenausfällen auf mehrere AWS Availability Zones verteilt werden. Dazu gehört die Implementierung einer horizontalen Skalierung für kritische Überwachungskomponenten wie Prometheus-Server, Log-Collectors und Alert Manager. Sie können AWS Managed Services wie Amazon Managed Service for Prometheus und Amazon Managed Grafana verwenden, um den Betriebsaufwand zu reduzieren und gleichzeitig eine hohe Verfügbarkeit sicherzustellen. Konfigurieren Sie automatische Failover-Mechanismen, um die Servicekontinuität bei Komponentenausfällen aufrechtzuerhalten. Dazu gehören Integritätsprüfungen und automatische Wiederherstellungsverfahren.

## Zuverlässige Datenspeicherstrategie
<a name="data-storage"></a>

Die Widerstandsfähigkeit der Datenspeicherung ist für die Aufrechterhaltung der Zuverlässigkeit des Überwachungssystems von grundlegender Bedeutung. Durch die Implementierung verteilter Speicherlösungen wird sichergestellt, dass metrische Daten und Protokolle auch dann zugänglich bleiben, wenn einzelne Speicherknoten ausfallen. Dazu gehören die Konfiguration einer ordnungsgemäßen Datenreplikation in mehreren Availability Zones und die Verwendung verschiedener Speicher-Backends für Redundanz. Richten Sie regelmäßige Backup-Verfahren für historische Daten mit dokumentierten Wiederherstellungsprozessen für verschiedene Ausfallszenarien ein. Bei Zeitreihendatenbanken wie Prometheus hilft die Implementierung von Remotespeicherlösungen dabei, Speicherprobleme von der Datenerfassung zu trennen und die allgemeine Systemzuverlässigkeit zu verbessern.

## Redundantes Alarmmanagement
<a name="alert-mgmt"></a>

Das Alert-Management erfordert in einem HA-Setup besondere Aufmerksamkeit. Durch den Einsatz redundanter Warnmanager wird sichergestellt, dass kritische Benachrichtigungen auch bei Systemausfällen die vorgesehenen Empfänger erreichen. Konfigurieren Sie mehrere Benachrichtigungskanäle wie E-Mail, SMS, Slack und stellen PagerDuty Sie alternative Kommunikationswege bereit. Verwenden Sie Mechanismen zur Deduplizierung von Alarmen, um Alert-Storms bei teilweisen Systemausfällen zu verhindern, und alternative Benachrichtigungsmethoden, um sicherzustellen, dass kritische Warnmeldungen nie übersehen werden. Die Implementierung der Korrelation von Warnmeldungen trägt dazu bei, den Kontext während Failover-Szenarien aufrechtzuerhalten, und verhindert doppelte Benachrichtigungen von redundanten Systemen.

## Lastenausgleich und Serviceerkennung
<a name="load-balancing"></a>

Ein ordnungsgemäßer Lastenausgleich ist für die Aufrechterhaltung stabiler Überwachungsdienste unerlässlich. AWS Application Load Balancer verteilen den eingehenden Monitoring-Verkehr auf mehrere Endpunkte, und Integritätsprüfungen stellen sicher, dass der Datenverkehr nur an fehlerfreie Instances weitergeleitet wird. Mithilfe von Diensterkennungsmechanismen können sich Überwachungskomponenten automatisch an Änderungen in der Umgebung anpassen, z. B. das Hinzufügen neuer Knoten oder Dienste. Stellen Sie Überwachungsagenten konsistent auf allen Knoten DaemonSets bereit, indem Sie bei der Skalierung des Clusters eine umfassende Abdeckung sicherstellen.

## Zusätzliche Überlegungen zur Hochverfügbarkeit
<a name="ha-considerations"></a>

Ausfallsicherheit des Netzwerks:
+ Implementieren Sie redundante Netzwerkpfade.
+ Konfigurieren Sie das richtige Subnetzdesign für alle Availability Zones.
+ Verwenden Sie es [AWS Direct Connect](https://docs.aws.amazon.com/whitepapers/latest/aws-vpc-connectivity-options/aws-direct-connect.html)mit Backup-Routen.
+ Konfigurieren Sie die entsprechenden Sicherheitsgruppen und Netzwerkzugriffskontrolllisten (Netzwerk ACLs).

Überwachung der Monitore:
+ Setzen Sie sekundäre Überwachungssysteme ein.
+ Implementieren Sie eine regionsübergreifende Überwachung.
+ Konfigurieren Sie Warnmeldungen für Systeme, die nicht reagieren.
+ Testen Sie regelmäßig die Failover-Verfahren.

Kapazitätsplanung:
+ Überwachen Sie Trends bei der Ressourcennutzung.
+ Implementieren Sie vorausschauende Skalierung.
+ Testen Sie die Leistung regelmäßig.

Datenmanagement:
+ Implementieren Sie Richtlinien zur Datenspeicherung.
+ Konfigurieren Sie die Metrikaggregation.
+ Planen Sie das Datenlebenszyklusmanagement.
+ Optimieren Sie den Speicher regelmäßig.

Wiederherstellungsverfahren:
+ Prozesse zur Wiederherstellung von Dokumenten.
+ Testen Sie die Notfallwiederherstellung regelmäßig.
+ Implementieren Sie nach Möglichkeit eine automatisierte Wiederherstellung.
+ Identifizieren und implementieren Sie klare Eskalationspfade.

Durch die Implementierung dieser Hochverfügbarkeitspraktiken können Sie sicherstellen, dass Ihre Amazon EKS-Überwachungsinfrastruktur zuverlässig und belastbar bleibt und dass Sie auch bei verschiedenen Ausfallszenarien einen kontinuierlichen Einblick in Ihre Kubernetes-Umgebungen haben. Regelmäßige Tests und Aktualisierungen dieser HA-Konfigurationen stellen sicher, dass sie auch bei der Weiterentwicklung der Umgebung wirksam bleiben.

# Bewährte Methoden für die Überwachung in Amazon EKS
<a name="monitoring-best-practices"></a>

## Strategischer Implementierungsansatz
<a name="implementation"></a>

Eine erfolgreiche Amazon EKS-Überwachungsstrategie beginnt mit einem gut geplanten, schrittweisen Implementierungsansatz.
+ Beginnen Sie mit der Identifizierung und Überwachung kritischer Kennzahlen, die sich direkt auf Ihren Geschäftsbetrieb und die Zuverlässigkeit Ihrer Anwendungen auswirken. Diese Grundlage sollte wichtige Infrastrukturkennzahlen, wichtige Leistungsindikatoren für Anwendungen und kritische Sicherheitsmetriken umfassen. Erweitern Sie den Umfang der Überwachung schrittweise auf der Grundlage der betrieblichen Anforderungen und der gewonnenen Erkenntnisse und stellen Sie sicher, dass jede Ergänzung einen sinnvollen Nutzen bietet.
+ Implementieren Sie automatisierte Bereitstellungsprozesse mithilfe von Infrastructure-as-Code-Tools (IaC) wie Terraform oder CloudFormation um Konsistenz und Wiederholbarkeit sicherzustellen.
+ Testen und validieren Sie Überwachungssysteme, um Zuverlässigkeit und Genauigkeit zu gewährleisten.
+ Verfeinern Sie die Überwachungsparameter kontinuierlich, um sie an die sich ändernden Geschäftsanforderungen anzupassen.

## Effektives Datenmanagement
<a name="data-mgmt"></a>

Ein ordnungsgemäßes Datenmanagement ist entscheidend für die Aufrechterhaltung einer effizienten und kostengünstigen Überwachungslösung.
+ Implementieren Sie klare Richtlinien zur Datenspeicherung, die den Bedarf an historischen Analysen mit den Speicherkosten in Einklang bringen.
+ Konfigurieren Sie geeignete Abtastraten für verschiedene Metriktypen: höhere Frequenz für kritische Messwerte und niedrigere Frequenz für weniger kritische Messwerte.
+ Verwenden Sie die Metrikaggregation, um das Datenvolumen zu reduzieren und gleichzeitig aussagekräftige Erkenntnisse zu gewinnen, insbesondere für langfristige Trendanalysen.
+ Implementieren Sie systematische Verfahren zur Aufbewahrung und Archivierung von Protokollen für zentralisierte Protokollierungssysteme (z. B. CloudWatch Logs), um die Speicherkosten zu kontrollieren und sicherzustellen, dass der Zugriff auf wichtige Daten gewährleistet bleibt.
**Anmerkung**  
Die Protokollrotation auf Containerebene wird in Amazon EKS Version 1.21 oder höher automatisch vom Kubelet abgewickelt.
+ Erwägen Sie die Implementierung einer hot-warm-cold Architektur für die Protokollspeicherung, um sowohl die Zugriffsgeschwindigkeit als auch die Kosteneffizienz zu optimieren.

## Konfiguration und Verwaltung von Warnmeldungen
<a name="alert-config"></a>

Die Konfiguration von Warnmeldungen erfordert sorgfältige Überlegungen, um die Effektivität aufrechtzuerhalten, ohne dass es zu einer Ermüdung der Warnmeldungen kommt.
+ Definieren Sie klare, umsetzbare Schwellenwerte auf der Grundlage von Service-Level-Zielen (SLOs) und historischen Leistungsmustern.
+ Implementieren Sie ein System mit abgestuftem Schweregrad für Warnmeldungen, das klar zwischen kritischen Problemen, die sofortige Aufmerksamkeit erfordern, und weniger dringenden Problemen unterscheidet.
+ Stellen Sie sicher, dass Warnmeldungen ausreichend Kontext und umsetzbare Informationen enthalten, um eine schnelle Problemlösung zu ermöglichen.
+ Richten Sie klare Eskalationsverfahren mit definierten Zuständigkeitsbereichen und Reaktionszeiten für unterschiedliche Schweregrade von Alarmen ein.
+ Überprüfen und verfeinern Sie die Warnkonfigurationen regelmäßig, um deren Relevanz und Effektivität zu gewährleisten.

## Optimierung der Ressourcen
<a name="resource"></a>

Die kontinuierliche Überwachung der Ressourcennutzung ist für die Aufrechterhaltung eines kostengünstigen Betriebs unerlässlich.
+ Implementieren Sie eine umfassende Ressourcenüberwachung für alle Cluster-Komponenten, einschließlich Knoten, Pods und persistenter Volumes.
+ Konfigurieren Sie die automatische Skalierung auf der Grundlage der tatsächlichen Nutzungsmuster und Leistungsanforderungen, um eine effiziente Ressourcennutzung bei gleichbleibender Leistung sicherzustellen.
+ Verwenden Sie Tags zur Kostenzuweisung, um den Ressourcenverbrauch durch verschiedene Teams, Anwendungen oder Umgebungen zu verfolgen.
+ Analysieren Sie regelmäßig Kennzahlen zur Ressourceneffizienz, um Optimierungsmöglichkeiten zu identifizieren und Verbesserungen umzusetzen.
+ Erwägen Sie die Implementierung von Kostenmanagement-Tools, um Cloud-Ausgaben zu verfolgen und zu optimieren.

## Sicherheit
<a name="security"></a>

Sicherheitsüberlegungen sollten integraler Bestandteil Ihrer Überwachungsstrategie sein.
+ Implementieren Sie die [Prinzipien des Zugriffs mit den geringsten](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_permissions_least_privileges.html) Rechten für alle Überwachungskomponenten, um sicherzustellen, dass Benutzer und Dienste nur über die Berechtigungen verfügen, die sie benötigen.
+ Ermöglichen Sie eine umfassende Auditprotokollierung, um alle Zugriffe und Änderungen an Überwachungssystemen nachzuverfolgen.
+ Führen Sie regelmäßige Sicherheitsüberprüfungen der Überwachungskonfigurationen und Zugriffsmuster durch, um potenzielle Sicherheitslücken zu identifizieren.
+ Implementieren Sie Verschlüsselung für sensible Überwachungsdaten sowohl bei der Übertragung als auch bei der Speicherung.
+ Integrieren Sie die Sicherheitsüberwachung in bestehende SIEM-Systeme (Security Information and Event Management), um eine umfassende Sicherheitstransparenz zu gewährleisten.

# Überlegungen zur erweiterten Überwachung in Amazon EKS
<a name="monitoring-considerations"></a>

Leistungsoptimierung:
+ Optimieren Sie die Intervalle für die Erfassung von Kennzahlen.
+ Konfigurieren Sie effiziente Abfragemuster.
+ Implementieren Sie die Voraggregation von Metriken.
+ Verwenden Sie geeignete Speicherlösungen.

Einhaltung von Vorschriften und Unternehmensführung:
+ Pflegen Sie Prüfpfade.
+ Implementieren Sie die Compliance-Überwachung.
+ Sorgen Sie für regelmäßige Compliance-Berichte.
+ Verfahren zur Dokumentenüberwachung.

Wiederherstellung nach einem Notfall:
+ Erstellen Sie regelmäßig Backups der Überwachungskonfigurationen.
+ Verfahren zur Wiederherstellung von Dokumenten.
+ Testen Sie die Wiederherstellungsprozesse.

Kontinuierliche Verbesserung:
+ Überwachen Sie die Überprüfungssitzungen regelmäßig.
+ Optimieren Sie die Leistungszyklen.
+ Aktualisieren Sie die Überwachung auf der Grundlage von Vorfällen.
+ Integrieren Sie das Feedback der Benutzer.

Diese Best Practices bieten einen Rahmen für die Implementierung und Wartung effektiver Überwachungslösungen für Amazon EKS-Umgebungen. Überprüfen und aktualisieren Sie diese Praktiken regelmäßig, damit sie Ihren organisatorischen Anforderungen und Industriestandards entsprechen. Bei der Überwachung handelt es sich nicht um eine einmalige Einrichtung, sondern um einen kontinuierlichen Prozess, der regelmäßige Aufmerksamkeit und Verbesserung erfordert.