

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

# Warnmeldungen in Amazon EKS
<a name="alerting"></a>

Warnmeldungen sind eine wichtige Komponente bei der Verwaltung und Wartung von Anwendungen, die auf Amazon EKS ausgeführt werden. Es dient als Frühwarnsystem, das Betreiber und Entwickler über potenzielle Probleme, Anomalien oder Leistungseinbußen informiert, bevor diese zu schwerwiegenden Problemen eskalieren, die die Serviceverfügbarkeit oder das Benutzererlebnis beeinträchtigen könnten. Bei der Alarmierung werden verschiedene Aspekte des Kubernetes-Clusters überwacht, darunter:
+ Zustand der Infrastruktur
+ Leistung der Anwendung
+ Containermetriken
+ Benutzerdefinierte Geschäftskennzahlen

Effektive Benachrichtigungen in Amazon EKS gehen über das einfache Einrichten von Benachrichtigungen hinaus. Es erfordert eine well-thought-out Strategie, die den Bedarf an zeitnahen Informationen mit dem Risiko einer Übermüdung der Warnmeldungen in Einklang bringt. Diese Strategie sollte:
+ Definieren Sie aussagekräftige Schwellenwerte und Bedingungen.
+ Priorisieren Sie Warnmeldungen nach Schweregrad und Auswirkung.
+ Implementieren Sie die richtigen Weiterleitungs- und Eskalationsverfahren.
+ Integrieren Sie es in Tools für das Vorfallmanagement und die Kommunikation.

**Topics**
+ [Tools](alerting-tools.md)
+ [Best Practices](alerting-best-practices.md)

# Warntools für Amazon EKS
<a name="alerting-tools"></a>

Amazon EKS unterstützt mehrere Optionen AWS und Optionen von Drittanbietern für die Implementierung von Warnmeldungen. Wenn Sie sich für ein Tool für Amazon EKS-Benachrichtigungen entscheiden, sollten Sie Faktoren wie Integrationsfähigkeit, Skalierbarkeit, Benutzerfreundlichkeit, Kosten und spezifische Funktionen berücksichtigen, die Ihren Überwachungs- und Warnungsanforderungen entsprechen. Viele Unternehmen verwenden eine Kombination dieser Tools, um eine umfassende Überwachungs- und Warnlösung für ihre Amazon EKS-Umgebungen zu erstellen.
+ [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html): **AWS-Service **zur Überwachung und Beobachtbarkeit

  CloudWatch bietet Metriken, Protokolle und Alarme für EKS-Cluster und lässt sich gut in andere AWS-Services integrieren.
+ [Prometheus](https://docs.aws.amazon.com/eks/latest/userguide/deploy-prometheus.html): Open-Source-Überwachungs- und Warnungstool für Kubernetes

  Prometheus bietet eine leistungsstarke Abfragesprache (PromQL) zur Definition von Alarmbedingungen.
+ [Alertmanager](https://prometheus.io/docs/alerting/latest/alertmanager/): Ergänzung zu Prometheus für den Umgang mit Alarmen

  Alertmanager ermöglicht die Deduplizierung, Gruppierung und Weiterleitung von Warnmeldungen. Es unterstützt verschiedene Benachrichtigungskanäle, darunter E-Mail, Slack und. PagerDuty
+ [Grafana](https://aws.amazon.com/grafana/): Open-Source-Plattform für Überwachung und Beobachtbarkeit

  Grafana bietet Visualisierungs- und Alarmfunktionen. Es kann in verschiedene Datenquellen integriert werden, darunter Prometheus und. CloudWatch
+ [Elastic Stack (ELK Stack)](https://aws.amazon.com/what-is/elk-stack/): Kombination aus Elasticsearch, Logstash und Kibana

  Dieses Tool ist nützlich für die Aggregation, Analyse und Alarmierung von Protokollen. Es kann mit den Observability-Funktionen von Elastic erweitert werden.
+ Lösungen von Drittanbietern

  Auf dem Markt sind viele Tools erhältlich, darunter Datadog, New Relic, Sysdig, Dynatrace, Zabbix, Nagios, Splunk, IBM Instana und. AppDynamics

# Bewährte Methoden für Warnmeldungen in Amazon EKS
<a name="alerting-best-practices"></a>

In diesem Abschnitt werden die bewährten Methoden für die Erstellung eines robusten Warnsystems beschrieben, das die Zuverlässigkeit und Leistung Ihrer Kubernetes-basierten Anwendungen in Amazon EKS verbessert.

Definieren Sie klare Schwellenwerte für Warnmeldungen:
+ Legen Sie aussagekräftige Schwellenwerte auf der Grundlage historischer Daten und Geschäftsanforderungen fest.
+ Verwenden Sie gegebenenfalls dynamische Schwellenwerte, um unterschiedlichen Workloads Rechnung zu tragen.

Implementieren Sie die Priorisierung von Warnmeldungen:
+ Kategorisieren Sie Warnmeldungen nach Schweregrad (z. B. kritisch, hoch, mittel, niedrig).
+ Passen Sie die Prioritäten der Warnmeldungen an die Auswirkungen auf das Unternehmen an.

Vermeiden Sie Alarmermüdung:
+ Reduzieren Sie den Geräuschpegel, indem Sie redundante oder geringwertige Warnmeldungen eliminieren.
+ Korrelieren Sie Warnmeldungen mit gruppenbezogenen Problemen.

Verwenden Sie mehrstufige Warnmeldungen:
+ Implementieren Sie Warnschwellen, bevor kritische Werte erreicht werden.
+ Verwenden Sie unterschiedliche Benachrichtigungskanäle für unterschiedliche Warnschweregrade.

Implementieren Sie die richtige Weiterleitung von Alarmen:
+ Stellen Sie sicher, dass Benachrichtigungen an die richtigen Teams oder Einzelpersonen gesendet werden.
+ Nutzen Sie Bereitschaftszeiten und Rotationen, um den ganzen Tag und jeden Tag abzudecken.

Nutzen Sie native Kubernetes-Metriken:
+ Überwachen Sie die Kernkomponenten von Kubernetes (Knoten, Pods, Dienste).
+ Verwenden Sie [kube-state-metrics (KSM)](https://github.com/kubernetes/kube-state-metrics) für zusätzliche Kubernetes-Objektmetriken.

Überwachen Sie sowohl die Infrastruktur als auch die Anwendungen:
+ Richten Sie Warnmeldungen für den Zustand des Clusters, den Knotenstatus und die Ressourcenauslastung ein.
+ Implementieren Sie anwendungsspezifische Warnmeldungen wie Fehlerraten und Latenz.

Verwenden Sie Prometheus und Alertmanager:
+ Verwenden Sie Prometheus für die Erfassung von Metriken und PromQL, um Alarmbedingungen zu definieren.
+ Verwenden Sie Alertmanager für die Weiterleitung und Deduplizierung von Alarmen.

Integrieren Sie mit Amazon CloudWatch:
+ Verwenden Sie [CloudWatchContainer Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) für Amazon EKS-spezifische Metriken.
+ Richten Sie [CloudWatchAlarme](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) für kritische AWS Ressourcenmetriken ein.

Implementieren Sie kontextreiche Warnmeldungen:
+ Nehmen Sie relevante Informationen wie Clustername, Namespace und Pod-Details in Warnmeldungen auf.
+ Stellen Sie in Warnmeldungen Links zu relevanten Dashboards oder Runbooks bereit.

Verwenden Sie die Erkennung von Anomalien:
+ Implementieren Sie auf maschinellem Lernen basierende Anomalieerkennung für komplexe Muster.
+ Verwenden Sie Dienste wie die Erkennung von CloudWatch Anomalien oder Tools von Drittanbietern.

Implementieren Sie die Unterdrückung und Stummschaltung von Alarmen:
+ Erlaubt die vorübergehende Unterdrückung bekannter Probleme.
+ Implementieren Sie Wartungsfenster, um den Geräuschpegel bei geplanten Ausfallzeiten zu reduzieren.

Überwachen Sie die Leistung von Warnmeldungen:
+ Verfolgen Sie Kennzahlen wie Warnungshäufigkeit, Lösungszeit und Falsch-Positiv-Raten.
+ Überprüfen und verfeinern Sie die Warnregeln regelmäßig auf der Grundlage dieser Kennzahlen.

Implementieren Sie Eskalationsverfahren:
+ Definieren Sie klare Eskalationspfade für ungelöste Alarme.
+ Verwenden Sie Tools wie PagerDuty oder Opsgenie für automatisierte Eskalationen.

Testen Sie die Warnsysteme regelmäßig:
+ Führen Sie regelmäßige Tests Ihrer Alarm-Pipeline durch.
+ Schließen Sie Warntests in Notfallwiederherstellungsübungen ein.

Verwenden Sie Vorlagen für einheitliche Warnmeldungen:
+ Erstellen Sie standardisierte Warnungsvorlagen für gängige Szenarien.
+ Sorgen Sie für eine einheitliche Formatierung und Information in allen Warnmeldungen.

Implementieren Sie eine Ratenbegrenzung:
+ Beugen Sie Stürmen vor, indem Sie eine Ratenbegrenzung für häufig ausgelöste Alarme einrichten.

Verwenden Sie benutzerdefinierte Metriken:
+ Implementieren Sie benutzerdefinierte Metriken für die anwendungsspezifische Überwachung.
+ Verwenden Sie die Kubernetes-API für benutzerdefinierte Metriken für die automatische Skalierung auf der Grundlage dieser Metriken.

Implementieren Sie die Protokollierungsintegration:
+ Korrelieren Sie Warnmeldungen mit relevanten Protokollen, um die Fehlerbehebung zu beschleunigen.
+ Verwenden Sie Tools wie Grafana Loki oder den ELK Stack in Verbindung mit Ihrem Warnsystem.

Ziehen Sie Kostenwarnungen in Betracht:
+ Richten Sie Benachrichtigungen für unerwartete Spitzen beim Ressourcenverbrauch oder bei den Kosten ein.
+ Verwenden Sie Kostenmanagement-Tools [AWS Budgets](https://docs.aws.amazon.com/cost-management/latest/userguide/budgets-managing-costs.html)oder Tools von Drittanbietern.

Verwenden Sie verteiltes Tracing:
+ Integrieren Sie verteilte Tracing-Tools wie Jaeger oder. [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ Richten Sie Warnmeldungen für abnormale Ablaufverfolgungsmuster oder Latenzen ein.

Runbooks für Dokumentwarnungen:
+ Erstellen Sie klare, umsetzbare Runbooks für jeden Warnungstyp.
+ Nehmen Sie Schritte zur Fehlerbehebung und Eskalationsverfahren in Runbooks auf.

Wenn Sie diese bewährten Methoden befolgen, können Sie ein robustes, effizientes und effektives Warnsystem für Ihre Amazon EKS-Umgebung einrichten. Dies trägt dazu bei, eine hohe Verfügbarkeit, eine schnelle Problemlösung und eine optimale Leistung Ihrer Kubernetes-basierten Anwendungen sicherzustellen.