

# OPS 8. Wie nutzen Sie die Überwachbarkeit von Workloads in Ihrer Organisation?
<a name="ops-08"></a>

Sorgen Sie für einen optimalen Zustand des Workloads, indem Sie die Überwachbarkeit nutzen. Nutzen Sie relevante Metriken, Protokolle und Traces, um sich einen umfassenden Überblick über die Leistung Ihres Workloads zu verschaffen und Probleme effizient zu beheben.

**Topics**
+ [OPS08-BP01 Analysieren von Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md)
+ [OPS08-BP02 Analysieren von Workload-Protokollen](ops_workload_observability_analyze_workload_logs.md)
+ [OPS08-BP03 Analysieren von Workload-Traces](ops_workload_observability_analyze_workload_traces.md)
+ [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md)
+ [OPS08-BP05 Erstellen von Dashboards](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Analysieren von Workload-Metriken
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 Analysieren Sie nach der Implementierung der Anwendungstelemetrie regelmäßig die gesammelten Metriken. Latenz, Anfragen, Fehler und Kapazität (oder Kontingente) liefern zwar Erkenntnisse zur Systemleistung, es ist jedoch wichtig, die Überprüfung der Metriken zu Geschäftsergebnissen zu priorisieren. Dadurch wird sichergestellt, dass Sie datengestützte Entscheidungen treffen, die auf Ihre Geschäftsziele abgestimmt sind. 

 **Gewünschtes Ergebnis:** Präzise Erkenntnisse zur Workload-Leistung, die als Grundlage für datengestützte Entscheidungen dienen und die Abstimmung mit den Geschäftszielen sicherstellen. 

 **Typische Anti-Muster:** 
+  Isolierte Analyse von Metriken, ohne deren Auswirkungen auf die Geschäftsergebnisse zu berücksichtigen. 
+  Übermäßiges Vertrauen in technische Metriken, während Geschäftsmetriken ignoriert werden. 
+  Seltene Überprüfung von Metriken, Entscheidungsmöglichkeiten in Echtzeit werden verpasst. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Verbessertes Verständnis des Zusammenhangs zwischen technischer Leistung und Geschäftsergebnissen. 
+  Verbesserter Entscheidungsprozess auf der Grundlage von Echtzeitdaten. 
+  Proaktive Identifizierung und Minderung von Problemen, bevor sie sich auf die Geschäftsergebnisse auswirken. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Nutzen Sie Tools wie Amazon CloudWatch zur Durchführung metrischer Analysen. Sie können AWS-Services wie AWS Cost Anomaly Detection und Amazon DevOps Guru zur Erkennung von Anomalien verwenden, insbesondere wenn statische Schwellenwerte unbekannt sind oder wenn Verhaltensmuster besser für die Erkennung von Anomalien geeignet sind. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Analysieren und überprüfen Sie Metriken:** Überprüfen Sie regelmäßig Ihre Workload-Metriken und werten Sie sie aus. 

   1.  Priorisieren Sie Metriken zu Geschäftsergebnissen gegenüber rein technischen. 

   1.  Machen Sie sich mit der Bedeutung von Spitzen, Rückgängen oder Mustern in Ihren Daten vertraut. 

1.  **Nutzen Sie Amazon CloudWatch:** Verwenden Sie Amazon CloudWatch für eine zentrale Ansicht und detaillierte Analysen. 

   1.  Konfigurieren Sie CloudWatch-Dashboards, um Ihre Metriken zu visualisieren und sie im Zeitverlauf zu vergleichen. 

   1.  Nutzen Sie [Perzentile in CloudWatch,](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) um einen klaren Überblick über die metrische Verteilung zu erhalten, der Ihnen helfen kann, SLAs zu verstehen und einzelne Ausreißer nachzuvollziehen. 

   1.  Richten Sie [AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) ein, um ungewöhnliche Muster zu identifizieren, ohne sich auf statische Schwellenwerte zu verlassen. 

   1.  Implementieren Sie [die kontenübergreifende Beobachtbarkeit mit CloudWatch,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) um Anwendungen zu überwachen und Fehler zu beheben, die mehrere Konten innerhalb einer Region betreffen. 

   1.  Nutzen Sie [CloudWatch Metric Insights,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) um metrische Daten über Konten und Regionen hinweg abzufragen und zu analysieren und Trends und Anomalien zu identifizieren. 

   1.  Wenden Sie [CloudWatch Metric Math an,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) um Ihre Metriken zu transformieren, zu aggregieren oder Berechnungen für den Erhalt tieferer Einblicke durchzuführen. 

1.  **Machen Sie Gebrauch von Amazon DevOps Guru:** Integrieren Sie [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) wegen seiner Machine Learning-gestützten Anomalieerkennung, mit der Sie frühzeitig Anzeichen von Betriebsproblemen Ihrer Serverless-Anwendungen erkennen und diese beheben können, bevor sie sich auf Ihre Kunden auswirken. 

1.  **Optimieren Sie auf der Grundlage von Erkenntnissen: ** Treffen Sie fundierte Entscheidungen auf der Grundlage Ihrer Metrikanalyse, um Ihre Workloads anzupassen und zu verbessern. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Ermitteln wichtiger Leistungskennzahlen](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren einer Anwendungstelemetrie](ops_observability_application_telemetry.md) 

 **Zugehörige Dokumente:** 
+ [ The Wheel Blog - Emphasizing the importance of continually reviewing metrics (Die Bedeutung der kontinuierlichen Überprüfung von Metriken) ](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [ Percentile are important (Perzentile sind wichtig) ](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [ Using AWS Cost Anomaly Detection (Verwendung von AWS Cost Anomaly Detection) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ CloudWatch cross-account observability (kontenübergreifende Beobachtbarkeit mit CloudWatch) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [ Query your metrics with CloudWatch Metrics Insights (Metrikabfrage mit CloudWatch Metrics Insights) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Zugehörige Videos:** 
+ [ Enable Cross-Account Observability in Amazon CloudWatch (Kontenübergreifende Beobachtbarkeit in Amazon CloudWatch aktivieren) ](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [ Introduction to Amazon DevOps Guru (Einführung in Amazon DevOps Guru) ](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [ Continuously Analyze Metrics using AWS Cost Anomaly Detection (Fortlaufende Metrikanalyse mit AWS Cost Anomaly Detection) ](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Zugehörige Beispiele:** 
+ [ Workshop zur Beobachtbarkeit ](https://catalog.workshops.aws/observability/en-US/intro)
+ [ Gaining operation insights with AIOps using Amazon DevOps Guru (Operative Erkenntnisse gewinnen mit AIOps und Amazon DevOps Guru) ](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Analysieren von Workload-Protokollen
<a name="ops_workload_observability_analyze_workload_logs"></a>

 Die regelmäßige Analyse von Workload-Protokollen ist unerlässlich, um ein tieferes Verständnis der operativen Aspekte Ihrer Anwendung zu erlangen. Durch effizientes Durchsuchen, Visualisieren und Interpretieren von Protokolldaten können Sie die Leistung und Sicherheit von Anwendungen kontinuierlich optimieren. 

 **Gewünschtes Ergebnis:** Umfassende Erkenntnisse zum Anwendungsverhalten und zu Operationen, die aus einer gründlichen Protokollanalyse gewonnen wurden und für eine proaktive Problemerkennung und -behebung sorgen. 

 **Typische Anti-Muster:** 
+  Die Analyse von Protokollen vernachlässigen, bis ein kritisches Problem auftritt. 
+  Die Suite verfügbarer Tools für die Protokollanalyse nicht nutzen und wichtige Erkenntnisse verpassen. 
+  Alleiniges Vertrauen auf die manuelle Überprüfung von Protokollen, ohne Automatisierungs- und Abfragefunktionen zu nutzen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Proaktive Identifizierung von operativen Engpässen, Sicherheitsbedrohungen und anderen potenziellen Problemen. 
+  Effiziente Nutzung von Protokolldaten für die kontinuierliche Anwendungsoptimierung. 
+  Verbessertes Verständnis des Anwendungsverhaltens, Unterstützung beim Debuggen und bei der Problembehandlung. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 [Amazon CloudWatch Logs](https://docs.aws.amazon.com/Amazon/latest/logs/WhatIsLogs.html) ist ein leistungsstarkes Tool für die Protokollanalyse. Integrierte Features wie CloudWatch Logs Insights und Contributor Insights sorgen für eine intuitive und effiziente Ableitung aussagekräftiger Informationen aus Protokollen. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Einrichtung von CloudWatch Logs**: Konfigurieren Sie Anwendungen und Services so, dass Protokolle an CloudWatch Logs gesendet werden. 

1.  **Verwendung der Erkennung von Protokollanomalien:** Verwenden Sie die [Amazon CloudWatch Logs-Anomalieerkennung](https://docs.aws.amazon.com/Amazon/latest/logs/LogsAnomalyDetection.html), um ungewöhnliche Protokollmuster automatisch zu identifizieren und Warnmeldungen zu erhalten. Mit diesem Tool können Sie Anomalien in Ihren Protokollen proaktiv verwalten und potenzielle Probleme frühzeitig erkennen. 

1.  **Einrichten von CloudWatch Logs-Insights**: Verwenden Sie [CloudWatch Logs-Insights](https://docs.aws.amazon.com/Amazon/latest/logs/AnalyzingLogData.html), um Ihre Protokolldaten interaktiv zu durchsuchen und zu analysieren. 

   1.  Erstellen Sie Abfragen, um Muster zu extrahieren, Protokolldaten zu visualisieren und umsetzbare Erkenntnisse abzuleiten. 

   1.  Verwenden Sie die [Musteranalyse für CloudWatch Logs-Erkenntnisse](https://docs.aws.amazon.com/Amazon/latest/logs/CWL_AnalyzeLogData_Patterns.html), um häufige Protokollmuster zu analysieren und zu visualisieren. Dieses Feature hilft Ihnen, allgemeine Betriebstrends und potenzielle Ausreißer in Ihren Protokolldaten nachzuvollziehen. 

   1.  Verwenden Sie [CloudWatch Logs compare (diff)](https://docs.aws.amazon.com/Amazon/latest/logs/CWL_AnalyzeLogData_Compare.html), um eine Differenzanalyse zwischen verschiedenen Zeiträumen oder Protokollgruppen vorzunehmen. Verwenden Sie diese Funktion, um Änderungen zu lokalisieren und deren Auswirkungen auf die Leistung oder das Verhalten Ihres Systems zu bewerten. 

1.  **Überwachen Sie Protokolle in Echtzeit mit Live Tail:** Verwenden Sie [Amazon CloudWatch Logs Live Tail](https://docs.aws.amazon.com/Amazon/latest/logs/Logs_LiveTail.html), um Protokolldaten in Echtzeit anzuzeigen. Sie können die Betriebsaktivitäten Ihrer Anwendung in Echtzeit aktiv überwachen, um sich einen unmittelbaren Einblick in die Systemleistung und potenzielle Probleme zu verschaffen. 

1.  **Nutzung von Contributor Insights**: Verwenden Sie [CloudWatch Contributor Insights](https://docs.aws.amazon.com/Amazon/latest/monitoring/ContributorInsights.html), um Top-Talker in Dimensionen mit hoher Kardinalität wie IP-Adressen oder Benutzeragenten zu identifizieren. 

1.  **Implementieren von CloudWatch Logs-Metrikfiltern**: Konfigurieren Sie [CloudWatch Logs-Metrikfilter](https://docs.aws.amazon.com/Amazon/latest/logs/MonitoringLogData.html), um Protokolldaten in umsetzbare Metriken umzuwandeln. Auf diese Weise können Sie Alarme einstellen oder Muster näher analysieren. 

1.  **Implementieren von [kontoübergreifender CloudWatch-Beobachtbarkeit](https://docs.aws.amazon.com/Amazon/latest/monitoring/-Unified-Cross-Account.html):** Überwachen Sie Anwendungen, die sich über mehrere Konten innerhalb einer Region erstrecken, und beheben Sie Fehler. 

1.  **Regelmäßige Überprüfung und Verfeinerung**: Überprüfen Sie regelmäßig Ihre Protokollanalysestrategien, um alle relevanten Informationen zu erfassen und die Anwendungsleistung kontinuierlich zu optimieren. 

 **Aufwand für den Implementierungsplan:** mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Ermitteln wichtiger Leistungskennzahlen](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren einer Anwendungstelemetrie](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Analysieren von Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 

 **Zugehörige Dokumente:** 
+  [Analysieren von Protokolldaten mit CloudWatch Logs Insights](https://docs.aws.amazon.com/Amazon/latest/logs/AnalyzingLogData.html) 
+  [Nutzung von CloudWatch Contributor Insights](https://docs.aws.amazon.com/Amazon/latest/monitoring/ContributorInsights.html) 
+  [Erstellen und Verwalten von CloudWatch Logs-Metrikfiltern](https://docs.aws.amazon.com/Amazon/latest/logs/MonitoringLogData.html) 

 **Zugehörige Videos:** 
+  [Analysieren von Protokolldaten mit CloudWatch Logs Insights](https://www.youtube.com/watch?v=2s2xcwm8QrM) 
+  [Mit CloudWatch Contributor Insights Daten mit hoher Kardinalität analysieren](https://www.youtube.com/watch?v=ErWRBLFkjGI) 

 **Zugehörige Beispiele:** 
+  [CloudWatch Logs-Beispielabfragen](https://docs.aws.amazon.com/Amazon/latest/logs/CWL_QuerySyntax-examples.html) 
+  [Workshop zur Beobachtbarkeit](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP03 Analysieren von Workload-Traces
<a name="ops_workload_observability_analyze_workload_traces"></a>

 Die Analyse von Trace-Daten ist entscheidend, wenn es darum geht, einen umfassenden Überblick über den Betriebsverlauf einer Anwendung zu erhalten. Durch die Visualisierung und das Verständnis der Interaktionen zwischen verschiedenen Komponenten können die Leistung optimiert, Engpässe identifiziert und das Benutzererlebnis verbessert werden. 

 **Gewünschtes Ergebnis:** Sie verschaffen sich einen klaren Überblick über die verteilten Abläufe Ihrer Anwendung und erzielen dadurch eine schnellere Problemlösung und ein verbessertes Benutzererlebnis. 

 **Typische Anti-Muster:** 
+  Trace-Daten werden übersehen und man verlässt sich ausschließlich auf Protokolle und Metriken. 
+  Trace-Daten werden nicht mit zugehörigen Protokollen in Zusammenhang gebracht. 
+  Aus Traces abgeleitete Metriken wie Latenz und Fehlerraten werden ignoriert. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Sie verbessern die Fehlersuche und reduzieren die durchschnittliche Zeit für die Behebung (Mean Time to Resolution, MTTR). 
+  Sie gewinnen Erkenntnisse über Abhängigkeiten und deren Auswirkungen. 
+  Sie können Leistungsprobleme rasch identifizieren und beheben. 
+  Sie nutzen von aus Trace abgeleitete Metriken für fundierte Entscheidungen. 
+  Sie erzielen ein besseres Benutzererlebnis durch optimierte Komponenteninteraktionen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://www.docs.aws.com/xray/latest/devguide/aws-xray.html) bietet eine umfassende Suite für die Analyse von Trace-Daten, die einen ganzheitlichen Überblick über Serviceinteraktionen, die Überwachung von Benutzeraktivitäten und die Erkennung von Leistungsproblemen bietet. Features wie ServiceLens, X-Ray Insights, X-Ray Analytics und Amazon DevOps Guru erhöhen die Tiefe verwertbarer Erkenntnisse, die aus Trace-Daten gewonnen werden. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 Die folgenden Schritte bieten einen strukturierten Ansatz zur effektiven Implementierung der Trace-Datenanalyse mithilfe von AWS-Services: 

1.  **Integrate AWS X-Ray**: Stellen Sie sicher, dass in Ihre Anwendungen X-Ray integriert ist, um Trace-Daten zu erfassen. 

1.  **Analysieren Sie X-Ray Metriken**: Untersuchen Sie anhand von X-Ray Traces abgeleitete Metriken wie Latenz, Anforderungsraten, Fehlerraten und Reaktionszeitverteilungen, und verwenden Sie die [ Service Map](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view), um den Zustand der Anwendung zu überwachen. 

1.  **Verwendung von ServiceLens**: Nutzen Sie die [ServiceLens-Map](https://docs.aws.amazon.com/Amazon/latest/monitoring/servicelens_service_map.html) für eine verbesserte Beobachtbarkeit Ihrer Services und Anwendungen. Dies ermöglicht eine integrierte Anzeige von Traces, Metriken, Protokollen, Alarmen und anderen Statusinformationen. 

1.  **Aktivieren Sie X-Ray Insights**: 

   1.  Aktivieren Sie [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) für die automatische Erkennung von Anomalien in Traces. 

   1.  Untersuchen Sie Erkenntnisse, um Muster zu identifizieren und die Ursachen zu ermitteln, z. B. erhöhte Fehlerraten oder Latenzen. 

   1.  Eine chronologische Analyse der erkannten Probleme finden Sie in der Insights-Timeline. 

1.  **Verwendung von X-Ray Analytics**: [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) ermöglicht es Ihnen, Daten gründlich zu untersuchen, Muster zu lokalisieren und Erkenntnisse zu gewinnen. 

1.  **Verwendung von Gruppen in X-Ray**: Erstellen Sie Gruppen in X-Ray, um Traces nach Kriterien wie hoher Latenz zu filtern und so eine gezieltere Analyse zu ermöglichen. 

1.  **Integration von Amazon DevOps Guru**: Setzen Sie [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) ein, um von Machine-Learning-Modellen zu profitieren, die betriebliche Anomalien in Traces lokalisieren. 

1.  **Verwendung von CloudWatch Synthetics**: Verwenden Sie [CloudWatch Synthetics](https://docs.aws.amazon.com/Amazon/latest/monitoring/_Synthetics_Canaries_tracing.html), um Canaries für die kontinuierliche Überwachung Ihrer Endpunkte und Workflows zu erstellen. Sie können diese Canaries in X-Ray integrieren, um Trace-Daten für eine eingehende Analyse der getesteten Anwendungen bereitzustellen. 

1.  **Verwendung von Real User Monitoring (RUM)**: Mit [AWS X-Ray und CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html) können Sie den Anforderungspfad analysieren und debuggen, angefangen bei den Endbenutzern Ihrer Anwendung bis hin zu nachgelagerten AWS-verwalteten Services. Auf diese Weise können Sie Latenztrends und Fehler identifizieren, die sich auf Ihre Endbenutzer auswirken. 

1.  **Korrelieren mit Protokollen**: Korrelieren Sie [Trace-Daten mit zugehörigen Protokollen](https://docs.aws.amazon.com/Amazon/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) in der X-Ray-Trace-Ansicht, um sich einen detaillierten Überblick über das Anwendungsverhalten zu verschaffen. Auf diese Weise können Sie Protokollereignisse anzeigen, die direkt mit verfolgten Transaktionen verknüpft sind. 

1.  **Implementieren von [kontoübergreifender CloudWatch-Beobachtbarkeit](https://docs.aws.amazon.com/Amazon/latest/monitoring/-Unified-Cross-Account.html):** Überwachen Sie Anwendungen, die sich über mehrere Konten innerhalb einer Region erstrecken, und beheben Sie Fehler. 

 **Aufwand für den Implementierungsplan:** mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS08-BP01 Analysieren von Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analysieren von Workload-Protokollen](ops_workload_observability_analyze_workload_logs.md) 

 **Zugehörige Dokumente:** 
+  [Verwenden von ServiceLens zur Überwachung des Zustands Ihrer Anwendungen](https://docs.aws.amazon.com/Amazon/latest/monitoring/ServiceLens.html) 
+  [Erkunden von Trace-Daten mit X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) 
+  [Mit X-Ray Insights Anomalien in Traces erkennen](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html) 
+  [Fortlaufende Überwachung mit CloudWatch Synthetics](https://docs.aws.amazon.com/Amazon/latest/monitoring/_Synthetics_Canaries.html) 

 **Zugehörige Videos:** 
+  [Analysieren und Debuggen von Anwendungen mithilfe von Amazon CloudWatch Synthetics und AWS X-Ray](https://www.youtube.com/watch?v=s2WvaV2eDO4) 
+  [Nutzung von AWS X-Ray Insights](https://www.youtube.com/watch?v=tl8OWHl6jxw) 

 **Zugehörige Beispiele:** 
+  [Workshop zur Beobachtbarkeit](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Implementieren von X-Ray mit AWS Lambda](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html) 
+  [Vorlagen für CloudWatch Synthetics Canary](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform) 

# OPS08-BP04 Erstellen umsetzbarer Warnmeldungen
<a name="ops_workload_observability_create_alerts"></a>

 Es ist entscheidend, Abweichungen im Verhalten Ihrer Anwendung umgehend zu erkennen und darauf zu reagieren. Besonders wichtig ist es, zu erkennen, wann die auf den wichtigsten Leistungsindikatoren (KPIs) basierenden Ergebnisse gefährdet sind oder unerwartete Anomalien auftreten. Wenn Sie Warnmeldungen auf KPIs basieren, stellen Sie dadurch sicher, dass die Signale, die Sie erhalten, direkt mit geschäftlichen oder betrieblichen Auswirkungen verknüpft sind. Der Ansatz mit umsetzbaren Warnmeldungen fördert proaktive Reaktionen und trägt zur Aufrechterhaltung der Systemleistung und Zuverlässigkeit bei. 

 **Gewünschtes Ergebnis:** Sie erhalten rechtzeitig relevante und umsetzbare Warnmeldungen, um potenzielle Probleme schnell zu erkennen und zu beheben, insbesondere wenn die KPI-Ergebnisse gefährdet sind. 

 **Typische Anti-Muster:** 
+  Es werden zu viele unkritische Warnmeldungen eingerichtet, was zu einer Übermüdung durch Warnmeldungen führt. 
+  Warnmeldungen werden nicht anhand von KPIs priorisiert, was es schwierig macht, die geschäftlichen Auswirkungen von Problemen zu verstehen. 
+  Die eigentlichen Ursachen werden vernachlässigt, was zu wiederholten Warnmeldungen für dasselbe Problem führt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Geringere Ermüdung durch Warnmeldungen durch Fokussierung auf umsetzbare und relevante Warnmeldungen. 
+  Verbesserte Systemverfügbarkeit und -zuverlässigkeit durch proaktive Problemerkennung und -behebung. 
+  Verbesserte Teamzusammenarbeit und schnellere Problemlösung durch die Integration in übliche Warnmeldungs- und Kommunikationstools. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Um einen effektiven Warnmechanismus zu schaffen, ist es wichtig, Metriken, Protokolle und Trace-Daten zu verwenden, die darauf hinweisen, wenn auf KPIs basierende Ergebnisse gefährdet sind oder Anomalien erkannt werden. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Ermitteln von Key Performance Indicators (KPIs)**: Identifizieren Sie die KPIs Ihrer Anwendung. Warnmeldungen sollten mit diesen KPIs verknüpft werden, damit sie die Auswirkungen auf das Unternehmen genau widerspiegeln. 

1.  **Implementierung der Erkennung von Anomalien**: 
   +  **Verwendung der Amazon CloudWatch-Anomalieerkennung**: Richten Sie die [Amazon CloudWatch-Anomalieerkennung](https://docs.aws.amazon.com/Amazon/latest/monitoring/_Anomaly_Detection.html) ein, um ungewöhnliche Muster automatisch zu erkennen, damit Warnmeldungen nur für echte Anomalien generieren werden. 
   +  **Nutzung von AWS X-Ray Insights**: 

     1.  Richten Sie [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) ein, um Anomalien in Trace-Daten zu erkennen. 

     1.  Konfigurieren Sie [Benachrichtigungen für X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications), um bei erkannten Problemen Warnmeldungen zu erhalten. 
   +  **Integration mit Amazon DevOps Guru**: 

     1.  Nutzung von [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) für die Machine-Learning-Fähigkeiten bei der Erkennung betrieblicher Anomalien anhand vorhandener Daten. 

     1.  Navigieren Sie zu den [Benachrichtigungseinstellungen](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) unter DevOps Guru, um Anomaliewarnmeldungen einzurichten. 

1.  **Implementieren umsetzbarer Warnmeldungen**: Entwerfen Sie Warnmeldungen, die angemessene Informationen für sofortige Maßnahmen enthalten. 

   1.  Überwachen Sie [AWS Health-Ereignisse mithilfe von Amazon EventBridge-Regeln](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html) oder integrieren Sie sie programmgesteuert in die AWS Health API, um Aktionen zu automatisieren, wenn Sie AWS Health-Ereignisse erhalten. Dies können allgemeine Aktionen sein, z. B. das Senden aller geplanten Lebenszyklus-Ereignisnachrichten an eine Chat-Oberfläche, oder spezifische Aktionen, wie das Initiieren eines Workflows in einem IT-Servicemanagement-Tool. 

1.  **Reduzieren der Warnmeldungsmüdigkeit**: Minimieren Sie unkritische Warnmeldungen. Wenn Teams mit zahllosen unbedeutenden Warnmeldungen überfordert werden, können sie den Überblick über kritische Probleme verlieren, was die Gesamteffektivität des Warnmechanismus beeinträchtigt. 

1.  **Einrichten von zusammengesetzten Alarmen**: Verwenden Sie [zusammengesetzte Amazon CloudWatch-Alarme](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/), um mehrere Alarme zu kombinieren. 

1.  **Integrieren von Warnmeldungs-Tools**: Integrieren Sie Tools wie [Ops Genie](https://www.atlassian.com/software/opsgenie) und [PagerDuty](https://www.pagerduty.com/). 

1.  **Nutzung von Amazon Q Developer in chat applications**: Integrieren Sie [Amazon Q Developer in chat applications](https://aws.amazon.com/chatbot/), um Warnmeldungen an Amazon Chime, Microsoft Teams und Slack weiterzuleiten. 

1.  **Warnmeldung basierend auf Protokollen**: Verwenden Sie [Protokoll-Metrikfilter](https://docs.aws.amazon.com/Amazon/latest/logs/MonitoringLogData.html) in CloudWatch, um Alarme basierend auf bestimmten Protokollereignissen zu erstellen. 

1.  **Überprüfen und iterieren**: Überprüfen und Sie die Warnkonfigurationen regelmäßig und passen Sie sie an. 

 **Aufwand für den Implementierungsplan:** mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Ermitteln wichtiger Leistungskennzahlen](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren einer Anwendungstelemetrie](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementieren von Telemetrie für Benutzererfahrung](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementieren einer Abhängigkeitstelemetrie](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementieren der verteilten Nachverfolgung](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Analysieren von Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analysieren von Workload-Protokollen](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analysieren von Workload-Traces](ops_workload_observability_analyze_workload_traces.md) 

 **Zugehörige Dokumente:** 
+  [Verwendung von Amazon CloudWatch-Alarmen](https://docs.aws.amazon.com/Amazon/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Erstellung eines zusammengesetzten Alarms](https://docs.aws.amazon.com/Amazon/latest/monitoring/Create_Composite_Alarm.html) 
+  [Erstellung eines CloudWatch-Alarms auf der Grundlage der Anomalieerkennung](https://docs.aws.amazon.com/Amazon/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [DevOps Guru-Benachrichtigungen](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [X-Ray Insights – Benachrichtigungen](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [Überwachung, Betrieb und Fehlerbehebung Ihrer AWS-Ressourcen mit interaktiven ChatOps](https://aws.amazon.com/chatbot/) 
+  [Amazon CloudWatch-Integrationsleitfaden \$1 PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [Integration von OpsGenie mit Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **Zugehörige Videos:** 
+  [Erstellung zusammengesetzter Alarme in Amazon CloudWatch](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [Amazon Q Developer in chat applications Übersicht](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [AWS On Air ft. Veränderliche Befehle in Amazon Q Developer in chat applications](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **Zugehörige Beispiele:** 
+  [Alarme, Vorfallmanagement und Problembehebung in der Cloud mit Amazon CloudWatch](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [Tutorial: Erstellen einer Amazon EventBridge-Regel, die Benachrichtigungen an Amazon Q Developer in chat applications sendet](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [Workshop zur Beobachtbarkeit](https://catalog.workshops.aws/observability/en-US/intro) 

# OPS08-BP05 Erstellen von Dashboards
<a name="ops_workload_observability_create_dashboards"></a>

 Dashboards sind die anwenderorientierte Sicht auf die Telemetriedaten Ihrer Workloads. Sie stellen zwar eine wichtige visuelle Schnittstelle dar, sollten aber nicht als Ersatz, sondern als Ergänzung für Warnmechanismen dienen. Wenn sie sorgfältig zusammengestellt werden, liefern sie nicht nur schnelle Erkenntnisse zum Status und zur Leistung des Systems, sondern bieten Stakeholdern auch Echtzeitinformationen über Geschäftsergebnisse und die Auswirkungen von Problemen. 

 **Gewünschtes Ergebnis:** 

 Klare, umsetzbare Erkenntnisse zur System- und Geschäftsstabilität mithilfe visueller Darstellungen. 

 **Typische Anti-Muster:** 
+  Überkomplizierte Dashboards mit zu vielen Metriken. 
+  Sich auf Dashboards verlassen, ohne Warnmeldungen zur Erkennung von Anomalien zu nutzen. 
+  Fehlende Aktualisierung der Dashboards im Laufe des Workload-Fortschritts. 

 **Vorteile dieser bewährten Methode:** 
+  Sofortiger Einblick in wichtige Systemmetriken und KPIs. 
+  Verbesserte Kommunikation und mehr Verständnis unter den Interessengruppen. 
+  Rasche Erkenntnisse zu den Auswirkungen operativer Probleme. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 **Geschäftsorientierte Dashboards** 

 Dashboards, die auf Geschäfts-KPIs zugeschnitten sind, sprechen ein breiteres Spektrum von Stakeholdern an. Auch wenn diese Personen vielleicht nicht an Systemmetriken interessiert sind, haben sie dennoch großes Interesse daran, die geschäftlichen Auswirkungen dieser Zahlen zu verstehen. Ein geschäftsorientiertes Dashboard stellt sicher, dass alle technischen und betrieblichen Metriken, die überwacht und analysiert werden, auf die übergeordneten Geschäftsziele ausgerichtet sind. Diese Ausrichtung sorgt für Klarheit und stellt sicher, dass alle gleich darüber informiert sind, was wichtig ist und was nicht. Darüber hinaus sind Dashboards, die Geschäfts-KPIs hervorheben, in der Regel leichter umzusetzen. Sie bieten Stakeholdern die Möglichkeit, in kürzester Zeit den Status der Abläufe, die Bereiche, die Aufmerksamkeit erfordern, und die potenziellen Auswirkungen auf die Geschäftsergebnisse zu verstehen. 

 Vor diesem Hintergrund sollten Sie bei der Erstellung Ihrer Dashboards sicherstellen, dass ein Gleichgewicht zwischen technischen Metriken und Geschäfts-KPIs besteht. Beide sind wichtig, richten sich aber an unterschiedliche Zielgruppen. Idealerweise sollten Sie über Dashboards verfügen, die einen ganzheitlichen Überblick über den Status und die Leistung des Systems bieten und gleichzeitig wichtige Geschäftsergebnisse und deren Auswirkungen hervorheben. 

 Amazon CloudWatch-Dashboards sind anpassbare Startseiten in der CloudWatch-Konsole zur Überwachung Ihrer Ressourcen in einer einzigen Ansicht, auch wenn sie über verschiedene AWS-Regionen und Konten verteilt sind. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Erstellen eines einfachen Dashboards:** [Erstellen Sie ein neues Dashboard in CloudWatch](https://docs.aws.amazon.com/Amazon/latest/monitoring/create_dashboard.html) und geben Sie ihm einen aussagekräftigen Namen. 

1.  **Verwenden von Markdown-Widgets:** Bevor Sie sich mit den Metriken befassen, [ verwenden Sie Markdown-Widgets](https://docs.aws.amazon.com/Amazon/latest/monitoring/add_remove_text_dashboard.html), um oben in Ihrem Dashboard inhaltlichen Kontext hinzuzufügen. Dieser sollte den Inhalt des Dashboards beschreiben und angeben, welche Bedeutung den dargestellten Metriken zukommt. Er kann auch Links zu anderen Dashboards und Tools zur Fehlerbehebung enthalten. 

1.  **Erstellen von Dashboard-Variablen:** [ Integrieren Sie gegebenenfalls Dashboard-Variablen](https://docs.aws.amazon.com/Amazon/latest/monitoring/cloudwatch_dashboard_variables.html), um dynamische und flexible Dashboard-Ansichten zu ermöglichen. 

1.  **Erstellung von Metrik-Widgets:** [Fügen Sie Metrik-Widgets hinzu,](https://docs.aws.amazon.com/Amazon/latest/monitoring/create-and-work-with-widgets.html) um verschiedene Metriken zu visualisieren, die Ihre Anwendung ausgibt, und passen Sie diese Widgets so an, dass sie den Systemstatus und die Geschäftsergebnisse effektiv darstellen. 

1.  **Protokollieren von Insights-Abfragen:** Nutzen Sie [ CloudWatch Log Insights](https://docs.aws.amazon.com/Amazon/latest/logs/CWL_ExportQueryResults.html), um aus Ihren Protokollen umsetzbare Metriken abzuleiten und diese Erkenntnisse in Ihrem Dashboard anzuzeigen. 

1.  **Einrichten von Alarmen:** Integrieren Sie [CloudWatch-Alarme](https://docs.aws.amazon.com/Amazon/latest/monitoring/add_remove_alarm_dashboard.html) in Ihr Dashboard, um sich einen schnellen Überblick über alle Metriken zu verschaffen, die ihre Schwellenwerte überschreiten. 

1.  **Verwenden von Contributor Insights:** Integrieren Sie [CloudWatch Contributor Insights](https://docs.aws.amazon.com/Amazon/latest/monitoring/ContributorInsights-ViewReports.html), um Felder mit hoher Kardinalität zu analysieren und die besten Mitarbeiter Ihrer Ressource zu identifizieren. 

1.  **Entwerfen benutzerdefinierter Widgets:** Erwägen Sie die Erstellung von [ benutzerdefinierten Widgets](https://docs.aws.amazon.com/Amazon/latest/monitoring/add_custom_widget_dashboard.html) für spezielle Anforderungen, die von Standard-Widgets nicht erfüllt werden. Diese können Daten aus verschiedenen Quellen abrufen oder sie auf einzigartige Weise darstellen. 

1.  **Verwendung von AWS Health Dashboard:** Verwenden Sie [AWS Health Dashboard](https://docs.aws.amazon.com/health/latest/ug/getting-started-health-dashboard.html), um detailliertere Einblicke in den Zustand Ihres Kontos, in Ereignisse und bevorstehende Änderungen zu erhalten, die sich auf Ihre Services und Ressourcen auswirken könnten. Sie können auch eine zentrale Übersicht über Statusereignisse in AWS Organizations abrufen oder Ihre eigenen benutzerdefinierten Dashboards erstellen (weitere Informationen finden Sie unter „Verwandte Beispiele“). 

1.  **Iteration und Anpassung:** Im Laufe der Entwicklung Ihrer Anwendung sollten Sie Ihr Dashboard regelmäßig überprüfen, um sicherzustellen, dass es weiterhin relevant ist. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Ermitteln wichtiger Leistungskennzahlen](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Analysieren von Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analysieren von Workload-Protokollen](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analysieren von Workload-Traces](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 

 **Zugehörige Dokumente:** 
+  [Erstellung von Dashboards für operative Sichtbarkeit](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/) 
+  [Verwendung von Amazon CloudWatch-Dashboards](https://docs.aws.amazon.com/Amazon/latest/monitoring/_Dashboards.html) 

 **Zugehörige Videos:** 
+  [Erstellung von konto- und regionenübergreifenden CloudWatch-Dashboards](https://www.youtube.com/watch?v=eIUZdaqColg) 
+  [AWS re:Invent 2021 – Mehr Unternehmenstransparenz mit geschäftsorientierten AWS Cloud-Dashboards](https://www.youtube.com/watch?v=NfMpYiGwPGo) 

 **Zugehörige Beispiele:** 
+  [Workshop zur Beobachtbarkeit](https://catalog.workshops.aws/observability/en-US/intro) 
+  [Anwendungsüberwachung mit Amazon CloudWatch](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/) 
+  [Intelligence Dashboards und Erkenntnisse zu AWS Health-Ereignissen](https://aws.amazon.com/blogs/mt/aws-health-events-intelligence-dashboards-insights/) 
+  [Visualisieren Sie AWS Health-Ereignisse mit Amazon Managed Grafana](https://aws.amazon.com/blogs/mt/visualize-aws-health-events-using-amazon-managed-grafana/) 