

# Betrieb
<a name="a-operate"></a>

**Topics**
+ [OPS 8. Wie nutzen Sie die Überwachbarkeit von Workloads in Ihrer Organisation?](ops-08.md)
+ [OPS 9. Wie können Sie den Zustand Ihrer Operationen beurteilen?](ops-09.md)
+ [OPS 10. Wie bewältigen Sie Workload- und operationsspezifische Ereignisse?](ops-10.md)

# OPS 8. Wie nutzen Sie die Überwachbarkeit von Workloads in Ihrer Organisation?
<a name="ops-08"></a>

Sorgen Sie für einen optimalen Zustand des Workloads, indem Sie die Überwachbarkeit nutzen. Nutzen Sie relevante Metriken, Protokolle und Traces, um sich einen umfassenden Überblick über die Leistung Ihres Workloads zu verschaffen und Probleme effizient zu beheben.

**Topics**
+ [OPS08-BP01 Analysieren von Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md)
+ [OPS08-BP02 Analysieren von Workload-Protokollen](ops_workload_observability_analyze_workload_logs.md)
+ [OPS08-BP03 Analysieren von Workload-Traces](ops_workload_observability_analyze_workload_traces.md)
+ [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md)
+ [OPS08-BP05 Dashboards erstellen](ops_workload_observability_create_dashboards.md)

# OPS08-BP01 Analysieren von Workload-Metriken
<a name="ops_workload_observability_analyze_workload_metrics"></a>

 Analysieren Sie nach der Implementierung der Anwendungstelemetrie regelmäßig die gesammelten Metriken. Latenz, Anfragen, Fehler und Kapazität (oder Kontingente) liefern zwar Erkenntnisse zur Systemleistung, es ist jedoch wichtig, die Überprüfung der Metriken zu Geschäftsergebnissen zu priorisieren. Dadurch wird sichergestellt, dass Sie datengestützte Entscheidungen treffen, die auf Ihre Geschäftsziele abgestimmt sind. 

 **Gewünschtes Ergebnis:** Präzise Erkenntnisse zur Workload-Leistung, die als Grundlage für datengestützte Entscheidungen dienen und die Abstimmung mit den Geschäftszielen sicherstellen. 

 **Typische Anti-Muster:** 
+  Isolierte Analyse von Metriken, ohne deren Auswirkungen auf die Geschäftsergebnisse zu berücksichtigen. 
+  Übermäßiges Vertrauen in technische Metriken, während Geschäftsmetriken ignoriert werden. 
+  Seltene Überprüfung von Metriken, Entscheidungsmöglichkeiten in Echtzeit werden verpasst. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Verbessertes Verständnis des Zusammenhangs zwischen technischer Leistung und Geschäftsergebnissen. 
+  Verbesserter Entscheidungsprozess auf der Grundlage von Echtzeitdaten. 
+  Proaktive Identifizierung und Minderung von Problemen, bevor sie sich auf die Geschäftsergebnisse auswirken. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Nutzen Sie Tools wie Amazon CloudWatch zur Durchführung metrischer Analysen. Sie können AWS-Services wie AWS Cost Anomaly Detection und Amazon DevOps Guru zur Erkennung von Anomalien verwenden, insbesondere wenn statische Schwellenwerte unbekannt sind oder wenn Verhaltensmuster besser für die Erkennung von Anomalien geeignet sind. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Analysieren und überprüfen Sie Metriken:** Überprüfen Sie regelmäßig Ihre Workload-Metriken und werten Sie sie aus. 

   1.  Priorisieren Sie Metriken zu Geschäftsergebnissen gegenüber rein technischen. 

   1.  Machen Sie sich mit der Bedeutung von Spitzen, Rückgängen oder Mustern in Ihren Daten vertraut. 

1.  **Nutzen Sie Amazon CloudWatch:** Verwenden Sie Amazon CloudWatch für eine zentrale Ansicht und detaillierte Analysen. 

   1.  Konfigurieren Sie CloudWatch-Dashboards, um Ihre Metriken zu visualisieren und sie im Zeitverlauf zu vergleichen. 

   1.  Nutzen Sie [Perzentile in CloudWatch,](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/) um einen klaren Überblick über die metrische Verteilung zu erhalten, der Ihnen helfen kann, SLAs zu verstehen und einzelne Ausreißer nachzuvollziehen. 

   1.  Richten Sie [AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) ein, um ungewöhnliche Muster zu identifizieren, ohne sich auf statische Schwellenwerte zu verlassen. 

   1.  Implementieren Sie [die kontenübergreifende Beobachtbarkeit mit CloudWatch,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html) um Anwendungen zu überwachen und Fehler zu beheben, die mehrere Konten innerhalb einer Region betreffen. 

   1.  Nutzen Sie [CloudWatch Metric Insights,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) um metrische Daten über Konten und Regionen hinweg abzufragen und zu analysieren und Trends und Anomalien zu identifizieren. 

   1.  Wenden Sie [CloudWatch Metric Math an,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) um Ihre Metriken zu transformieren, zu aggregieren oder Berechnungen für den Erhalt tieferer Einblicke durchzuführen. 

1.  **Machen Sie Gebrauch von Amazon DevOps Guru:** Integrieren Sie [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) wegen seiner Machine Learning-gestützten Anomalieerkennung, mit der Sie frühzeitig Anzeichen von Betriebsproblemen Ihrer Serverless-Anwendungen erkennen und diese beheben können, bevor sie sich auf Ihre Kunden auswirken. 

1.  **Optimieren Sie auf der Grundlage von Erkenntnissen: ** Treffen Sie fundierte Entscheidungen auf der Grundlage Ihrer Metrikanalyse, um Ihre Workloads anzupassen und zu verbessern. 

 **Aufwand für den Implementierungsplan:** Mittel 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Ermitteln wichtiger Leistungskennzahlen](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren einer Anwendungstelemetrie](ops_observability_application_telemetry.md) 

 **Zugehörige Dokumente:** 
+ [ The Wheel Blog - Emphasizing the importance of continually reviewing metrics (Die Bedeutung der kontinuierlichen Überprüfung von Metriken) ](https://aws.amazon.com/blogs/opensource/the-wheel/)
+ [ Percentile are important (Perzentile sind wichtig) ](https://aws-observability.github.io/observability-best-practices/guides/operational/business/sla-percentile/)
+ [ Using AWS Cost Anomaly Detection (Verwendung von AWS Cost Anomaly Detection) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)
+ [ CloudWatch cross-account observability (kontenübergreifende Beobachtbarkeit mit CloudWatch) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Unified-Cross-Account.html)
+ [ Query your metrics with CloudWatch Metrics Insights (Metrikabfrage mit CloudWatch Metrics Insights) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html)

 **Zugehörige Videos:** 
+ [ Enable Cross-Account Observability in Amazon CloudWatch (Kontenübergreifende Beobachtbarkeit in Amazon CloudWatch aktivieren) ](https://www.youtube.com/watch?v=lUaDO9dqISc)
+ [ Introduction to Amazon DevOps Guru (Einführung in Amazon DevOps Guru) ](https://www.youtube.com/watch?v=2uA8q-8mTZY)
+ [ Continuously Analyze Metrics using AWS Cost Anomaly Detection (Fortlaufende Metrikanalyse mit AWS Cost Anomaly Detection) ](https://www.youtube.com/watch?v=IpQYBuay5OE)

 **Zugehörige Beispiele:** 
+ [ Workshop zur Beobachtbarkeit ](https://catalog.workshops.aws/observability/en-US/intro)
+ [ Gaining operation insights with AIOps using Amazon DevOps Guru (Operative Erkenntnisse gewinnen mit AIOps und Amazon DevOps Guru) ](https://catalog.us-east-1.prod.workshops.aws/workshops/f92df379-6add-4101-8b4b-38b788e1222b/en-US)

# OPS08-BP02 Analysieren von Workload-Protokollen
<a name="ops_workload_observability_analyze_workload_logs"></a>

 Die regelmäßige Analyse von Workload-Protokollen ist unerlässlich, um ein tieferes Verständnis der operativen Aspekte Ihrer Anwendung zu erlangen. Durch effizientes Durchsuchen, Visualisieren und Interpretieren von Protokolldaten können Sie die Leistung und Sicherheit von Anwendungen kontinuierlich optimieren. 

 **Gewünschtes Ergebnis:** Umfassende Erkenntnisse zum Anwendungsverhalten und zu Operationen, die aus einer gründlichen Protokollanalyse gewonnen wurden und für eine proaktive Problemerkennung und -behebung sorgen. 

 **Typische Anti-Muster:** 
+ Die Analyse von Protokollen vernachlässigen, bis ein kritisches Problem auftritt.
+ Die Suite verfügbarer Tools für die Protokollanalyse nicht nutzen und wichtige Erkenntnisse verpassen.
+  Sich ausschließlich auf die manuelle Überprüfung von Protokollen verlassen, ohne Automatisierungs- und Abfragefunktionen zu nutzen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+ Proaktive Identifizierung von operativen Engpässen, Sicherheitsbedrohungen und anderen potenziellen Problemen.
+ Effiziente Nutzung von Protokolldaten für die kontinuierliche Anwendungsoptimierung.
+  Verbessertes Verständnis des Anwendungsverhaltens, Unterstützung beim Debuggen und bei der Problembehandlung. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 [Amazon CloudWatch Logs](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/WhatIsCloudWatchLogs.html) ist ein leistungsstarkes Tool für die Protokollanalyse. Integrierte Funktionen wie CloudWatch Logs Insights und Contributor Insights machen das Ableiten aussagekräftiger Informationen aus Protokollen intuitiv und effizient. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **CloudWatch Logs einrichten:** Konfigurieren Sie Anwendungen und Services so, dass Protokolle an CloudWatch Logs gesendet werden. 

1.  **CloudWatch Logs Insights einrichten:** Verwenden Sie [CloudWatch Logs Insights,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) um Ihre Protokolldaten interaktiv zu durchsuchen und zu analysieren. 

   1.  Erstellen Sie Abfragen, um Muster zu extrahieren, Protokolldaten zu visualisieren und umsetzbare Erkenntnisse abzuleiten. 

1.  **Erkenntnisse von Mitwirkenden nutzen:** Verwenden Sie [CloudWatch Contributor Insights,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html) um Top-Talker in Dimensionen mit hoher Kardinalität wie IP-Adressen oder Benutzeragenten zu identifizieren. 

1.  **CloudWatch Logs-Metrikfilter implementieren:** Konfigurieren Sie [metrische CloudWatch-Protokollfilter](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) um Protokolldaten in umsetzbare Metriken zu konvertieren. Auf diese Weise können Sie Alarme einstellen oder Muster näher analysieren. 

1.  **Regelmäßige Überprüfung und Verfeinerung:** Überprüfen Sie regelmäßig Ihre Protokollanalysestrategien, um alle relevanten Informationen zu erfassen und die Anwendungsleistung kontinuierlich zu optimieren. 

 **Aufwand für den Implementierungsplan:** Mittel. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Ermitteln wichtiger Leistungskennzahlen](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren einer Anwendungstelemetrie](ops_observability_application_telemetry.md) 
+  [OPS08-BP01 Analysieren von Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 

 **Zugehörige Dokumente:** 
+ [ Analyzing Log Data with CloudWatch Logs Insights (Analysieren von Protokolldaten mit CloudWatch Logs Insights) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html)
+ [ Using CloudWatch Contributor Insights (Nutzung von CloudWatch Contributor Insights) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights.html)
+ [ Creating and Managing CloudWatch Logs Log Metric Filters (Erstellen und Verwalten von CloudWatch Logs-Metrikfiltern) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html)

 **Zugehörige Videos:** 
+ [ Analyze Log Data with CloudWatch Logs Insights (Analysieren von Protokolldaten mit CloudWatch Logs Insights) ](https://www.youtube.com/watch?v=2s2xcwm8QrM)
+ [ Use CloudWatch Contributor Insights to Analyze High-Cardinality Data (Mit CloudWatch Contributor Insights Daten mit hoher Kardinalität analysieren) ](https://www.youtube.com/watch?v=ErWRBLFkjGI)

 **Zugehörige Beispiele:** 
+ [ CloudWatch Logs-Beispielabfragen ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_QuerySyntax-examples.html)
+ [ Workshop zur Beobachtbarkeit ](https://catalog.workshops.aws/observability/en-US/intro)

# OPS08-BP03 Analysieren von Workload-Traces
<a name="ops_workload_observability_analyze_workload_traces"></a>

 Die Analyse von Trace-Daten ist entscheidend, wenn es darum geht, einen umfassenden Überblick über den Betriebsverlauf einer Anwendung zu erhalten. Durch die Visualisierung und das Verständnis der Interaktionen zwischen verschiedenen Komponenten können die Leistung optimiert, Engpässe identifiziert und die Benutzererfahrung verbessert werden. 

 **Gewünschtes Ergebnis:** Sie verschaffen sich einen klaren Überblick über die verteilten Abläufe Ihrer Anwendung und erzielen dadurch eine schnellere Problemlösung und eine verbesserte Benutzererfahrung. 

 **Typische Anti-Muster:** 
+  Trace-Daten werden übersehen und man verlässt sich ausschließlich auf Protokolle und Metriken. 
+  Trace-Daten werden nicht mit zugehörigen Protokollen in Zusammenhang gebracht. 
+  Aus Traces abgeleitete Metriken wie Latenz und Fehlerraten werden ignoriert. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Sie verbessern die Fehlersuche und reduzieren die durchschnittliche Zeit für die Behebung (Mean Time to Resolution, MTTR). 
+  Sie gewinnen Erkenntnisse über Abhängigkeiten und deren Auswirkungen. 
+  Sie können Leistungsprobleme rasch identifizieren und beheben. 
+  Sie nutzen von aus Trace abgeleitete Metriken für fundierte Entscheidungen. 
+  Sie erzielen ein besseres Benutzererlebnis durch optimierte Komponenteninteraktionen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html) bietet eine umfassende Suite für die Analyse von Trace-Daten, die einen ganzheitlichen Überblick über Serviceinteraktionen, die Überwachung von Benutzeraktivitäten und die Erkennung von Leistungsproblemen bietet. Funktionen wie ServiceLens, X-Ray Insights, X-Ray Analytics und Amazon DevOps Guru erhöhen die Tiefe verwertbarer Erkenntnisse, die aus Trace-Daten gewonnen werden. 

### Implementierungsschritte
<a name="implementation-steps"></a>

 Die folgenden Schritte bieten einen strukturierten Ansatz zur effektiven Implementierung der Trace-Datenanalyse mithilfe von AWS-Services: 

1.  **Integrieren Sie AWS X-Ray:** Stellen Sie sicher, dass X-Ray in Ihre Anwendungen integriert ist, um Trace-Daten zu erfassen. 

1.  **Analysieren Sie X-Ray-Metriken:** Untersuchen Sie anhand von X-Ray-Traces abgeleitete Metriken wie Latenz, Anfrageraten, Fehlerraten und Antwortzeitverteilungen mithilfe der [Service-Karte,](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-servicemap.html#xray-console-servicemap-view) um den Status der Anwendung zu überwachen. 

1.  **Verwenden Sie ServiceLens:** Nutzen Sie die [ServiceLens-Karte](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_service_map.html) für eine verbesserte Beobachtbarkeit Ihrer Services und Anwendungen. Dies ermöglicht eine integrierte Anzeige von Traces, Metriken, Protokollen, Alarmen und anderen Statusinformationen. 

1.  **Aktivieren Sie X-Ray Insights:** 

   1.  Aktivieren Sie die [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) zur automatisierten Erkennung von Anomalien in Traces. 

   1.  Untersuchen Sie Erkenntnisse, um Muster zu identifizieren und die Ursachen zu ermitteln, z. B. erhöhte Fehlerraten oder Latenzen. 

   1.  Eine chronologische Analyse der erkannten Probleme finden Sie in der Insights-Timeline. 

1.  **Verwenden Sie X-Ray Analytics:** [X-Ray Analytics](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html) ermöglicht es Ihnen, Daten gründlich zu untersuchen, Muster zu lokalisieren und Erkenntnisse zu gewinnen. 

1.  **Verwenden Sie Gruppen in X-Ray:** Erstellen Sie Gruppen in X-Ray, um Traces nach Kriterien wie hoher Latenz zu filtern und so eine gezieltere Analyse zu ermöglichen. 

1.  **Nutzen Sie Amazon DevOps Guru:** Setzen Sie [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) ein, um von Machine Learning-Modellen zu profitieren, die betriebliche Anomalien in Traces lokalisieren. 

1.  **Verwenden Sie CloudWatch Synthetics:** Nutzen Sie [CloudWatch Synthetics,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_tracing.html) um Canaries für die kontinuierliche Überwachung Ihrer Endgeräte und Workflows zu erstellen. Sie können diese Canaries in X-Ray integrieren, um Trace-Daten für eine eingehende Analyse der getesteten Anwendungen bereitzustellen. 

1.  **Verwenden Sie Real User Monitoring (RUM):** Mit [AWS X-Ray und CloudWatch RUM](https://docs.aws.amazon.com/xray/latest/devguide/xray-services-RUM.html)können Sie den Anforderungspfad ausgehend von den Endbenutzern Ihrer Anwendung über nachgelagerte AWS Managed Services analysieren und debuggen. Auf diese Weise können Sie Latenztrends und Fehler identifizieren, die sich auf Ihre Benutzer auswirken. 

1.  **Korrelieren Sie Daten mit Protokollen:** Bringen Sie [Trace-Daten mit zugehörigen Protokollen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/servicelens_troubleshooting.html#servicelens_troubleshooting_Nologs) innerhalb der X-Ray Trace-Ansicht in Zusammenhang, um eine detaillierte Perspektive auf das Anwendungsverhalten zu erhalten. Auf diese Weise können Sie Protokollereignisse anzeigen, die direkt mit verfolgten Transaktionen verknüpft sind. 

 **Aufwand für den Implementierungsplan:** Mittel. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS08-BP01 Analysieren von Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analysieren von Workload-Protokollen](ops_workload_observability_analyze_workload_logs.md) 

 **Zugehörige Dokumente:** 
+ [ Using ServiceLens to Monitor Application Health (Verwenden von ServiceLens zur Überwachung des Zustands Ihrer Anwendungen) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ServiceLens.html)
+ [ Exploring Trace Data with X-Ray Analytics (Erkunden von Trace-Daten mit X-Ray Analytics) ](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-analytics.html)
+ [ Detecting Anomalies in Traces with X-Ray Insights (Mit X-Ray Insights Anomalien in Traces erkennen) ](https://docs.aws.amazon.com/xray/latest/devguide/xray-insights.html)
+ [ Continuous Monitoring with CloudWatch Synthetics (Fortlaufende Überwachung mit CloudWatch Synthetics) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html)

 **Zugehörige Videos:** 
+ [ Analyze and Debug Applications Using Amazon CloudWatch Synthetics and AWS X-Ray (Analysieren und Debuggen von Anwendungen mithilfe von Amazon CloudWatch Synthetics und AWS X-Ray) ](https://www.youtube.com/watch?v=s2WvaV2eDO4)
+ [ Use AWS X-Ray Insights (Nutzung von AWS X-Ray-Insights) ](https://www.youtube.com/watch?v=tl8OWHl6jxw)

 **Zugehörige Beispiele:** 
+ [ Workshop zur Beobachtbarkeit ](https://catalog.workshops.aws/observability/en-US/intro)
+ [ Implementing X-Ray with AWS Lambda (Implementieren von X-Ray mit AWS Lambda) ](https://docs.aws.amazon.com/lambda/latest/dg/services-xray.html)
+ [ Vorlagen für CloudWatch Synthetics-Canaries ](https://github.com/aws-samples/cloudwatch-synthetics-canary-terraform)

# OPS08-BP04 Erstellen umsetzbarer Warnmeldungen
<a name="ops_workload_observability_create_alerts"></a>

 Es ist entscheidend, Abweichungen im Verhalten Ihrer Anwendung umgehend zu erkennen und darauf zu reagieren. Besonders wichtig ist es, zu erkennen, wann die auf den wichtigsten Leistungsindikatoren (KPIs) basierenden Ergebnisse gefährdet sind oder unerwartete Anomalien auftreten. Wenn Sie Warnmeldungen auf KPIs basieren, stellen Sie dadurch sicher, dass die Signale, die Sie erhalten, direkt mit geschäftlichen oder betrieblichen Auswirkungen verknüpft sind. Der Ansatz mit umsetzbaren Warnmeldungen fördert proaktive Reaktionen und trägt zur Aufrechterhaltung der Systemleistung und Zuverlässigkeit bei. 

 **Gewünschtes Ergebnis:** Sie erhalten rechtzeitig relevante und umsetzbare Benachrichtigungen, um potenzielle Probleme schnell zu erkennen und zu beheben, insbesondere wenn die KPI-Ergebnisse gefährdet sind. 

 **Typische Anti-Muster:** 
+  Es werden zu viele unkritische Warnmeldungen eingerichtet, was zu einer Übermüdung der Warnmeldungen führt. 
+  Warnmeldungen werden nicht anhand von KPIs priorisiert, was es schwierig macht, die geschäftlichen Auswirkungen von Problemen zu verstehen. 
+  Die eigentlichen Ursachen werden vernachlässigt, was zu wiederholten Warnmeldungen für dasselbe Problem führt. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Geringere Alarmermüdung durch Fokussierung auf umsetzbare und relevante Warnmeldungen. 
+  Verbesserte Systemverfügbarkeit und -zuverlässigkeit durch proaktive Problemerkennung und -behebung. 
+  Verbesserte Teamzusammenarbeit und schnellere Problemlösung durch die Integration in übliche Alarmierungs- und Kommunikationstools. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Um einen effektiven Warnmechanismus zu schaffen, ist es wichtig, Metriken, Protokolle und Trace-Daten zu verwenden, die darauf hinweisen, wenn auf KPIs basierende Ergebnisse gefährdet sind oder Anomalien erkannt werden. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Legen Sie die wichtigsten Leistungskennzahlen (KPIs) fest:** Identifizieren Sie die KPIs Ihrer Anwendung. Warnmeldungen sollten mit diesen KPIs verknüpft werden, damit sie die Auswirkungen auf das Unternehmen genau widerspiegeln. 

1.  **Implementieren Sie die Erkennung von Anomalien:** 
   +  **Verwenden Sie AWS Cost Anomaly Detection:** Richten Sie [AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) ein, damit ungewöhnliche Muster automatisch erkannt werden und sichergestellt wird, dass Warnmeldungen nur bei echten Anomalien generiert werden. 
   +  **Nutzen Sie X-Ray Insights:** 

     1.  Richten Sie [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) ein, um Anomalien in Trace-Daten zu erkennen. 

     1.  Konfigurieren Sie [Benachrichtigungen für X-Ray Insights,](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) damit Sie bei erkannten Problemen gewarnt werden. 
   +  **Verwenden Sie DevOps Guru:** 

     1.  Nutzen Sie die Machine Learning-Fähigkeiten von [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) für die Erkennung betrieblicher Anomalien anhand vorhandener Daten. 

     1.  Navigieren Sie zu den [Benachrichtigungseinstellungen](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) in DevOps Guru, um Anomaliewarnungen einzurichten. 

1.  **Implementieren Sie umsetzbare Warnmeldungen:** Entwerfen Sie Warnmeldungen, die angemessene Informationen für sofortige Maßnahmen liefern. 

1.  **Reduzieren Sie Alarmermüdung:** Minimieren Sie die Zahl der Warnmeldungen, die nicht kritisch sind. Wenn Teams mit einer zu großen Zahl an unbedeutenden Warnmeldungen überhäuft werden, kann dies dazu führen, dass sie kritische Probleme übersehen und der Warnmechanismus allgemein an Effektivität verliert. 

1.  **Richten Sie zusammengesetzte Alarme ein:** Verwenden Sie [zusammengesetzte Amazon CloudWatch-Alarme,](https://aws.amazon.com/blogs/mt/improve-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) um mehrere Alarme zu konsolidieren. 

1.  **Ermöglichen Sie Alarm-Tools:** Integrieren Sie Tools wie [Ops Genie](https://www.atlassian.com/software/opsgenie) und [PagerDuty](https://www.pagerduty.com/). 

1.  **Nutzen Sie Amazon Q Developer in chat applications:** Setzen Sie [Amazon Q Developer in chat applications](https://aws.amazon.com/chatbot/)ein, um Warnmeldungen an Chime, Microsoft Teams und Slack weiterzuleiten. 

1.  **Stützen Sie Warnungen auf Protokollen:** Verwenden Sie [metrische Protokollfilter](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) in CloudWatch, um Alarme auf der Grundlage bestimmter Protokollereignisse zu erstellen. 

1.  **Überprüfen und wiederholen:** Überprüfen und verfeinern Sie die Warnkonfigurationen regelmäßig. 

 **Aufwand für den Implementierungsplan:** Mittel. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Ermitteln wichtiger Leistungskennzahlen](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementieren einer Anwendungstelemetrie](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 Implementieren von Telemetrie für Benutzererfahrung](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 Implementieren einer Abhängigkeitstelemetrie](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 Implementieren der verteilten Nachverfolgung](ops_observability_dist_trace.md) 
+  [OPS08-BP01 Analysieren von Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analysieren von Workload-Protokollen](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analysieren von Workload-Traces](ops_workload_observability_analyze_workload_traces.md) 

 **Zugehörige Dokumente:** 
+ [ Using Amazon CloudWatch Alarms (Verwenden von Amazon CloudWatch-Alarmen) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ Create a composite alarm (Erstellung eines zusammengesetzten Alarms) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html)
+ [ Create a CloudWatch alarm based on anomaly detection (Erstellung eines CloudWatch-Alarms auf der Grundlage der Anomalieerkennung) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html)
+ [ DevOps Guru Notifications (DevOps Guru-Benachrichtigungen) ](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html)
+ [ X-Ray Insights notifications (X-Ray Insights--Benachrichtigungen) ](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications)
+ [ Monitor, operate, and troubleshoot your AWS resources with interactive ChatOps (Überwachung, Betrieb und Fehlerbehebung Ihrer AWS-Ressourcen mit interaktiven ChatOps) ](https://aws.amazon.com/chatbot/)
+ [ Amazon CloudWatch-Integrationsleitfaden \$1 PagerDuty ](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide)
+ [ Integrate OpsGenie with Amazon CloudWatch (Integration von OpsGenie in Amazon CloudWatch) ](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/)

 **Zugehörige Videos:** 
+ [ Create Composite Alarms in Amazon CloudWatch (Erstellung zusammengesetzter Alarme in Amazon CloudWatch) ](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY)
+ [ Amazon Q Developer in chat applications Overview (AWS Chatbot-Übersicht) ](https://www.youtube.com/watch?v=0jUSEfHbTYk)
+ [AWS on Air ft. Mutative Commands in Amazon Q Developer in chat applications (AWS on Air mit veränderlichen Befehlen in AWS Chatbot) ](https://www.youtube.com/watch?v=u2pkw2vxrtk)

 **Zugehörige Beispiele:** 
+ [ Alarme, Vorfallmanagement und Problembehebung in der Cloud mit Amazon CloudWatch ](https://aws.amazon.com/blogs/mt/alarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/)
+ [ Tutorial: Creating an Amazon EventBridge rule that sends notifications to Amazon Q Developer in chat applications (Erstellen einer Amazon EventBridge-Regel, die Benachrichtigungen an AWS Chatbot sendet) ](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html)
+ [ Workshop zur Beobachtbarkeit ](https://catalog.workshops.aws/observability/en-US/intro)

# OPS08-BP05 Dashboards erstellen
<a name="ops_workload_observability_create_dashboards"></a>

 Dashboards sind die anwenderorientierte Sicht auf die Telemetriedaten Ihrer Workloads. Sie stellen zwar eine wichtige visuelle Schnittstelle dar, sollten aber nicht als Ersatz, sondern als Ergänzung für Warnmechanismen dienen. Wenn sie sorgfältig zusammengestellt werden, liefern sie nicht nur schnelle Erkenntnisse zum Status und zur Leistung des Systems, sondern bieten Stakeholdern auch Echtzeitinformationen über Geschäftsergebnisse und die Auswirkungen von Problemen. 

 **Gewünschtes Ergebnis:** Klare, umsetzbare Erkenntnisse zur System- und Geschäftsstabilität mithilfe visueller Darstellungen. 

 **Typische Anti-Muster:** 
+  Überkomplizierte Dashboards mit zu vielen Metriken. 
+  Sich auf Dashboards verlassen, ohne Warnmeldungen zur Erkennung von Anomalien zu nutzen. 
+  Fehlende Aktualisierung der Dashboards im Laufe des Workload-Fortschritts. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Sofortiger Einblick in wichtige Systemmetriken und KPIs. 
+  Verbesserte Kommunikation und mehr Verständnis unter den Interessengruppen. 
+  Rasche Erkenntnisse zu den Auswirkungen operativer Probleme. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 **Geschäftsorientierte Dashboards** 

 Dashboards, die auf Geschäfts-KPIs zugeschnitten sind, sprechen ein breiteres Spektrum von Stakeholdern an. Auch wenn diese Personen vielleicht nicht an Systemmetriken interessiert sind, haben sie dennoch großes Interesse daran, die geschäftlichen Auswirkungen dieser Zahlen zu verstehen. Ein geschäftsorientiertes Dashboard stellt sicher, dass alle technischen und betrieblichen Metriken, die überwacht und analysiert werden, auf die übergeordneten Geschäftsziele ausgerichtet sind. Diese Ausrichtung sorgt für Klarheit und stellt sicher, dass alle gleich darüber informiert sind, was wichtig ist und was nicht. Darüber hinaus sind Dashboards, die Geschäfts-KPIs hervorheben, in der Regel leichter umzusetzen. Sie bieten Stakeholdern die Möglichkeit, in kürzester Zeit den Status der Abläufe, die Bereiche, die Aufmerksamkeit erfordern, und die potenziellen Auswirkungen auf die Geschäftsergebnisse zu verstehen. 

 Vor diesem Hintergrund sollten Sie bei der Erstellung Ihrer Dashboards sicherstellen, dass ein Gleichgewicht zwischen technischen Metriken und Geschäfts-KPIs besteht. Beide sind wichtig, richten sich aber an unterschiedliche Zielgruppen. Idealerweise sollten Sie über Dashboards verfügen, die einen ganzheitlichen Überblick über den Status und die Leistung des Systems bieten und gleichzeitig wichtige Geschäftsergebnisse und deren Auswirkungen hervorheben. 

 Amazon CloudWatch-Dashboards sind anpassbare Startseiten in der CloudWatch-Konsole zur Überwachung Ihrer Ressourcen in einer einzigen Ansicht, auch wenn sie über verschiedene AWS-Regionen und Konten verteilt sind. 

### Implementierungsschritte
<a name="implementation-steps"></a>

1.  **Einfaches Dashboard erstellen:** [Erstellen Sie ein neues Dashboard in CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create_dashboard.html)und geben Sie ihm einen aussagekräftigen Namen. 

1.  **Markdown-Widgets verwenden:** Bevor Sie sich mit Metriken befassen, sollten Sie [Markdown-Widgets](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_text_dashboard.html) nutzen, um Ihr Dashboard oben mit Kontext zu versehen. Dieser sollte den Inhalt des Dashboards beschreiben und angeben, welche Bedeutung den dargestellten Metriken zukommt. Er kann auch Links zu anderen Dashboards und Tools zur Fehlerbehebung enthalten. 

1.  **Dashboard-Variablen erstellen:** [Integrieren Sie gegebenenfalls Dashboard-Variablen,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch_dashboard_variables.html) um dynamische und flexible Ansichten zu ermöglichen. 

1.  **Metrik-Widgets erstellen:** [Fügen Sie Metrik-Widgets hinzu,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/create-and-work-with-widgets.html) um verschiedene Metriken zu visualisieren, die Ihre Anwendung ausgibt, und passen Sie diese Widgets so an, dass sie den Systemstatus und die Geschäftsergebnisse effektiv darstellen. 

1.  **Log Insights-Abfragen verwenden:** Nutzen Sie [CloudWatch Logs Insights,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_ExportQueryResults.html) um umsetzbare Metriken aus Ihren Protokollen abzurufen und diese Erkenntnisse auf Ihrem Dashboard anzuzeigen. 

1.  **Alarme einrichten:** Integrieren Sie [CloudWatch-Alarme](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_remove_alarm_dashboard.html) in Ihr Dashboard, um einen raschen Überblick über alle Metriken zu erhalten, die ihre Schwellenwerte überschreiten. 

1.  **Contributor Insights verwenden:** Integrieren Sie [CloudWatch Contributor Insights,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContributorInsights-ViewReports.html) um Felder mit hoher Kardinalität zu analysieren und ein besseres Verständnis der wichtigsten Mitwirkenden Ihrer Ressource zu erhalten. 

1.  **Benutzerdefinierte Widgets entwerfen:** Für spezielle Anforderungen, die von Standard-Widgets nicht erfüllt werden, sollten Sie es in Betracht ziehen, [benutzerdefinierte Widgets zu erstellen](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/add_custom_widget_dashboard.html). Diese können Daten aus verschiedenen Quellen abrufen oder sie auf einzigartige Weise darstellen. 

1.  **Wiederholen und verfeinern:** Im Laufe der Entwicklung Ihrer Anwendung sollten Sie Ihr Dashboard regelmäßig überprüfen, um sicherzustellen, dass es weiterhin relevant ist. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS04-BP01 Ermitteln wichtiger Leistungskennzahlen](ops_observability_identify_kpis.md) 
+  [OPS08-BP01 Analysieren von Workload-Metriken](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 Analysieren von Workload-Protokollen](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 Analysieren von Workload-Traces](ops_workload_observability_analyze_workload_traces.md) 
+  [OPS08-BP04 Erstellen umsetzbarer Warnmeldungen](ops_workload_observability_create_alerts.md) 

 **Zugehörige Dokumente:** 
+ [ Building Dashboards for Operational Visibility (Erstellung von Dashboards für operative Sichtbarkeit) ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Using Amazon CloudWatch Dashboards (Verwenden von Amazon CloudWatch-Dashboards) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html)

 **Zugehörige Videos:** 
+ [ Create Cross Account & Cross Region CloudWatch Dashboards (Konto- und regionenübergreifende CloudWatch-Dashboards erstellen) ](https://www.youtube.com/watch?v=eIUZdaqColg)
+ [AWS re:Invent 2021 - Gain enterprise visibility with AWS Cloud operation dashboards (AWS re:Invent 2021: Mehr Unternehmenstransparenz mit geschäftsorientierten AWS Cloud-Dashboards) ](https://www.youtube.com/watch?v=NfMpYiGwPGo)

 **Zugehörige Beispiele:** 
+ [ Workshop zur Beobachtbarkeit ](https://catalog.workshops.aws/observability/en-US/intro)
+ [ Anwendungsüberwachung mit Amazon CloudWatch ](https://aws.amazon.com/solutions/implementations/application-monitoring-with-cloudwatch/)

# OPS 9. Wie können Sie den Zustand Ihrer Operationen beurteilen?
<a name="ops-09"></a>

 Definieren, erfassen und analysieren Sie Metriken für Operationen, um einen Einblick in Ereignisse rund um Ihre operativen Abläufe zu erhalten. Dies ist wichtig, damit Sie bei Bedarf entsprechende Maßnahmen ergreifen können. 

**Topics**
+ [OPS09-BP01 Messen operativer Ziele und KPIs mit Metriken](ops_operations_health_measure_ops_goals_kpis.md)
+ [OPS09-BP02 Kommunizieren von Status und Trends zur Sicherung der operativen Transparenz](ops_operations_health_communicate_status_trends.md)
+ [OPS09-BP03 Überprüfen der Betriebsmetriken und Priorisieren von Verbesserungen](ops_operations_health_review_ops_metrics_prioritize_improvement.md)

# OPS09-BP01 Messen operativer Ziele und KPIs mit Metriken
<a name="ops_operations_health_measure_ops_goals_kpis"></a>

 Ermitteln Sie Ziele und KPIs in Ihrem Unternehmen, die operativen Erfolg definieren, und legen Sie Metriken fest, die diese Werte widerspiegeln. Legen Sie Baselines als Bezugspunkt fest und bewerten Sie diese regelmäßig neu. Entwickeln Sie Mechanismen, um diese Metriken von Teams zur Bewertung zu erfassen. 

 **Gewünschtes Ergebnis:** 
+  Die Ziele und KPIs für die Operations-Teams der Organisation wurden veröffentlicht und geteilt. 
+  Metriken, die diese KPIs widerspiegeln, wurden festgelegt. Mögliche Beispiele: 
  +  Tiefe der Ticket-Queue oder Durchschnittsalter der Tickets 
  +  Anzahl der Tickets, gruppiert nach Art des Problems 
  +  Aufgewendete Zeit für die Bearbeitung von Problemen mit oder ohne standardisierte Betriebsverfahren (SOP) 
  +  Zeit, die zur Wiederherstellung nach einem fehlgeschlagenen Code-Push aufgewendet wurde 
  +  Anrufaufkommen 

 **Typische Anti-Muster:** 
+  Bereitstellungsfristen werden nicht eingehalten, weil Entwickler mit der Lösung von Problemen beauftragt werden. Entwicklerteams fordern mehr Personal, können aber nicht einschätzen, wie viele Personen benötigt werden, da der Zeitaufwand nicht gemessen werden kann. 
+  Für die Abwicklung von Kundenanrufen wurde ein Problem-Desk Stufe 1 eingerichtet. Im Laufe der Zeit kamen weitere Workloads hinzu, aber dem Problem-Desk Stufe 1 wurde kein zusätzliches Personal zugewiesen. Die Kundenzufriedenheit leidet, da immer mehr Anrufe nötig sind und Probleme länger ungelöst bleiben. Das Management sieht diese Anzeichen jedoch nicht und ermöglicht keine Gegenmaßnahmen. 
+  Ein problematischer Workload wurde zur Bearbeitung an ein separates Operations-Team übergeben. Im Gegensatz zu anderen Workloads wurde dieser neue Workload nicht mit ordnungsgemäßer Dokumentation und Runbooks geliefert. Daher verbringen Teams mehr Zeit damit, Fehler zu suchen und zu beheben. Es gibt jedoch keine Metriken, die dies dokumentieren, was die Rechenschaftspflicht erschwert. 

 **Vorteile der Nutzung dieser bewährten Methode:** Während die Workload-Überwachung den Status unserer Anwendungen und Services anzeigt, liefert die Überwachung von Operations-Teams den Verantwortlichen Erkenntnisse hinsichtlich Veränderungen bei den Nutzern dieser Workloads, wie z. B. sich ändernde Geschäftsanforderungen. Messen Sie die Effektivität dieser Teams und bewerten Sie sie im Hinblick auf Ihre operativen Ziele, indem Sie Metriken erstellen, die den operativen Status widerspiegeln können. Anhand von Metriken können Supportprobleme aufgezeigt oder Abweichungen von einem angestrebten Servicelevel erkannt werden. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Planen Sie Meetings mit der Geschäftsleitung und den Stakeholdern, um die allgemeinen Ziele des Services festzulegen. Ermitteln Sie, worin die Aufgaben der verschiedenen Operations-Teams bestehen sollten und mit welchen Herausforderungen sie beauftragt werden könnten. Führen Sie anhand dieser Daten ein Brainstorming der wichtigsten Leistungsindikatoren (KPIs) durch, die diese operativen Ziele widerspiegeln könnten. Dies können Faktoren wie Kundenzufriedenheit, Zeitspanne zwischen Entwurf und Bereitstellung von Funktionen, durchschnittlicher Zeitaufwand für die Problemlösung und andere sein. 

 Identifizieren Sie anhand der KPIs die Metriken und Datenquellen, die diese Ziele am besten widerspiegeln könnten. Kundenzufriedenheit kann eine Kombination aus verschiedenen Metriken wie Warte- oder Reaktionszeiten bei Anrufen, Zufriedenheitswerte und Art der dargelegten Probleme sein. Die Bereitstellungszeiten können die Summe des Zeitaufwands sein, der für Tests und Bereitstellungen benötigt wird, zuzüglich aller Korrekturen nach der Bereitstellung, die hinzugefügt werden mussten. Statistiken, aus denen hervorgeht, wie viel Zeit für verschiedene Arten von Problemen aufgewendet wurde (oder wie viele dieser Probleme auftraten), können Aufschluss darüber geben, wo gezielte Anstrengungen erforderlich sind. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige Dokumente:** 
+ [ Quick - Using KPIs (Amazon QuickSight – Verwendung von KPIs) ](https://docs.aws.amazon.com/quicksight/latest/user/kpi.html)
+ [ Amazon CloudWatch - Using Metrics (Amazon CloudWach – Verwendung von Metriken) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)
+ [ Erstellung von Dashboards ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)
+ [ Wie Sie mit dem KPI-Dashboard Ihre KPIs zur Kostenoptimierung nachverfolgen ](https://aws.amazon.com/blogs/aws-cloud-financial-management/how-to-track-your-cost-optimization-kpis-with-the-kpi-dashboard/)

# OPS09-BP02 Kommunizieren von Status und Trends zur Sicherung der operativen Transparenz
<a name="ops_operations_health_communicate_status_trends"></a>

 Wenn Sie in Erfahrung bringen wollen, wann Ergebnisse gefährdet sein könnten, ob zusätzliche Workloads unterstützt werden können oder nicht oder welche Auswirkungen Änderungen auf Ihre Teams hatten, müssen Sie unbedingt den Status Ihrer Betriebsabläufe und deren Trendrichtung kennen. Bei Betriebsereignissen können Statusseiten, auf denen Benutzer und Operations-Teams Informationen abrufen können, den Druck auf die Kommunikationskanäle verringern und Informationen proaktiv verbreiten. 

 **Gewünschtes Ergebnis:** 
+  Betriebsleiter erhalten auf einen Blick Erkenntnisse darüber, welches Anrufvolumen ihre Teams bewältigen müssen und welche Maßnahmen möglicherweise im Gange sind, z. B. Bereitstellungen. 
+  Wenn Auswirkungen auf den normalen Betrieb auftreten, werden Warnmeldungen an Stakeholder und Nutzergemeinschaften versendet. 
+  Unternehmensleitung und Stakeholder können als Reaktion auf eine Warnung oder Auswirkung eine Statusseite aufrufen und Informationen zu einem betrieblichen Ereignis abrufen, z. B. Kontaktstellen, Ticketinformationen und erwartete Wiederherstellungszeiten. 
+  Führungskräften und anderen Stakeholdern werden Berichte zur Verfügung gestellt, damit sie über Betriebsstatistiken wie das Anrufvolumen über einen bestimmten Zeitraum, Nutzerzufriedenheitswerte, Anzahl ausstehender Tickets und deren Alter informiert sind. 

 **Typische Anti-Muster:** 
+  Ein Workload fällt aus und ein Dienst wird nicht verfügbar. Das Anrufvolumen steigt, da Benutzer wissen möchten, was vor sich geht. Manager erhöhen dieses Volumen, da sie nachfragen, wer an dem Problem arbeitet. Verschiedene Operations-Teams bemühen sich doppelt, Untersuchungen durchzuführen. 
+  Der Wunsch nach neuen Funktionen führt dazu, dass mehrere Mitarbeiter umpositioniert werden, um an einem speziellen technischen Vorhaben zu arbeiten. Dadurch entstehende Lücken werden nicht aufgefüllt und die Problemlösungszeiten steigen. Diese Informationen werden nicht erfasst, und erst nach mehreren Wochen und viel negativem Feedback unzufriedener Nutzer wird die Unternehmensleitung auf das Problem aufmerksam. 

 **Vorteile der Nutzung dieser bewährten Methode:** Bei betrieblichen Ereignissen, die das Geschäft beeinträchtigen, wird manchmal viel Zeit und Energie damit verschwendet, Informationen von verschiedenen Teams abzufragen, die versuchen, die Situation zu verstehen. Durch die Einrichtung und Verbreitung von Statusseiten und Dashboards können Stakeholder rasch Informationen darüber abrufen, ob ein Problem festgestellt wurde oder nicht, wer mit der Lösung des Problems beschäftigt ist oder wann mit einer Rückkehr zum normalen Betrieb zu rechnen ist. Dadurch müssen die Teammitglieder nicht zu viel Zeit damit verbringen, anderen den Status mitzuteilen und haben mehr Zeit, Probleme zu lösen. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Erstellen Sie Dashboards, die die aktuellen Schlüsselmetriken für Ihre Operations-Teams anzeigen, und machen Sie sie sowohl für die Betriebsleitung als auch für das Management leicht zugänglich. 

 Erstellen Sie Statusseiten, die schnell aktualisiert werden können, um zu zeigen, wann sich ein Vorfall oder ein Ereignis abspielt, wer dafür verantwortlich ist und wer die Reaktion darauf koordiniert. Kommunizieren Sie auf dieser Seite alle Schritte oder Problemumgehungen, die Benutzer in Betracht ziehen sollten, und machen Sie sie für alle Beteiligten verfügbar. Bitten Sie Benutzer, zuerst diese Seite zu überprüfen, wenn sie mit einem unbekannten Problem konfrontiert werden. 

 Erfassen Sie Daten und stellen Sie Berichte bereit, die den Zustand der Betriebsabläufe im Zeitverlauf aufzeigen, und verteilen Sie diese an Führungskräfte und Entscheidungsträger, um die Arbeit des Betriebs sowie die Herausforderungen und Bedürfnisse zu veranschaulichen. 

 Teilen Sie die Metriken und Berichte, die die Ziele und KPIs am besten widerspiegeln, mit den Teams, und zeigen Sie ihnen, wo sie besonders deutlich einen Wandel vorangetrieben haben. Nehmen Sie sich Zeit für diese Aktivitäten, um den Abläufen innerhalb und zwischen Teams mehr Bedeutung beizumessen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige Dokumente:** 
+ [ Measure Progress (Fortschritt messen) ](https://docs.aws.amazon.com/prescriptive-guidance/latest/strategy-cloud-operating-model/measure-progress.html)
+ [ Building Dashboards for Operational Visibility (Erstellung von Dashboards für operative Sichtbarkeit) ](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/)

 **Zugehörige Lösungen:** 
+ [ Datenoperationen ](https://aws.amazon.com/solutions/app-development/data-operations)

# OPS09-BP03 Überprüfen der Betriebsmetriken und Priorisieren von Verbesserungen
<a name="ops_operations_health_review_ops_metrics_prioritize_improvement"></a>

 Durch die Bereitstellung von Zeit und Ressourcen für die Überprüfung des Betriebsstatus wird sichergestellt, dass die Betreuung der täglichen Geschäftstätigkeit weiterhin Priorität hat. Bringen Sie Betriebsleiter und Stakeholder an einen Tisch, um regelmäßig Metriken zu überprüfen, Ziele und Vorgaben zu bestätigen oder zu ändern und Verbesserungen zu priorisieren. 

 **Gewünschtes Ergebnis:** 
+  Betriebsleiter und Mitarbeiter treffen sich regelmäßig, um die Metriken für einen bestimmten Berichtszeitraum zu überprüfen. Herausforderungen werden kommuniziert, Erfolge gefeiert und gewonnene Erkenntnisse geteilt. 
+  Stakeholder und Unternehmensleiter werden regelmäßig über den Stand der laufenden Operationen informiert und um ihre Meinung gebeten, was Ziele, KPIs und zukünftige Initiativen angeht. Kompromisse zwischen Servicebereitstellung, Betrieb und Wartung werden erörtert und in Zusammenhang gebracht. 

 **Typische Anti-Muster:** 
+  Ein neues Produkt wird auf den Markt gebracht, aber die Operations-Teams der Stufe 1 und 2 sind nicht ausreichend geschult, um Support zu leisten, oder bräuchten zusätzliches Personal. Metriken, die den Anstieg der Bearbeitungsdauer von Tickets und der Anzahl der Vorfälle belegen, werden von Führungskräften nicht berücksichtigt. Erst Wochen später werden Maßnahmen ergriffen, weil die Zahl der Abonnements zu sinken beginnt, da unzufriedene Benutzer die Plattform verlassen. 
+  Ein manuelles Verfahren zur Durchführung von Wartungsarbeiten an einem Workload gibt es schon lange. Der Wunsch nach Automatisierung war zwar vorhanden, hatte aber angesichts der geringen Bedeutung des Systems nur geringe Priorität. Im Laufe der Zeit hat das System jedoch an Bedeutung gewonnen, und heute nehmen diese manuellen Prozesse einen Großteil der Betriebszeit in Anspruch. Es sind keine Ressourcen für die Bereitstellung von mehr Tools für den Betrieb vorgesehen, was zu einer Überlastung der Mitarbeiter führt, wenn der Workload zunimmt. Die Unternehmensleitung wird sich der Probleme bewusst, als sie erfährt, dass Mitarbeiter zu anderen Wettbewerbern wechseln. 

 **Vorteile der Nutzung dieser bewährten Methode:** In einigen Unternehmen kann es zu einer Herausforderung werden, für die Servicebereitstellung die gleiche Zeit und Aufmerksamkeit aufzuwenden, die neuen Produkten oder Angeboten entgegengebracht wird. Wenn dies zutrifft, kann der Geschäftsbereich darunter leiden und das erwartete Serviceniveau verschlechtert sich nach und nach. Dies liegt daran, dass sich der Betrieb nicht mit dem wachsenden Geschäft ändert und weiterentwickelt, wodurch er bald ins Hintertreffen gerät. Ohne eine regelmäßige Überprüfung der Erkenntnisse, die Operations erfasst, wird das Risiko für das Unternehmen möglicherweise erst sichtbar, wenn es zu spät ist. Wenn jedoch sowohl dem Betriebspersonal als auch den Führungskräften Zeit für die Überprüfung von Metriken und Verfahren eingeräumt wird, bleibt die entscheidende Rolle, die der Betrieb spielt, sichtbar und Risiken können erkannt werden, lange bevor sie ein kritisches Niveau erreichen. Operations-Teams erhalten einen besseren Überblick über bevorstehende Geschäftsänderungen und Initiativen, sodass proaktive Maßnahmen ergriffen werden können. Wenn Führungskräfte die Gelegenheit haben, die Betriebsmetriken zu prüfen, erkennen sie, welche Rolle diese Teams für die Kundenzufriedenheit spielen –sowohl intern als auch extern. So können sie Operations die Möglichkeit geben, Entscheidungen im Hinblick auf Prioritäten besser abzuwägen oder sicherzustellen, dass die Teams über die Zeit und die Ressourcen verfügen, um mit neuen Geschäfts- und Workload-Initiativen zu wachsen und sich weiterzuentwickeln. 

 **Risikostufe bei fehlender Befolgung dieser bewährten Methode:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Nehmen Sie sich Zeit, um die Betriebsmetriken gemeinsam mit Stakeholdern und Operations-Teams zu überprüfen und die Berichtsdaten zu lesen. Stellen Sie diese Berichte in den Kontext der Ziele und Vorgaben der Organisation, um festzustellen, ob sie erreicht werden. Identifizieren Sie Unklarheiten, bei denen die Ziele nicht eindeutig sind oder wo Konflikte bestehen zwischen dem, was verlangt wird, und dem, was gegeben wird. 

 Identifizieren Sie, wo Zeit, Mitarbeiter und Tools zu Betriebsergebnissen beitragen können. Ermitteln Sie, auf welche KPIs sich dies auswirken würde und welche Erfolgsziele verfolgt werden sollten. Greifen Sie Ihre Überlegungen regelmäßig wieder auf, um sicherzustellen, dass der Betrieb über ausreichende Ressourcen verfügt, um den Geschäftsbereich zu unterstützen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige Dokumente:** 
+ [ Amazon Athena ](https://aws.amazon.com/athena/)
+ [ Amazon CloudWatch metrics and dimensions reference (Referenzinformationen zu Metriken und Dimensionen von Amazon CloudWatch) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CW_Support_For_AWS.html)
+ [ Amazon Quick ](https://aws.amazon.com/quicksight/)
+ [AWS Glue](https://aws.amazon.com/glue/)
+ [AWS Glue Data Catalog](https://docs.aws.amazon.com/glue/latest/dg/populate-data-catalog.html)
+ [ Collect metrics and logs from Amazon EC2 instances and on-premises servers with the Amazon CloudWatch Agent (Erfassen von Metriken und Protokollen aus Amazon EC2-Instances und On-Premises-Servern mit dem Amazon CloudWatch Agent) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html)
+ [ Using Amazon CloudWatch metrics (Verwenden von Amazon CloudWatch-Metriken) ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/working_with_metrics.html)

# OPS 10. Wie bewältigen Sie Workload- und operationsspezifische Ereignisse?
<a name="ops-10"></a>

 Erarbeiten und prüfen Sie Verfahren für die Reaktion auf Ereignisse, um Beeinträchtigungen für Ihren Workload zu minimieren. 

**Topics**
+ [OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen](ops_event_response_event_incident_problem_process.md)
+ [OPS10-BP02 Implementieren eines Prozesses für jeden Alarm](ops_event_response_process_per_alert.md)
+ [OPS10-BP03 Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen](ops_event_response_prioritize_events.md)
+ [OPS10-BP04 Definieren von Eskalationspfaden](ops_event_response_define_escalation_paths.md)
+ [OPS10-BP05 Definieren eines Kundenkommunikationsplans für Ausfälle](ops_event_response_push_notify.md)
+ [OPS10-BP06 Bekanntgeben des Status über Dashboards](ops_event_response_dashboards.md)
+ [OPS10-BP07 Automatisieren von Reaktionen auf Ereignisse](ops_event_response_auto_event_response.md)

# OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen
<a name="ops_event_response_event_incident_problem_process"></a>

Ihre Organisation hat Prozesse für die Bewältigung von Ereignissen, Vorfällen und Problemen. *Ereignisse* sind Dinge, die in Ihrem Workload auftreten, aber möglicherweise kein Eingreifen erfordern. *Vorfälle* sind Ereignisse, die ein Eingreifen erfordern. *Probleme* sind wiederkehrende Ereignisse, die ein Eingreifen erfordern oder nicht behoben werden können. Sie benötigen Prozesse, um die Auswirkungen solcher Ereignisse auf Ihr Unternehmen zu mindern und um sicherzustellen, dass Sie in angemessener Weise darauf reagieren.

Wenn Ihr Workload von Vorfällen und Problemen betroffen ist, benötigen Sie Prozesse, um diese zu bewältigen. Wie informieren Sie Stakeholder über den Status des Ereignisses? Wer leitet die Reaktion? Welche Tools verwenden Sie, um das Ereignis abzumildern? Dies sind Beispiele für Fragen, die Sie beantworten müssen, um einen fundierten Reaktionsprozess einführen zu können. 

Prozesse müssen an zentraler Stelle dokumentiert werden und allen am Workload Beteiligten zur Verfügung stehen. Wenn Sie nicht über ein zentrales Wiki oder einen zentralen Dokumentenspeicher verfügen, können Sie dafür ein Repository für die Versionskontrolle verwenden. Sie halten diese Pläne aktuell, wenn sich die Prozesse weiterentwickeln. 

Probleme sind Kandidaten für eine Automatisierung. Diese Ereignisse nehmen Zeit in Anspruch, die Sie eigentlich für Innovationen benötigen. Beginnen Sie mit der Entwicklung eines wiederholbaren Prozesses, um das Problem abzumildern. Konzentrieren Sie sich im Laufe der Zeit darauf, die Abmilderung zu automatisieren oder das zugrunde liegende Problem zu beheben. Dadurch sparen Sie Zeit ein, die Sie für Verbesserungen an Ihrem Workload aufwenden können. 

**Gewünschtes Ergebnis:** Ihre Organisation hat einen Prozess für die Bewältigung von Ereignissen, Vorfällen und Problemen. Diese Prozesse werden dokumentiert und an zentraler Stelle gespeichert. Sie werden aktualisiert, wenn sich die Prozesse ändern. 

**Typische Anti-Muster:** 
+  Ein Vorfall tritt am Wochenende ein und der Entwickler, der Rufbereitschaft hat, weiß nicht, was zu tun ist. 
+  Ein Kunde sendet Ihnen eine E-Mail, dass die Anwendung nicht verfügbar ist. Sie starten den Server neu, um das Problem zu beheben. Dies kommt häufig vor. 
+  Es gibt einen Vorfall und mehrere Teams arbeiten unabhängig voneinander daran, das Problem zu beheben. 
+  Es kommt zu Bereitstellungen in Ihrem Workload, die nicht dokumentiert werden. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Es gibt einen Prüfpfad der Ereignisse in Ihrem Workload. 
+  Die erforderliche Zeit für die Wiederherstellung nach einem Vorfall verringert sich. 
+  Die Teammitglieder können Vorfälle und Probleme einheitlich beheben. 
+  Bei der Untersuchung eines Vorfalls sind die Anstrengungen stärker miteinander verbunden. 

 **Risikostufe bei fehlender Befolgung dieser Best Practice:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

Wenn Sie diese Best Practice implementieren, bedeutet dies, dass Sie Workload-Ereignisse nachverfolgen. Sie haben Prozesse für den Umgang mit Vorfällen und Problemen. Die Prozesse werden dokumentiert, geteilt und oft aktualisiert. Probleme werden identifiziert, priorisiert und behoben. 

 **Kundenbeispiel** 

AnyCompany Retail verwendet einen Teil seines internen Wikis für Prozesse zur Verwaltung von Ereignissen, Vorfällen und Problemen. Alle Ereignisse werden an [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html)gesendet. Probleme werden in [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) als OpsItems identifiziert und zur Behebung priorisiert, sodass undifferenzierter Arbeitsaufwand reduziert wird. Wenn die Prozesse sich ändern, werden sie im internen Wiki aktualisiert. Das Unternehmen nutzt [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) für die Verwaltung von Vorfällen und das Koordinieren von Maßnahmen zur Abmilderung. 

## Implementierungsschritte
<a name="implementation-steps"></a>

1.  Ereignisse 
   +  Verfolgen Sie Ereignisse in Ihrem Workload nach, auch wenn kein menschliches Eingreifen erforderlich ist. 
   +  Entwickeln Sie gemeinsam mit den Workload-Stakeholdern eine Liste der Ereignisse, die nachverfolgt werden sollten. Beispiele sind abgeschlossene Bereitstellungen oder erfolgreiche Patches. 
   +  Sie können Services wie [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) oder [Amazon Simple Notification Service](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) nutzen, um benutzerdefinierte Ereignisse für die Nachverfolgung zu generieren. 

1.  Vorfälle 
   +  Definieren Sie zunächst den Kommunikationsplan für Vorfälle. Welche Stakeholder müssen informiert werden? Wie werden Sie sie auf dem Laufenden halten? Wer leitet die Koordination der Arbeiten? Wir empfehlen, einen internen Chat-Kanal für die Kommunikation und Koordination einzurichten. 
   +  Definieren Sie Eskalationspfade für die Teams, die Ihren Workload unterstützen, insbesondere wenn es im Team keine Rufbereitschaft gibt. Basierend auf Ihrem Support-Level können Sie auch einen Fall beim Support öffnen. 
   +  Erstellen Sie ein Playbook, um den Vorfall zu untersuchen. Dieses sollte den Kommunikationsplan sowie detaillierte Maßnahmen zur Untersuchung beinhalten. Nehmen Sie in Ihre Untersuchung auch die Überprüfung von [AWS Health Dashboard](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) auf. 
   +  Dokumentieren Sie Ihren Reaktionsplan für Vorfälle. Kommunizieren Sie den Plan für das Vorfallmanagement, damit interne und externe Kunden die Regeln der Interaktion verstehen und wissen, was von ihnen erwartet wird. Schulen Sie die Teammitglieder hinsichtlich der Verwendung. 
   +  Kunden können [Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) nutzen, um ihren Reaktionsplan für Vorfälle einzurichten und zu verwalten. 
   +  Kunden mit Enterprise Support können den [Workshop zum Vorfallmanagement](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) bei ihrem Technical Account Manager anfordern. Dieser angeleitete Workshop testet Ihren vorhandenen Reaktionsplan für Vorfälle und hilft Ihnen, Verbesserungsmöglichkeiten zu identifizieren. 

1.  Probleme 
   +  Probleme müssen identifiziert und in Ihrem ITSM-System nachverfolgt werden. 
   +  Identifizieren Sie alle bekannten Probleme und priorisieren Sie sie nach Aufwand der Behebung und Auswirkungen auf den Workload.   
![\[Aktionsprioriätenmatrix zum Priorisieren von Problemen.\]](http://docs.aws.amazon.com/de_de/wellarchitected/2023-10-03/framework/images/impact-effort-chart.png)
   +  Beheben Sie zunächst Probleme, die mit erheblichen Auswirkungen und geringem Aufwand verbunden sind. Sobald diese behoben sind, wechseln Sie zu Problemen, die in den Quadranten der Probleme mit geringen Auswirkungen und geringem Aufwand fallen. 
   +  Sie können [Systems Manager OpsCenter](systems-manager/latest/userguide/OpsCenter.html) verwenden, um diese Probleme zu identifizieren, Runbooks daran anzufügen und sie nachzuverfolgen. 

**Aufwand für den Implementierungsplan:** Mittel. Sie benötigen einen Prozess und Tools, um diese Best Practice zu implementieren. Dokumentieren Sie Ihre Prozesse und stellen Sie sie allen am Workload Beteiligten zur Verfügung. Aktualisieren Sie sie häufig. Sie haben einen Prozess für die Verwaltung und Abmilderung oder Behebung von Problemen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS07-BP03 Verwenden von Runbooks zur Durchführung von Verfahren](ops_ready_to_support_use_runbooks.md): Bekannte Probleme benötigen ein angefügtes Runbook, damit die Maßnahmen zur Abmilderung einheitlich sind.
+  [OPS07-BP04 Verwenden von Playbooks zum Untersuchen von Problemen](ops_ready_to_support_use_playbooks.md): Vorfälle müssen mithilfe von Playbooks untersucht werden. 
+  [OPS11-BP02 Durchführen von Analysen nach Vorfällen](ops_evolve_ops_perform_rca_process.md): Führen Sie nach der Wiederherstellung nach einem Vorfall stets eine Post-Mortem-Analyse durch. 

 **Zugehörige Dokumente:** 
+  [Atlassian - Incident management in the age of DevOps](https://www.atlassian.com/incident-management/devops) 
+  [Leitfaden für AWS Security Incident Response](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+  [Incident Management in the Age of DevOps and SRE](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management?](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Zugehörige Videos:** 
+  [AWS re:Invent 2020: Incident management in a distributed organization](https://www.youtube.com/watch?v=tyS1YDhMVos) 
+  [AWS re:Invent 2021 - Building next-gen applications with event-driven architectures](https://www.youtube.com/watch?v=U5GZNt0iMZY) 
+  [AWS Supports You \$1 Exploring the Incident Management Tabletop Exercise](https://www.youtube.com/watch?v=0m8sGDx-pRM) 
+  [AWS Systems Manager Incident Manager - AWS Virtual Workshops](https://www.youtube.com/watch?v=KNOc0DxuBSY) 
+  [AWS What's Next ft. Incident Manager \$1 AWS Events](https://www.youtube.com/watch?v=uZL-z7cII3k) 

 **Zugehörige Beispiele:** 
+  [AWS Management and Governance Tools Workshop - OpsCenter](https://mng.workshop.aws/ssm/capability_hands-on_labs/opscenter.html) 
+  [AWS Proactive Services – Incident Management Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+  [Building an event-driven application with Amazon EventBridge](https://aws.amazon.com/blogs/compute/building-an-event-driven-application-with-amazon-eventbridge/) 
+  [Building event-driven architectures on AWS](https://catalog.us-east-1.prod.workshops.aws/workshops/63320e83-6abc-493d-83d8-f822584fb3cb/en-US/) 

 **Zugehörige Services:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html) 
+  [Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/welcome.html) 
+  [AWS Health Dashboard](https://docs.aws.amazon.com/health/latest/ug/what-is-aws-health.html) 
+  [AWS Systems Manager Incident Manager](https://docs.aws.amazon.com/incident-manager/latest/userguide/what-is-incident-manager.html) 
+  [AWS Systems Manager OpsCenter](https://docs.aws.amazon.com/systems-manager/latest/userguide/OpsCenter.html) 

# OPS10-BP02 Implementieren eines Prozesses für jeden Alarm
<a name="ops_event_response_process_per_alert"></a>

 Legen Sie für jedes Ereignis, für das Sie einen Alarm auslösen, eine klar definierte Reaktion (Runbook oder Playbook) mit einem eigens dafür angegebenen Besitzer fest. Dies gewährleistet eine effektive und schnelle Reaktion auf Betriebsereignisse und verhindert, dass aktionsrelevante Ereignisse aufgrund weniger wichtiger Benachrichtigungen übersehen werden. 

 **Gängige Antimuster:** 
+  Ihr Überwachungssystem präsentiert Ihnen einen Stream genehmigter Verbindungen zusammen mit anderen Nachrichten. Die Menge der Nachrichten ist so groß, dass Sie regelmäßig Fehlermeldungen verpassen, die eigentlich Ihren Eingriff erfordern würden. 
+  Sie erhalten eine Warnung, dass die Website nicht verfügbar ist. Es gibt keinen definierten Prozess dafür, wann dies geschieht. Sie müssen das Problem mit einem Ad-hoc-Ansatz diagnostizieren und lösen. Durch die individuelle Fehlerbehebung ohne vorgefertigte Prozesse verlängert sich die Zeit bis zur Wiederherstellung. 

 **Vorteile der Einführung dieser bewährten Praxis:** Indem Sie nur benachrichtigt werden, wenn tatsächlich eine Aktion erforderlich ist, verhindern Sie, dass wichtige Warnungen in einer Flut unwichtiger Informationen untergehen. Durch einen Prozess, der nur aktionsrelevante Warnungen ausgibt, ermöglichen Sie eine konsistente und schnelle Reaktion auf die Ereignisse in Ihrer Umgebung. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Hoch 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Prozess pro Alarm: Jedem Ereignis, für das Sie eine Warnung auslösen, sollte eine klar definierte Reaktion (Runbook oder Playbook) mit einem speziellen Besitzer (z. B. eine Person, ein Team oder eine Rolle) zugewiesen sein, der für die erfolgreiche Ausführung verantwortlich ist. Die Reaktion kann zwar automatisiert oder von einem anderen Team übernommen werden, aber der Besitzer trägt die Verantwortung dafür, dass der Prozess die erwarteten Ergebnisse liefert. Diese Prozesse gewährleisten eine effektive und schnelle Reaktion auf Betriebsereignisse und verhindern, dass aktionsrelevante Ereignisse aufgrund weniger wichtiger Benachrichtigungen übersehen werden. Beispielsweise kann eine automatische Skalierung zur Skalierung eines Web-Front-End-Systems verwendet werden, aber das Team des operativen Bereichs könnte dafür verantwortlich sein, dass die Regeln und Limits der automatischen Skalierung den Anforderungen des Workloads entsprechen. 

## Ressourcen
<a name="resources"></a>

 **Verbundene Dokumente:** 
+  [Amazon CloudWatch-Funktionen](https://aws.amazon.com/cloudwatch/features/) 
+  [Was ist Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Verbundene Videos: ** 
+  [Erstellen eines Überwachungsplans](https://www.youtube.com/watch?v=OMmiGETJpfU) 

# OPS10-BP03 Priorisieren von betrieblichen Ereignissen auf Basis der Auswirkung auf das Unternehmen
<a name="ops_event_response_prioritize_events"></a>

 Stellen Sie sicher, dass bei mehreren Ereignissen, die eine Intervention erfordern, zuerst diejenigen angegangen werden, die für das Unternehmen die größte Tragweite haben. Zu den Auswirkungen können Todesfälle oder Verletzungen, finanzielle Verluste oder Rufschädigung bzw. Vertrauensverlust gehören. 

 **Gängige Antimuster:** 
+  Sie erhalten eine Supportanfrage, in der Sie für einen Benutzer eine Druckerkonfiguration hinzufügen sollen. Während der Arbeit an dem Problem erhalten Sie eine Supportanfrage, dass Ihre Website für den Einzelhandel nicht mehr aufrufbar ist. Nachdem Sie die Druckerkonfiguration für den Benutzer abgeschlossen haben, beginnen Sie mit der Arbeit am Problem mit der Website. 
+  Sie werden benachrichtigt, dass sowohl Ihre Einzelhandelswebsite als auch Ihr System für die Lohn- und Gehaltsabrechnung ausgefallen sind. Sie wissen nicht, welches Problem Priorität haben sollte. 

 **Vorteile der Einführung dieser bewährten Methode:** Durch die Priorisierung von Reaktionen auf Vorfälle mit der größten Auswirkung auf das Unternehmen kommen Sie mit den Auswirkungen leichter zurecht. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Priorisieren von operativen Ereignissen basierend auf den Auswirkungen auf das Geschäft: Wenn mehrere Ereignisse Eingriffe erfordern, stellen Sie sicher, dass diejenigen, die für das Geschäft am wichtigsten sind, zuerst behandelt werden. Zu den Auswirkungen können Todesfälle oder Verletzungen, finanzielle Verluste, Verstöße gegen Vorschriften oder Rufschädigung bzw. Vertrauensverlust gehören. 

# OPS10-BP04 Definieren von Eskalationspfaden
<a name="ops_event_response_define_escalation_paths"></a>

 Definieren Sie Eskalationspfade in Ihren Runbooks und Playbooks und legen Sie auch fest, was eine Eskalation auslöst. Erarbeiten Sie zudem Verfahren für die Eskalation. Weisen Sie jeder Aktion explizit Besitzer zu, um effektive und schnelle Reaktionen auf betriebliche Ereignisse zu gewährleisten. 

 Legen Sie fest, wann jemand eine Entscheidung treffen muss, bevor eine Aktion durchgeführt wird. Arbeiten Sie mit Entscheidungsträgern zusammen, um diese Entscheidung im Voraus treffen und die Aktion vorab genehmigen zu lassen, damit MTTR nicht auf eine Antwort wartet. 

 **Gängige Antimuster:** 
+  Ihre Einzelhandelswebsite ist nicht mehr aufrufbar. Sie verstehen das Runbook für die Wiederherstellung der Website nicht. Sie rufen Kollegen in der Hoffnung an, dass Ihnen jemand helfen kann. 
+  Sie erhalten eine Supportanfrage zu einer nicht erreichbaren Anwendung. Sie haben keine Berechtigungen für die Systemverwaltung. Sie wissen nicht, wer die Berechtigungen dafür hat. Sie versuchen, sich an den Besitzer des Systems zu wenden, der die Anfrage gestellt hat, und erhalten keine Antwort. Sie haben keine Kontakte für das System und Ihre Kollegen kennen sich damit nicht aus. 

 **Vorteile der Einführung dieser bewährten Methode:** Durch das Definieren von Eskalationen sowie von Auslösern und Verfahren für die Eskalation können Ressourcen einem Vorfall systematisch mit einer für die Auswirkungen geeigneten Menge hinzugefügt werden. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Eskalationspfade definieren: Definieren Sie Eskalationspfade in Ihren Runbooks und Playbooks und legen Sie auch fest, was eine Eskalation auslöst. Erarbeiten Sie zudem Verfahren für die Eskalation. Beispielsweise kann ein Problem von den Support-Technikern eine Stufe höher an leitende Support-Techniker eskaliert werden, wenn das Problem nicht durch Runbooks gelöst werden kann oder wenn eine vordefinierte Zeitspanne verstrichen ist. Ein weiteres Beispiel für einen geeigneten Eskalationspfad bei einem Workload ist die Weiterleitung von den leitenden Support-Technikern an das Entwicklungsteam, wenn die Playbooks keinen Korrekturpfad ermitteln können oder wenn eine vordefinierte Zeitspanne verstrichen ist. Weisen Sie jeder Aktion explizit Besitzer zu, um effektive und schnelle Reaktionen auf betriebliche Ereignisse zu gewährleisten. Eskalationen können auch Dritte beinhalten. Beispiele hierfür sind Anbieter von Netzwerkkonnektivität oder Software. Eskalationen können festgelegte autorisierte Entscheidungsträger für betroffene Systeme einbeziehen. 

# OPS10-BP05 Definieren eines Kundenkommunikationsplans für Ausfälle
<a name="ops_event_response_push_notify"></a>

 Definieren und testen Sie einen Kommunikationsplan für Systemausfälle, auf den Sie sich verlassen können, um Ihre Kunden und Stakeholder bei Ausfällen auf dem Laufenden zu halten. Kommunizieren Sie direkt mit Ihren Benutzern – sowohl wenn die von ihnen genutzten Services beeinträchtigt werden als auch wenn die Services wieder normal funktionieren. 

 **Gewünschtes Ergebnis:** 
+  Sie verfügen über einen Kommunikationsplan für Situationen, die von geplanten Wartungsarbeiten bis hin zu großen, unerwarteten Fehlern reichen – einschließlich der Anwendung von Notfallwiederherstellungsplänen. 
+  In Ihrer Kommunikation stellen Sie klare und transparente Informationen zu Systemproblemen bereit, damit Ihre Kunden keine falschen Annahmen bezüglich der Leistung ihrer Systeme anstellen müssen. 
+  Sie verwenden individuelle Fehlermeldungen und Statusseiten, um Spitzen im Bereich der Helpdesk-Anfragen zu reduzieren und die Benutzer zu informieren. 
+  Der Kommunikationsplan wird regelmäßig getestet, um sicherzustellen, dass er bei einem tatsächlichen Ausfall wie vorgesehen funktioniert. 

 **Typische Anti-Muster:** 
+ Ein Workload-Ausfall tritt auf, aber Sie haben keinen Kommunikationsplan. Benutzer überhäufen Ihr Troubleticketsystem mit Anfragen, weil sie keine Informationen über den Ausfall haben.
+ Sie senden während eines Ausfalls eine E-Mail-Benachrichtigung an Ihre Benutzer. Sie enthält keinen Zeitplan für die Wiederherstellung des Service, sodass die Benutzer nicht entsprechend planen können.
+ Es gibt einen Kommunikationsplan für Ausfälle, aber er wurde nie getestet. Es kommt zu einem Ausfall und der Kommunikationsplan schlägt fehl, weil ein kritischer Schritt ausgelassen wurde, der beim Testen hätte erkannt werden können.
+  Während eines Ausfalls senden Sie eine Benachrichtigung an die Benutzer. Diese enthält zu viele technische Details und Informationen, die unter Ihrer AWS NDA stehen. 

 **Vorteile der Nutzung dieser bewährten Methode:** 
+  Die kontinuierliche Kommunikation während des Ausfalls stellt sicher, dass die Kunden über den Fortschritt bei den Problemen und die geschätzte Zeit bis zur Lösung informiert sind. 
+  Die Entwicklung eines klar definierten Kommunikationsplans stellt sicher, dass Ihre Kunden und Endbenutzer gut informiert sind. So können sie die erforderlichen zusätzlichen Schritte unternehmen, um die Auswirkungen eines Ausfalls abzumildern. 
+  Mit einer angemessenen Kommunikation und einer stärkeren Sensibilisierung für geplante und ungeplante Ausfälle können Sie die Kundenzufriedenheit verbessern, ungewollte Reaktionen begrenzen und die Kundenbindung fördern. 
+  Eine rechtzeitige und transparente Kommunikation bei Systemausfällen schafft Vertrauen, das für eine gute Beziehung zwischen Ihnen und Ihren Kunden erforderlich ist. 
+  Eine bewährte Kommunikationsstrategie während eines Ausfalls oder einer Krise verhindert Spekulationen und Gerüchte. Diese könnten Ihre Möglichkeiten zur Wiederherstellung beeinträchtigen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>

 Kommunikationspläne, die Ihre Kunden während eines Ausfalls auf dem Laufenden halten, sind umfassend und decken mehrere Schnittstellen ab – einschließlich kundenseitiger Fehleranzeigen, individueller API-Fehlermeldungen, Systemstatus-Banner und Health-Statusseiten. Wenn Ihr System registrierte Benutzer umfasst, können Sie über Messaging-Kanäle wie E-Mail, SMS oder Push-Benachrichtigungen kommunizieren, um personalisierte Nachrichten an Ihre Kunden zu senden. 

 **Tools zur Kundenkommunikation** 

 Als erste Maßnahme sollten Web- und mobile Anwendungen während eines Ausfalls freundliche und informative Fehlermeldungen bereitstellen. Sie sollten außerdem die Möglichkeit bieten, den Datenverkehr auf eine Statusseite umzuleiten. [Amazon CloudFront](https://aws.amazon.com/cloudfront/) ist ein vollständig verwaltetes Content Delivery Network (CDN), das Funktionen zur Definition und Bereitstellung angepasster Fehlerinhalte umfasst. Angepasste Fehlerseiten in CloudFront eignen sich als erste Kommunikationsebene für das Messaging bei Ausfällen auf Komponentenebene. CloudFront kann außerdem die Verwaltung und Aktivierung einer Statusseite vereinfachen, die alle Anfragen während geplanter oder ungeplanter Ausfälle auffängt. 

 Angepasste API-Fehlermeldungen können dazu beitragen, die Auswirkungen von Ausfällen auf einzelne Services zu erkennen und zu verringern. Mit [Amazon API Gateway](https://aws.amazon.com/api-gateway/) können Sie angepasste Antworten für Ihre REST-APIs konfigurieren. So können Sie API-Kunden klare und aussagekräftige Messaging-Meldungen zur Verfügung stellen, wenn API Gateway Backend-Services nicht erreichen kann. Außerdem können angepasste Messaging-Inhalte für Banner und Benachrichtigungen verwendet werden, falls eine bestimmte Funktion des Systems aufgrund von Ausfällen auf der Service-Schicht beeinträchtigt ist. 

 Das direkte Messaging ist die am stärksten personalisierte Form des Messagings für Kunden. [Amazon Pinpoint](https://aws.amazon.com/pinpoint/) ist ein verwalteter Service für die skalierbare Multi-Channel-Kommunikation. Amazon Pinpoint bietet Ihnen die Möglichkeit, Kampagnen zu erstellen, mit denen Sie das Messaging über SMS, E-Mail, Sprachnachrichten, Push-Benachrichtigungen oder von Ihnen definierte, maßgeschneiderte Kanäle umfassend an Ihren Kundenstamm verteilen können. Wenn Sie das Messaging mit Amazon Pinpoint verwalten, sind Nachrichtenkampagnen klar definiert, testbar und können intelligent auf spezifische Kundensegmente angewendet werden. Einmal eingerichtet, können Kampagnen geplant oder durch Ereignisse ausgelöst werden und lassen sich leicht testen. 

 **Kundenbeispiel** 

 Wenn der Workload gestört ist, sendet AnyCompany Retail eine E-Mail-Benachrichtigung an seine Benutzer. In der E-Mail wird beschrieben, welche Funktionen beeinträchtigt sind. Es wird eine realistische Einschätzung dazu bereitgestellt, wann der Service wiederhergestellt sein wird. Darüber hinaus gibt es eine Statusseite, die Echtzeitinformationen über den Zustand des Workloads anzeigt. Der Kommunikationsplan wird zweimal pro Jahr in einer Entwicklungsumgebung getestet, um seine Effektivität zu validieren. 

 **Implementierungsschritte** 

1.  Bestimmen Sie die Kommunikationskanäle für Ihre Messaging-Strategie. Berücksichtigen Sie die architektonischen Aspekte Ihrer Anwendung und bestimmen Sie die beste Strategie für die Übermittlung von Feedback an Ihre Kunden. Dazu könnten eine oder mehrere der skizzierten Strategien zum Einsatz kommen – einschließlich Fehler- und Statusseiten, angepasste API-Fehlerantworten oder ein Direkt-Messaging. 

1.  Entwerfen Sie Statusseiten für Ihre Anwendung. Wenn Sie festgestellt haben, dass Statusseiten oder angepasste Fehlerseiten für Ihre Kunden geeignet sind, müssen Sie den Inhalt und das Messaging für diese Seiten entwerfen. Fehlerseiten erklären den Benutzern, warum eine Anwendung nicht verfügbar ist, wann sie wieder verfügbar sein wird und was sie in der Zwischenzeit tun können. Falls Ihre Anwendung Amazon CloudFront verwendet, können Sie [angepasste Fehlerantworten](https://docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/GeneratingCustomErrorResponses.html) bereitstellen oder Lambda@Edge verwenden, um [Fehler zu übersetzen](https://docs.aws.amazon.com/AmazonCloudFront/latest/DeveloperGuide/lambda-examples.html#lambda-examples-update-error-status-examples) und Seiteninhalte umzuschreiben. Mit CloudFront können Sie außerdem den Inhalt Ihrer Anwendung in einen statischen [Amazon S3](https://aws.amazon.com/s3/)-Inhaltsursprung umwandeln, der Ihre Wartungs- oder Ausfallstatusseite enthält. 

1.  Entwerfen Sie den passenden Satz von API-Fehlerstatuswerten für Ihren Service. Fehlermeldungen, die im Fall von nicht erreichbaren Backend-Services von API Gateway erzeugt werden, sowie Ausnahmen auf der Service-Schicht enthalten möglicherweise keine für Endbenutzer geeigneten Meldungen. Mit [angepassten Fehlerantworten](https://docs.aws.amazon.com/apigateway/latest/developerguide/api-gateway-gatewayResponse-definition.html) von API Gateway können Sie HTTP-Antwortcodes zu kuratierten API-Fehlermeldungen zuordnen – und zwar ohne Codeänderungen an Ihren Backend-Services vornehmen zu müssen. 

1.  Entwerfen Sie das Messaging aus einer geschäftlichen Perspektive, sodass es für die Endbenutzer Ihres Systems relevant ist und keine technischen Details enthält. Denken Sie an Ihre Zielgruppe und stimmen Sie Ihr Messaging darauf ab. So können Sie beispielsweise interne Benutzer auf einen Workaround oder ein manuelles Verfahren hinweisen, das alternative Systeme nutzt. Externe Benutzer können gebeten werden, zu warten, bis das System wiederhergestellt ist, oder Updates zu abonnieren, damit sie eine Benachrichtigung erhalten, sobald das System wiederhergestellt ist. Definieren Sie das genehmigte Messaging für verschiedene Szenarien, einschließlich unerwarteter Ausfälle, geplanter Wartungsarbeiten und teilweiser Systemfehler, bei denen eine bestimmte Funktion beeinträchtigt oder nicht verfügbar ist. 

1.  Erstellen Sie Vorlagen und automatisieren Sie Ihr Messaging für Kunden. Sobald Sie den Inhalt Ihrer Nachrichten festgelegt haben, können Sie [Amazon Pinpoint](https://docs.aws.amazon.com/pinpoint/latest/developerguide/welcome.html) oder andere Tools verwenden, um Ihre Messaging-Kampagne zu automatisieren. Mit Amazon Pinpoint können Sie Kundenzielsegmente für bestimmte betroffene Benutzer erstellen und Nachrichten in Vorlagen umwandeln. Lesen Sie das [Amazon Pinpoint-Tutorial](https://docs.aws.amazon.com/pinpoint/latest/developerguide/tutorials.html), um zu erfahren, wie Sie eine Messaging-Kampagne einrichten. 

1.  Vermeiden Sie eine enge Kopplung von Messaging-Funktionen an Ihr kundenseitiges System. Ihre Messaging-Strategie sollte nicht von Daten oder Services des Systems abhängig sein. So stellen Sie sicher, dass Sie auch bei Ausfällen erfolgreich Nachrichten versenden können. Ziehen Sie in Betracht, Möglichkeiten zum Versenden von Nachrichten aus mehr als [einer Availability Zone oder Region](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/rel_fault_isolation_multiaz_region_system.html) zu schaffen, um die Verfügbarkeit des Messagings zu gewährleisten. Wenn Sie AWS-Services zum Versenden von Nachrichten verwenden, nutzen Sie Operationen auf Datenebene über [Operationen auf Steuerebene](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/rel_withstand_component_failures_avoid_control_plane.html), um Ihr Messaging auszulösen. 

 **Grad des Aufwands für den Implementierungsplan:** hoch Die Entwicklung eines Kommunikationsplans und der Mechanismen zum Senden von Nachrichten kann einen erheblichen Aufwand darstellen. 

## Ressourcen
<a name="resources"></a>

 **Zugehörige bewährte Methoden:** 
+  [OPS07-BP03 Verwenden von Runbooks zur Durchführung von Verfahren](ops_ready_to_support_use_runbooks.md) - Ihr Kommunikationsplan sollte mit einem Runbook verknüpft sein, damit Ihre Mitarbeiter wissen, wie sie zu reagieren haben. 
+  [OPS11-BP02 Durchführen von Analysen nach Vorfällen](ops_evolve_ops_perform_rca_process.md) - Führen Sie nach einem Ausfall eine Post-Incident-Analyse durch, um Mechanismen zur Vermeidung eines weiteren Ausfalls zu ermitteln. 

 **Zugehörige Dokumente:** 
+ [ Error Handling Patterns in Amazon API Gateway and AWS Lambda](https://aws.amazon.com/blogs/compute/error-handling-patterns-in-amazon-api-gateway-and-aws-lambda/) (Muster für die Fehlerbehandlung in Amazon API Gateway und AWS Lambda)
+ [ Amazon API Gateway-Antworten in API Gateway ](https://docs.aws.amazon.com/apigateway/latest/developerguide/api-gateway-gatewayResponse-definition.html#supported-gateway-response-types)

 **Zugehörige Beispiele:** 
+ [AWS Health-Dashboard ](https://aws.amazon.com/premiumsupport/technology/aws-health-dashboard/)
+ [ Summary of the AWS Service Event in the Northern Virginia (US-EAST-1) Region ](https://aws.amazon.com/message/12721/) (Zusammenfassung des AWS-Service-Ereignisses in der Region Nord-Virginia (US-EAST-1))

 **Zugehörige Services:** 
+ [AWS Support](https://aws.amazon.com/premiumsupport/)
+ [AWS Kundenvereinbarung ](https://aws.amazon.com/agreement/)
+ [ Amazon CloudFront ](https://aws.amazon.com/cloudfront/)
+ [ Amazon API Gateway ](https://aws.amazon.com/api-gateway/)
+ [ Amazon Pinpoint ](https://aws.amazon.com/pinpoint/)
+ [ Amazon S3 ](https://aws.amazon.com/s3/)

# OPS10-BP06 Bekanntgeben des Status über Dashboards
<a name="ops_event_response_dashboards"></a>

 Stellen Sie Dashboards zur Verfügung, die auf die jeweilige Zielgruppe zugeschnitten sind (z. B. interne technische Teams, Führungskräfte und Kunden), um diese über den aktuellen Betriebsstatus des Unternehmens zu informieren und interessante Metriken bereitzustellen. 

 Sie können Dashboards mithilfe von [Amazon CloudWatch Dashboards](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) auf anpassbaren Homepages in der CloudWatch-Konsole erstellen. Mit Business-Intelligence-Services wie [Quick](https://aws.amazon.com/quicksight/) können Sie interaktive Dashboards für Ihren Workload und den Betriebszustand (z. B. Bestellraten, verbundene Benutzer und Transaktionszeiten) erstellen und veröffentlichen. Erstellen Sie Dashboards, die Ihre Metriken auf System- und Geschäftsebene anzeigen. 

 **Gängige Antimuster:** 
+  Auf Anfrage führen Sie für die Verwaltung einen Bericht über die aktuelle Nutzung Ihrer Anwendung aus. 
+  Während eines Vorfalls werden Sie alle 20 Minuten von einem besorgten Besitzer eines Systems mit der Frage kontaktiert, ob der Fehler bereits behoben wurde. 

 **Vorteile der Einführung dieser bewährten Methode:** Durch das Erstellen von Dashboards aktivieren Sie den Self-Service-Zugriff auf Informationen. Dadurch können Ihre Kunden sich selbst informieren und feststellen, ob sie Maßnahmen ergreifen müssen. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Mittel 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Status über Dashboards kommunizieren: Stellen Sie Dashboards zur Verfügung, die auf die jeweilige Zielgruppe zugeschnitten sind (z. B. interne technische Teams, Führungskräfte und Kunden), um diese über den aktuellen Betriebsstatus des Unternehmens zu informieren und interessante Metriken bereitzustellen. Die Bereitstellung einer Self-Service-Option für Statusinformationen reduziert Störungen aufgrund von gezielten Statusanfragen durch das Team des operativen Bereichs. Zu den Beispielen gehören Amazon CloudWatch-Dashboards und AWS Health Dashboard. 
  +  [CloudWatch-Dashboards erstellen und nutzen benutzerdefinierte Metrikansichten](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

## Ressourcen
<a name="resources"></a>

 **Zugehörige Dokumente:** 
+  [Quick](https://aws.amazon.com/quicksight/) 
+  [CloudWatch-Dashboards erstellen und nutzen benutzerdefinierte Metrikansichten](https://aws.amazon.com/blogs/aws/cloudwatch-dashboards-create-use-customized-metrics-views/) 

# OPS10-BP07 Automatisieren von Reaktionen auf Ereignisse
<a name="ops_event_response_auto_event_response"></a>

 Automatisieren Sie Reaktionen auf Ereignisse, um Fehler zu reduzieren, die durch manuelle Prozesse entstehen, und um schnelle und konsistente Reaktionen zu gewährleisten. 

 Es gibt mehrere Möglichkeiten, um Runbook- und Playbook-Aktionen auf AWS zu automatisieren. Um auf ein Ereignis aufgrund einer Statusänderung in Ihren AWS-Ressourcen oder von Ihren eigenen benutzerdefinierten Ereignissen zu reagieren, sollten Sie [CloudWatch Events-Regeln erstellen,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) um Antworten über CloudWatch-Ziele (zum Beispiel Lambda-Funktionen, Amazon Simple Notification Service-Themen (Amazon SNS), Amazon ECS-Aufgaben und AWS Systems Manager Automation) auszulösen. 

 Für Reaktionen auf eine Metrik, die einen Schwellenwert für eine Ressource überschreitet (z. B. eine Wartezeit), sollten Sie [CloudWatch-Alarme](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) erstellen, um mittels Amazon EC2 oder Auto Scaling-Aktionen eine oder mehrere Aktionen durchzuführen oder um eine Benachrichtigung an ein Amazon SNS-Thema zu senden. Wenn als Reaktion auf einen Alarm benutzerdefinierte Aktionen durchgeführt werden sollen, rufen Sie Lambda per Amazon SNS-Benachrichtigung auf. Veröffentlichen Sie Ereignisbenachrichtigungen und Eskalationsmitteilungen per Amazon SNS, um alle Betroffenen zu informieren. 

 AWS unterstützt über die AWS-Service-APIs und -SDKs auch Systeme von Drittanbietern. Es gibt eine Reihe von Überwachungs-Tools, die von AWS-Partnern und Dritten zur Verfügung gestellt werden und die Überwachung, Benachrichtigungen und Reaktionen ermöglichen. Dazu gehören zum Beispiel New Relic, Splunk, Loggly, SumoLogic und Datadog. 

 Für den Fall, dass bei wichtigen Vorgängen automatisierte Verfahren fehlschlagen, sollten Sie manuelle Verfahren bereithalten. 

 **Gängige Antimuster:** 
+  Ein Entwickler überprüft seinen Code. Aufgrund des Ereignisses hätte ein Build gestartet und Tests hätten durchgeführt werden können, aber stattdessen passiert nichts. 
+  Ihre Anwendung protokolliert einen bestimmten Fehler, bevor sie nicht mehr funktioniert. Das Verfahren zum Neustarten der Anwendung ist bekannt und könnte skriptbasiert ausgeführt werden. Sie können das Protokollereignis verwenden, um ein Skript aufzurufen und die Anwendung neu zu starten. Stattdessen werden Sie am Sonntagmorgen um 3 Uhr geweckt, da Sie als verantwortliche Person für die Behebung von Problemen des Systems Bereitschaftsdienst haben, als der Fehler auftritt. 

 **Vorteile der Einführung dieser bewährten Methode:** Dank automatisierter Reaktionen auf Ereignisse reduzieren Sie die Reaktionszeit und begrenzen das Fehlerpotenzial manueller Aktivitäten. 

 **Risikostufe, wenn diese bewährte Methode nicht eingeführt wird:** Niedrig 

## Implementierungsleitfaden
<a name="implementation-guidance"></a>
+  Reaktionen auf Ereignisse automatisieren: Automatisieren Sie Reaktionen auf Ereignisse, um Fehler zu reduzieren, die durch manuelle Prozesse entstehen, und um schnelle und konsistente Reaktionen zu gewährleisten. 
  +  [Was ist Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Erstellen einer CloudWatch Events-Regel, die nach einem Ereignis ausgelöst wird](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
  +  [Erstellen einer CloudWatch Events-Regel, die nach einem AWS-API-Aufruf mithilfe von AWS CloudTrail ausgelöst wird](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
  +  [CloudWatch Events-Ereignisbeispiele aus unterstützten Services](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 

## Ressourcen
<a name="resources"></a>

 **Zugehörige Dokumente:** 
+  [Amazon CloudWatch-Funktionen](https://aws.amazon.com/cloudwatch/features/) 
+  [CloudWatch Events-Ereignisbeispiele aus unterstützten Services](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/EventTypes.html) 
+  [Erstellen einer CloudWatch Events-Regel, die nach einem AWS-API-Aufruf mithilfe von AWS CloudTrail ausgelöst wird](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-CloudTrail-Rule.html) 
+  [Erstellen einer CloudWatch Events-Regel, die nach einem Ereignis ausgelöst wird](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/Create-CloudWatch-Events-Rule.html) 
+  [Was ist Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

 **Relevante Videos:** 
+  [Erstellen eines Überwachungsplans](https://www.youtube.com/watch?v=OMmiGETJpfU) 

 **Zugehörige Beispiele:** 