Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWSSupport-TroubleshootCloudWatchAlarm
Beschreibung
Das AWSSupport-TroubleshootCloudWatchAlarm Runbook hilft bei der Identifizierung und Behebung von Problemen mit falsch konfigurierten oder problematischen Amazon CloudWatch (CloudWatch) -Alarmen. Es nutzt öffentliche AWS APIs und bekannte Alarmauswertungslogik, um verzögerte oder fehlende Datenpunkte in den überwachten Messwerten zu erkennen, was zu verpassten oder verzögerten Alarmaktionen führen kann. Dieses Runbook bietet einen strukturierten Ansatz zur Untersuchung und Lösung von Problemen im Zusammenhang mit Amazon CloudWatch (CloudWatch) Alarm.
Wie funktioniert es?
Das Runbook AWSSupport-TroubleshootCloudWatchAlarm führt die folgenden Schritte aus:
-
Überprüft die Amazon CloudWatch (CloudWatch) -Alarmdetails und den Wert des
AlarmTriggerTimestampParameters, um zu überprüfen, ob er innerhalb von 2.592.000 Sekunden (30 Tagen) eintrifft. -
Überprüft, ob ein Alarm auf einer metrischen oder metrischen Berechnung basiert oder ob es sich um einen Alarm mit einem Anomaliedetektor handelt.
-
Prüft, ob der Datenstatus eines Alarms unzureichend ist.
-
Überprüft, ob die im Alarm verwendete (n) Metrik (en) mit dem
ListMetricsWert übereinstimmt. -
Überprüft, ob bei einer Metrik zu einem bestimmten Zeitstempel Datenpunkt (e) fehlten.
-
Ruft den neuesten Verlauf für einen bestimmten Zeitstempel ab.
-
Prüft, ob aufgrund verzögerter oder verpasster Metrik (en) kein Alarm ausgelöst wurde.
-
Prüft, ob die für einen Alarm aktivierten Aktion (en) ausgelöst was/were wurden.
-
Generiert einen Bericht zur Fehlerbehebung, in dem alle Diagnoseergebnisse zusammengefasst sind.
Führen Sie diese Automatisierung aus (Konsole)
Art des Dokuments
Automatisierung
Eigentümer
Amazon
Plattformen
LinuxmacOS, Windows
Parameter
Erforderliche IAM-Berechtigungen
Der AutomationAssumeRole Parameter erfordert die folgenden Aktionen, um das Runbook erfolgreich zu verwenden.
cloudwatch:DescribeAlarmscloudwatch:DescribeAlarmHistorycloudwatch:DescribeAnomalyDetectorscloudwatch:GetMetricDatacloudwatch:GetMetricStatisticscloudwatch:ListMetrics
{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "cloudwatch:DescribeAlarms", "cloudwatch:DescribeAlarmHistory", "cloudwatch:DescribeAnomalyDetectors", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics" ], "Resource": "*" } ] }
Anweisungen
Gehen Sie wie folgt vor, um die Automatisierung zu konfigurieren:
-
Navigieren Sie
AWSSupport-TroubleshootCloudWatchAlarmim Systems Manager unter Dokumente zu. -
Wählen Sie Execute automation (Automatisierung ausführen).
-
Geben Sie für die Eingabeparameter Folgendes ein:
-
AutomationAssumeRole (Fakultativ):
Typ:
StringBeschreibung: (Optional) Der Amazon-Ressourcenname (ARN) der AWS AWS Identity and Access Management (IAM) -Rolle, mit der Systems Manager Automation die Aktionen in Ihrem Namen ausführen kann. Wenn keine Rolle angegeben ist, verwendet Systems Manager Automation die Berechtigungen des Benutzers, der dieses Runbook startet.
-
CloudWatchMetricAlarmName (Erforderlich):
Typ:
StringBeschreibung: (Erforderlich) Der Name des Amazon CloudWatch (CloudWatch) -Metrikalarms für die Fehlerbehebung.
Zulässiges Muster:
^[a-zA-Z0-9.:;,\\-_&() ]{1,255}$
-
AlarmTriggerTimestamp (Erforderlich):
Typ:
StringBeschreibung: (Erforderlich) Der UTC-Zeitstempel, als das Alarmproblem aufgetreten ist. Diese Informationen sind wichtig, um das Problem zu beheben und den Kontext zu verstehen, in dem es aufgetreten ist. Der Zeitstempelwert sollte eine Uhrzeit innerhalb der letzten 30 Tage ab heute sein und das Format
YYYY-MM-DDTHH:mm:ssZhaben. Beispiel:2024-10-29T09:04:00ZZulässiges Muster:
^(\\d{4})-(\\d{2})-(\\d{2})T(\\d{2}):(\\d{2}):(\\d{2})Z$
-
-
Wählen Sie Ausführen aus.
-
Die Automatisierung wird initiiert.
-
Das Dokument führt die folgenden Schritte aus:
-
VerifyRunbookInputsÜberprüft die Amazon CloudWatch (CloudWatch) -Alarmdetails und den Wert des
AlarmTriggerTimestampParameters, um zu überprüfen, ob er innerhalb von 2.592.000 Sekunden (30 Tagen) eintrifft. -
UpdateSSMDocumentInputChecksVariableAktualisiert die Variable
SSMDocumentInputChecksmit dem WertSSMDocumentInputChecksaus Schritt.VerifyRunbookInputs -
BranchOnAlarmIsVerifiedVerzweigt bei der Überprüfung der Eingaben von Runbook
AlarmTriggerTimestampundCloudWatchAlarmName. -
CheckMetricAlarmTypeÜberprüft, ob ein Alarm auf einer metrischen oder metrischen Mathematik basiert oder ob es sich um einen Alarm mit einem Anomaliedetektor handelt.
-
CheckAlarmInInsufficientDataStatePrüft, ob der Datenstatus eines Alarms unzureichend ist.
-
UpdateInsufficientDataChecksVariableAktualisiert die Variable
InsufficientDataChecksmit dem WertInsufficientDataChecksausCheckAlarmInInsufficientDataStateSchritt 1. -
BranchOnAlarmHasInsufficientDataVerzweigt nach dem
AlarmHasInsufficientDataWert ausCheckAlarmInInsufficientDataStateSchritt, der Standardschritt istCheckMetricMismatch. -
CheckMetricMismatchÜberprüft, ob die im Alarm verwendete (n) Metrik (en) mit dem
ListMetricsWert übereinstimmt. -
UpdateMetricMismatchChecksVariableAktualisiert die Variable
MetricMismatchChecksmit dem WertMetricMismatchChecksausCheckMetricMismatchSchritt. -
BranchOnMetricsMatchedVerzweigt nach dem
MetricsMatchedWert ausCheckMetricMismatchSchritt, der Standardschritt istCheckMissingDatapoint. -
CheckMissingDatapointÜberprüft, ob bei einer Metrik zu einem bestimmten Zeitstempel Datenpunkt (e) fehlten.
-
UpdateMetricMissingDatapointsChecksVariableAktualisiert die Variable
MetricMissingDatapointsChecksmit dem Wert aus Schritt.MetricMissingDatapointsChecksCheckMissingDatapoint -
BranchOnMetricMissingDatapointVerzweigt nach dem
MetricMissingDatapointWert ausCheckMissingDatapointSchritt, der Standardschritt istGetAlarmHistoryDetails. -
GetAlarmHistoryDetailsRuft den neuesten Verlauf für einen bestimmten Zeitstempel ab.
-
UpdateAlarmHistoryChecksVariableAktualisiert die Variable
AlarmHistoryChecksmit dem WertAlarmHistoryChecksausGetAlarmHistoryDetailsSchritt. -
BranchOnAlarmHistoryFoundVerzweigt nach dem
AlarmHistoryFoundWert ausGetAlarmHistoryDetailsSchritt, der Standardschritt istCheckDelayedMetric. -
CheckDelayedMetricPrüft, ob aufgrund verzögerter oder verpasster Metrik (en) kein Alarm ausgelöst wurde.
-
UpdateDelayedMetricChecksVariableAktualisiert die Variable
DelayedMetricChecksmit dem WertDelayedMetricChecksausCheckDelayedMetricSchritt. -
BranchOnMetricDelayedAndDatapointsMeetThresholdVerzweigt nach dem Schritt
MetricDelayedund denDatapointsMeetThresholdWerten ausCheckDelayedMetricSchritt, der Standardschritt istGenerateReport. -
CheckActionDeliveredÜberprüft, ob die für einen Alarm aktivierten Aktion (en) ausgelöst was/were wurden.
-
UpdateActionDeliveredChecksVariableAktualisiert die Variable
ActionDeliveredChecksmit der AusgabeActionDeliveredChecksausCheckActionDeliveredSchritt. -
GenerateReportKompiliert die Ausgabe der vorherigen Schritte und gibt einen Bericht aus.
-
-
Nach Abschluss der Ausführung finden Sie im Abschnitt Ausgaben die detaillierten Ergebnisse der Ausführung:
-
GenerateReport. Bericht
Ein Bericht über den bereitgestellten Amazon CloudWatch (CloudWatch) -Metrik-Alarm.
------------------------------------------------------------------------------------------ | AWS CloudWatch Alarm Troubleshooting Results | ------------------------------------------------------------------------------------------ | Alarm Name - Demo-Alarm | | Timestamp - 2025-03-04T06:31:00Z | ------------------------------------------------------------------------------------------ | ✅ No Issue(s) Found | ------------------------------------------------------------------------------------------ ========================================================================================== 1. Validating SSM Document input parameters: ========================================================================================== ✅ [PASSED]: Found a metric alarm with name Demo-Alarm ========================================================================================== 2. Checking alarm's data state: ========================================================================================== ✅ [PASSED]: The alarm is not in INSUFFICIENT_DATA state, alarm's state is: ALARM ========================================================================================== 3. Checking if the alarm experienced metric mismatches: ========================================================================================== ✅ [PASSED]: Metric matches with the configured metric for Alarm. ========================================================================================== 4. Checking if the alarm's metric(s) experienced missing datapoint(s): ========================================================================================== ✅ [PASSED]: Metric has datapoints ========================================================================================== 5. Retrieving alarm's history for timestamp 2025-03-04T06:31:00Z: ========================================================================================== ✅ [PASSED]: Found most recent alarm history item for the provided timestamp: '2025-03-04T06:31:00Z' ========================================================================================== 6. Checking if the alarm experienced metric delays or the alarm's datapoint(s) did not meet the configured threshold: ========================================================================================== ✅ [PASSED]: CloudWatch alarm did not experience any delayed metric ========================================================================================== 7. Checking if the alarm has actions enabled and if action(s) were delivered: ========================================================================================== ✅ [PASSED]: Successfully executed action arn:aws:sns:us-east-1:12345678910:Demo_Alarms_Topic ------------------------------------------------------------------------------------------ ✅ All the checks have passed for CloudWatch alarm, Demo-Alarm, the alarm's configuration is correct. -
Referenzen
Systems Manager Automation