Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
AWSSupport-TroubleshootCloudWatchAlarm
Beschreibung
Das AWSSupport-TroubleshootCloudWatchAlarm
Runbook hilft bei der Identifizierung und Behebung von Problemen mit falsch konfigurierten oder problematischen Amazon CloudWatch (CloudWatch) -Alarmen. Es nutzt öffentliche AWS APIs und bekannte Alarmauswertungslogik, um verzögerte oder fehlende Datenpunkte in den überwachten Messwerten zu erkennen, was zu verpassten oder verzögerten Alarmaktionen führen kann. Dieses Runbook bietet einen strukturierten Ansatz zur Untersuchung und Lösung von Problemen im Zusammenhang mit Amazon CloudWatch (CloudWatch) Alarm.
Wie funktioniert es?
Das Runbook AWSSupport-TroubleshootCloudWatchAlarm
führt die folgenden Schritte aus:
-
Überprüft die Amazon CloudWatch (CloudWatch) -Alarmdetails und den Wert des
AlarmTriggerTimestamp
Parameters, um zu überprüfen, ob er innerhalb von 2.592.000 Sekunden (30 Tagen) eintrifft. -
Überprüft, ob ein Alarm auf einer metrischen oder metrischen Berechnung basiert oder ob es sich um einen Alarm mit einem Anomaliedetektor handelt.
-
Prüft, ob der Datenstatus eines Alarms unzureichend ist.
-
Überprüft, ob die im Alarm verwendete (n) Metrik (en) mit dem
ListMetrics
Wert übereinstimmt. -
Überprüft, ob bei einer Metrik zu einem bestimmten Zeitstempel Datenpunkt (e) fehlten.
-
Ruft den neuesten Verlauf für einen bestimmten Zeitstempel ab.
-
Prüft, ob aufgrund verzögerter oder verpasster Metrik (en) kein Alarm ausgelöst wurde.
-
Prüft, ob die für einen Alarm aktivierten Aktion (en) ausgelöst was/were wurden.
-
Generiert einen Bericht zur Fehlerbehebung, in dem alle Diagnoseergebnisse zusammengefasst sind.
Führen Sie diese Automatisierung aus (Konsole)
Art des Dokuments
Automatisierung
Eigentümer
Amazon
Plattformen
LinuxmacOS, Windows
Parameter
Erforderliche IAM-Berechtigungen
Der AutomationAssumeRole
Parameter erfordert die folgenden Aktionen, um das Runbook erfolgreich zu verwenden.
cloudwatch:DescribeAlarms
cloudwatch:DescribeAlarmHistory
cloudwatch:DescribeAnomalyDetectors
cloudwatch:GetMetricData
cloudwatch:GetMetricStatistics
cloudwatch:ListMetrics
{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "cloudwatch:DescribeAlarms", "cloudwatch:DescribeAlarmHistory", "cloudwatch:DescribeAnomalyDetectors", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics" ], "Resource": "*" } ] }
Anweisungen
Gehen Sie wie folgt vor, um die Automatisierung zu konfigurieren:
-
Navigieren Sie
AWSSupport-TroubleshootCloudWatchAlarm
im Systems Manager unter Dokumente zu. -
Wählen Sie Execute automation (Automatisierung ausführen).
-
Geben Sie für die Eingabeparameter Folgendes ein:
-
AutomationAssumeRole (Fakultativ):
Typ:
String
Beschreibung: (Optional) Der Amazon-Ressourcenname (ARN) der AWS AWS Identity and Access Management (IAM) -Rolle, mit der Systems Manager Automation die Aktionen in Ihrem Namen ausführen kann. Wenn keine Rolle angegeben ist, verwendet Systems Manager Automation die Berechtigungen des Benutzers, der dieses Runbook startet.
-
CloudWatchMetricAlarmName (Erforderlich):
Typ:
String
Beschreibung: (Erforderlich) Der Name des Amazon CloudWatch (CloudWatch) -Metrikalarms für die Fehlerbehebung.
Zulässiges Muster:
^[a-zA-Z0-9.:;,\\-_&() ]{1,255}$
-
AlarmTriggerTimestamp (Erforderlich):
Typ:
String
Beschreibung: (Erforderlich) Der UTC-Zeitstempel, als das Alarmproblem aufgetreten ist. Diese Informationen sind wichtig, um das Problem zu beheben und den Kontext zu verstehen, in dem es aufgetreten ist. Der Zeitstempelwert sollte eine Uhrzeit innerhalb der letzten 30 Tage ab heute sein und das Format
YYYY-MM-DDTHH:mm:ssZ
haben. Beispiel:2024-10-29T09:04:00Z
Zulässiges Muster:
^(\\d{4})-(\\d{2})-(\\d{2})T(\\d{2}):(\\d{2}):(\\d{2})Z$
-
-
Wählen Sie Ausführen aus.
-
Die Automatisierung wird initiiert.
-
Das Dokument führt die folgenden Schritte aus:
-
VerifyRunbookInputs
Überprüft die Amazon CloudWatch (CloudWatch) -Alarmdetails und den Wert des
AlarmTriggerTimestamp
Parameters, um zu überprüfen, ob er innerhalb von 2.592.000 Sekunden (30 Tagen) eintrifft. -
UpdateSSMDocumentInputChecksVariable
Aktualisiert die Variable
SSMDocumentInputChecks
mit dem WertSSMDocumentInputChecks
aus Schritt.VerifyRunbookInputs
-
BranchOnAlarmIsVerified
Verzweigt bei der Überprüfung der Eingaben von Runbook
AlarmTriggerTimestamp
undCloudWatchAlarmName
. -
CheckMetricAlarmType
Überprüft, ob ein Alarm auf einer metrischen oder metrischen Mathematik basiert oder ob es sich um einen Alarm mit einem Anomaliedetektor handelt.
-
CheckAlarmInInsufficientDataState
Prüft, ob der Datenstatus eines Alarms unzureichend ist.
-
UpdateInsufficientDataChecksVariable
Aktualisiert die Variable
InsufficientDataChecks
mit dem WertInsufficientDataChecks
ausCheckAlarmInInsufficientDataState
Schritt 1. -
BranchOnAlarmHasInsufficientData
Verzweigt nach dem
AlarmHasInsufficientData
Wert ausCheckAlarmInInsufficientDataState
Schritt, der Standardschritt istCheckMetricMismatch
. -
CheckMetricMismatch
Überprüft, ob die im Alarm verwendete (n) Metrik (en) mit dem
ListMetrics
Wert übereinstimmt. -
UpdateMetricMismatchChecksVariable
Aktualisiert die Variable
MetricMismatchChecks
mit dem WertMetricMismatchChecks
ausCheckMetricMismatch
Schritt. -
BranchOnMetricsMatched
Verzweigt nach dem
MetricsMatched
Wert ausCheckMetricMismatch
Schritt, der Standardschritt istCheckMissingDatapoint
. -
CheckMissingDatapoint
Überprüft, ob bei einer Metrik zu einem bestimmten Zeitstempel Datenpunkt (e) fehlten.
-
UpdateMetricMissingDatapointsChecksVariable
Aktualisiert die Variable
MetricMissingDatapointsChecks
mit dem Wert aus Schritt.MetricMissingDatapointsChecks
CheckMissingDatapoint
-
BranchOnMetricMissingDatapoint
Verzweigt nach dem
MetricMissingDatapoint
Wert ausCheckMissingDatapoint
Schritt, der Standardschritt istGetAlarmHistoryDetails
. -
GetAlarmHistoryDetails
Ruft den neuesten Verlauf für einen bestimmten Zeitstempel ab.
-
UpdateAlarmHistoryChecksVariable
Aktualisiert die Variable
AlarmHistoryChecks
mit dem WertAlarmHistoryChecks
ausGetAlarmHistoryDetails
Schritt. -
BranchOnAlarmHistoryFound
Verzweigt nach dem
AlarmHistoryFound
Wert ausGetAlarmHistoryDetails
Schritt, der Standardschritt istCheckDelayedMetric
. -
CheckDelayedMetric
Prüft, ob aufgrund verzögerter oder verpasster Metrik (en) kein Alarm ausgelöst wurde.
-
UpdateDelayedMetricChecksVariable
Aktualisiert die Variable
DelayedMetricChecks
mit dem WertDelayedMetricChecks
ausCheckDelayedMetric
Schritt. -
BranchOnMetricDelayedAndDatapointsMeetThreshold
Verzweigt nach dem Schritt
MetricDelayed
und denDatapointsMeetThreshold
Werten ausCheckDelayedMetric
Schritt, der Standardschritt istGenerateReport
. -
CheckActionDelivered
Überprüft, ob die für einen Alarm aktivierten Aktion (en) ausgelöst was/were wurden.
-
UpdateActionDeliveredChecksVariable
Aktualisiert die Variable
ActionDeliveredChecks
mit der AusgabeActionDeliveredChecks
ausCheckActionDelivered
Schritt. -
GenerateReport
Kompiliert die Ausgabe der vorherigen Schritte und gibt einen Bericht aus.
-
-
Nach Abschluss der Ausführung finden Sie im Abschnitt Ausgaben die detaillierten Ergebnisse der Ausführung:
-
GenerateReport. Bericht
Ein Bericht über den bereitgestellten Amazon CloudWatch (CloudWatch) -Metrik-Alarm.
------------------------------------------------------------------------------------------ | AWS CloudWatch Alarm Troubleshooting Results | ------------------------------------------------------------------------------------------ | Alarm Name - Demo-Alarm | | Timestamp - 2025-03-04T06:31:00Z | ------------------------------------------------------------------------------------------ | ✅ No Issue(s) Found | ------------------------------------------------------------------------------------------ ========================================================================================== 1. Validating SSM Document input parameters: ========================================================================================== ✅ [PASSED]: Found a metric alarm with name Demo-Alarm ========================================================================================== 2. Checking alarm's data state: ========================================================================================== ✅ [PASSED]: The alarm is not in INSUFFICIENT_DATA state, alarm's state is: ALARM ========================================================================================== 3. Checking if the alarm experienced metric mismatches: ========================================================================================== ✅ [PASSED]: Metric matches with the configured metric for Alarm. ========================================================================================== 4. Checking if the alarm's metric(s) experienced missing datapoint(s): ========================================================================================== ✅ [PASSED]: Metric has datapoints ========================================================================================== 5. Retrieving alarm's history for timestamp 2025-03-04T06:31:00Z: ========================================================================================== ✅ [PASSED]: Found most recent alarm history item for the provided timestamp: '2025-03-04T06:31:00Z' ========================================================================================== 6. Checking if the alarm experienced metric delays or the alarm's datapoint(s) did not meet the configured threshold: ========================================================================================== ✅ [PASSED]: CloudWatch alarm did not experience any delayed metric ========================================================================================== 7. Checking if the alarm has actions enabled and if action(s) were delivered: ========================================================================================== ✅ [PASSED]: Successfully executed action arn:aws:sns:us-east-1:12345678910:Demo_Alarms_Topic ------------------------------------------------------------------------------------------ ✅ All the checks have passed for CloudWatch alarm, Demo-Alarm, the alarm's configuration is correct.
-
Referenzen
Systems Manager Automation