Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWSSupport-TroubleshootCloudWatchAlarm
Descrizione
Il AWSSupport-TroubleshootCloudWatchAlarm runbook aiuta a identificare e risolvere i problemi relativi agli allarmi Amazon () non configurati correttamente o problematici. CloudWatch CloudWatch Sfrutta la logica di valutazione degli allarmi pubblici AWS APIs e noti per rilevare punti dati ritardati o mancanti nelle metriche monitorate, il che può portare a mancate o ritardate azioni di allarme. Questo runbook fornisce un approccio strutturato per indagare e risolvere i problemi relativi ad Amazon CloudWatch (CloudWatch) Alarm.
Come funziona?
Il runbook AWSSupport-TroubleshootCloudWatchAlarm esegue i seguenti passaggi:
-
Verifica i dettagli dell'allarme Amazon CloudWatch (CloudWatch) e il valore del
AlarmTriggerTimestampparametro per verificare se è entro 2.592.000 secondi (30 giorni). -
Verifica se un allarme si basa su un sistema metrico o metrico matematico o se è un allarme che rileva anomalie.
-
Verifica se un allarme ha una sicurezza dati insufficiente.
-
Verifica se le metriche utilizzate nell'allarme corrispondono al
ListMetricsvalore. -
Verifica se a una metrica mancavano i datapoint in un determinato timestamp.
-
Ottiene la cronologia più recente per un determinato timestamp.
-
Verifica se un allarme non si è attivato a causa di una o più metriche ritardate o mancate.
-
Verifica se le azioni attivate di un allarme sono state eseguite. was/were
-
Genera un rapporto di risoluzione dei problemi che include tutti i risultati diagnostici.
Esegui questa automazione (console)
Tipo di documento
Automazione
Proprietario
Amazon
Piattaforme
LinuxmacOS, Windows
Parametri
Autorizzazioni IAM richieste
Il AutomationAssumeRole parametro richiede le seguenti azioni per utilizzare correttamente il runbook.
cloudwatch:DescribeAlarmscloudwatch:DescribeAlarmHistorycloudwatch:DescribeAnomalyDetectorscloudwatch:GetMetricDatacloudwatch:GetMetricStatisticscloudwatch:ListMetrics
{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "cloudwatch:DescribeAlarms", "cloudwatch:DescribeAlarmHistory", "cloudwatch:DescribeAnomalyDetectors", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics" ], "Resource": "*" } ] }
Istruzioni
Segui questi passaggi per configurare l'automazione:
-
Accedere
AWSSupport-TroubleshootCloudWatchAlarma Systems Manager nella sezione Documenti. -
Seleziona Execute automation (Esegui automazione).
-
Per i parametri di input, immettete quanto segue:
-
AutomationAssumeRole (Facoltativo):
Tipo:
StringDescrizione: (Facoltativo) L'Amazon Resource Name (ARN) del ruolo AWS AWS Identity and Access Management (IAM) che consente a Systems Manager Automation di eseguire le azioni per tuo conto. Se non viene specificato alcun ruolo, Systems Manager Automation utilizza le autorizzazioni dell'utente che avvia questo runbook.
-
CloudWatchMetricAlarmName (Obbligatorio):
Tipo:
StringDescrizione: (Obbligatorio) Il nome del parametro Amazon CloudWatch (CloudWatch) Alarm da risolvere.
Modello consentito:
^[a-zA-Z0-9.:;,\\-_&() ]{1,255}$
-
AlarmTriggerTimestamp (Obbligatorio):
Tipo:
StringDescrizione: (Obbligatorio) Il timestamp UTC in cui si è verificato il problema di allarme. Queste informazioni sono fondamentali per risolvere il problema e comprendere il contesto in cui si è verificato. Il valore del timestamp deve essere un orario compreso tra gli ultimi 30 giorni a partire da oggi e nel formato.
YYYY-MM-DDTHH:mm:ssZEsempio:2024-10-29T09:04:00ZModello consentito:
^(\\d{4})-(\\d{2})-(\\d{2})T(\\d{2}):(\\d{2}):(\\d{2})Z$
-
-
Seleziona Esegui.
-
L'automazione viene avviata.
-
Il documento esegue le seguenti operazioni:
-
VerifyRunbookInputsVerifica i dettagli dell'allarme Amazon CloudWatch (CloudWatch) e il valore del
AlarmTriggerTimestampparametro per verificare se è entro 2.592.000 secondi (30 giorni). -
UpdateSSMDocumentInputChecksVariableAggiorna la variabile
SSMDocumentInputCheckscon il valoreSSMDocumentInputChecksdel passaggio.VerifyRunbookInputs -
BranchOnAlarmIsVerifiedSuccursali sulla verifica
AlarmTriggerTimestampdegli input di Runbook e.CloudWatchAlarmName -
CheckMetricAlarmTypeVerifica se un allarme si basa su un sistema metrico o metrico matematico o se è un allarme che rileva anomalie.
-
CheckAlarmInInsufficientDataStateVerifica se un allarme ha una sicurezza dati insufficiente.
-
UpdateInsufficientDataChecksVariableAggiorna la variabile
InsufficientDataCheckscon il valoreInsufficientDataChecksdelCheckAlarmInInsufficientDataStatepassaggio. -
BranchOnAlarmHasInsufficientDataSi ramifica sul
AlarmHasInsufficientDatavalore delCheckAlarmInInsufficientDataStatepassaggio, il passaggio predefinito èCheckMetricMismatch. -
CheckMetricMismatchVerifica se le metriche utilizzate nell'allarme corrispondono al
ListMetricsvalore. -
UpdateMetricMismatchChecksVariableAggiorna la variabile
MetricMismatchCheckscon il valoreMetricMismatchChecksdelCheckMetricMismatchpassaggio. -
BranchOnMetricsMatchedSi ramifica sul
MetricsMatchedvalore delCheckMetricMismatchpassaggio, il passaggio predefinito èCheckMissingDatapoint. -
CheckMissingDatapointVerifica se a una metrica mancavano i punti dati in un determinato timestamp.
-
UpdateMetricMissingDatapointsChecksVariableAggiorna la variabile con il valore del passaggio.
MetricMissingDatapointsChecksMetricMissingDatapointsChecksCheckMissingDatapoint -
BranchOnMetricMissingDatapointSi ramifica sul
MetricMissingDatapointvalore delCheckMissingDatapointpassaggio, il passaggio predefinito èGetAlarmHistoryDetails. -
GetAlarmHistoryDetailsOttiene la cronologia più recente per un determinato timestamp.
-
UpdateAlarmHistoryChecksVariableAggiorna la variabile
AlarmHistoryCheckscon il valore delAlarmHistoryCheckspassaggioGetAlarmHistoryDetails. -
BranchOnAlarmHistoryFoundSi ramifica sul
AlarmHistoryFoundvalore delGetAlarmHistoryDetailspassaggio, il passaggio predefinito èCheckDelayedMetric. -
CheckDelayedMetricVerifica se un allarme non si è attivato a causa di una o più metriche ritardate o mancate.
-
UpdateDelayedMetricChecksVariableAggiorna la variabile
DelayedMetricCheckscon il valore delDelayedMetricCheckspassaggioCheckDelayedMetric. -
BranchOnMetricDelayedAndDatapointsMeetThresholdI rami
MetricDelayede iDatapointsMeetThresholdvalori delCheckDelayedMetricpassaggio, il passaggio predefinito èGenerateReport. -
CheckActionDeliveredVerifica se le azioni abilitate di un allarme sono state was/were eseguite.
-
UpdateActionDeliveredChecksVariableAggiorna la variabile
ActionDeliveredCheckscon l'outputActionDeliveredChecksdelCheckActionDeliveredpassaggio. -
GenerateReportCompila l'output dei passaggi precedenti e genera un rapporto.
-
-
Una volta completata l'esecuzione, consulta la sezione Output per i risultati dettagliati dell'esecuzione:
-
GenerateReport.Rapporto
Un rapporto sulla metrica Amazon CloudWatch (CloudWatch) Alarm fornita.
------------------------------------------------------------------------------------------ | AWS CloudWatch Alarm Troubleshooting Results | ------------------------------------------------------------------------------------------ | Alarm Name - Demo-Alarm | | Timestamp - 2025-03-04T06:31:00Z | ------------------------------------------------------------------------------------------ | ✅ No Issue(s) Found | ------------------------------------------------------------------------------------------ ========================================================================================== 1. Validating SSM Document input parameters: ========================================================================================== ✅ [PASSED]: Found a metric alarm with name Demo-Alarm ========================================================================================== 2. Checking alarm's data state: ========================================================================================== ✅ [PASSED]: The alarm is not in INSUFFICIENT_DATA state, alarm's state is: ALARM ========================================================================================== 3. Checking if the alarm experienced metric mismatches: ========================================================================================== ✅ [PASSED]: Metric matches with the configured metric for Alarm. ========================================================================================== 4. Checking if the alarm's metric(s) experienced missing datapoint(s): ========================================================================================== ✅ [PASSED]: Metric has datapoints ========================================================================================== 5. Retrieving alarm's history for timestamp 2025-03-04T06:31:00Z: ========================================================================================== ✅ [PASSED]: Found most recent alarm history item for the provided timestamp: '2025-03-04T06:31:00Z' ========================================================================================== 6. Checking if the alarm experienced metric delays or the alarm's datapoint(s) did not meet the configured threshold: ========================================================================================== ✅ [PASSED]: CloudWatch alarm did not experience any delayed metric ========================================================================================== 7. Checking if the alarm has actions enabled and if action(s) were delivered: ========================================================================================== ✅ [PASSED]: Successfully executed action arn:aws:sns:us-east-1:12345678910:Demo_Alarms_Topic ------------------------------------------------------------------------------------------ ✅ All the checks have passed for CloudWatch alarm, Demo-Alarm, the alarm's configuration is correct. -
Riferimenti
Systems Manager Automation