Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
AWSSupport-TroubleshootCloudWatchAlarm
Descrizione
Il AWSSupport-TroubleshootCloudWatchAlarm
runbook aiuta a identificare e risolvere i problemi relativi agli allarmi Amazon () non configurati correttamente o problematici. CloudWatch CloudWatch Sfrutta la logica di valutazione degli allarmi pubblici AWS APIs e noti per rilevare punti dati ritardati o mancanti nelle metriche monitorate, il che può portare a mancate o ritardate azioni di allarme. Questo runbook fornisce un approccio strutturato per indagare e risolvere i problemi relativi ad Amazon CloudWatch (CloudWatch) Alarm.
Come funziona?
Il runbook AWSSupport-TroubleshootCloudWatchAlarm
esegue i seguenti passaggi:
-
Verifica i dettagli dell'allarme Amazon CloudWatch (CloudWatch) e il valore del
AlarmTriggerTimestamp
parametro per verificare se è entro 2.592.000 secondi (30 giorni). -
Verifica se un allarme si basa su un sistema metrico o metrico matematico o se è un allarme che rileva anomalie.
-
Verifica se un allarme ha una sicurezza dati insufficiente.
-
Verifica se le metriche utilizzate nell'allarme corrispondono al
ListMetrics
valore. -
Verifica se a una metrica mancavano i datapoint in un determinato timestamp.
-
Ottiene la cronologia più recente per un determinato timestamp.
-
Verifica se un allarme non si è attivato a causa di una o più metriche ritardate o mancate.
-
Verifica se le azioni attivate di un allarme sono state eseguite. was/were
-
Genera un rapporto di risoluzione dei problemi che include tutti i risultati diagnostici.
Esegui questa automazione (console)
Tipo di documento
Automazione
Proprietario
Amazon
Piattaforme
LinuxmacOS, Windows
Parametri
Autorizzazioni IAM richieste
Il AutomationAssumeRole
parametro richiede le seguenti azioni per utilizzare correttamente il runbook.
cloudwatch:DescribeAlarms
cloudwatch:DescribeAlarmHistory
cloudwatch:DescribeAnomalyDetectors
cloudwatch:GetMetricData
cloudwatch:GetMetricStatistics
cloudwatch:ListMetrics
{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "cloudwatch:DescribeAlarms", "cloudwatch:DescribeAlarmHistory", "cloudwatch:DescribeAnomalyDetectors", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics" ], "Resource": "*" } ] }
Istruzioni
Segui questi passaggi per configurare l'automazione:
-
Accedere
AWSSupport-TroubleshootCloudWatchAlarm
a Systems Manager nella sezione Documenti. -
Seleziona Execute automation (Esegui automazione).
-
Per i parametri di input, immettete quanto segue:
-
AutomationAssumeRole (Facoltativo):
Tipo:
String
Descrizione: (Facoltativo) L'Amazon Resource Name (ARN) del ruolo AWS AWS Identity and Access Management (IAM) che consente a Systems Manager Automation di eseguire le azioni per tuo conto. Se non viene specificato alcun ruolo, Systems Manager Automation utilizza le autorizzazioni dell'utente che avvia questo runbook.
-
CloudWatchMetricAlarmName (Obbligatorio):
Tipo:
String
Descrizione: (Obbligatorio) Il nome del parametro Amazon CloudWatch (CloudWatch) Alarm da risolvere.
Modello consentito:
^[a-zA-Z0-9.:;,\\-_&() ]{1,255}$
-
AlarmTriggerTimestamp (Obbligatorio):
Tipo:
String
Descrizione: (Obbligatorio) Il timestamp UTC in cui si è verificato il problema di allarme. Queste informazioni sono fondamentali per risolvere il problema e comprendere il contesto in cui si è verificato. Il valore del timestamp deve essere un orario compreso tra gli ultimi 30 giorni a partire da oggi e nel formato.
YYYY-MM-DDTHH:mm:ssZ
Esempio:2024-10-29T09:04:00Z
Modello consentito:
^(\\d{4})-(\\d{2})-(\\d{2})T(\\d{2}):(\\d{2}):(\\d{2})Z$
-
-
Seleziona Esegui.
-
L'automazione viene avviata.
-
Il documento esegue le seguenti operazioni:
-
VerifyRunbookInputs
Verifica i dettagli dell'allarme Amazon CloudWatch (CloudWatch) e il valore del
AlarmTriggerTimestamp
parametro per verificare se è entro 2.592.000 secondi (30 giorni). -
UpdateSSMDocumentInputChecksVariable
Aggiorna la variabile
SSMDocumentInputChecks
con il valoreSSMDocumentInputChecks
del passaggio.VerifyRunbookInputs
-
BranchOnAlarmIsVerified
Succursali sulla verifica
AlarmTriggerTimestamp
degli input di Runbook e.CloudWatchAlarmName
-
CheckMetricAlarmType
Verifica se un allarme si basa su un sistema metrico o metrico matematico o se è un allarme che rileva anomalie.
-
CheckAlarmInInsufficientDataState
Verifica se un allarme ha una sicurezza dati insufficiente.
-
UpdateInsufficientDataChecksVariable
Aggiorna la variabile
InsufficientDataChecks
con il valoreInsufficientDataChecks
delCheckAlarmInInsufficientDataState
passaggio. -
BranchOnAlarmHasInsufficientData
Si ramifica sul
AlarmHasInsufficientData
valore delCheckAlarmInInsufficientDataState
passaggio, il passaggio predefinito èCheckMetricMismatch
. -
CheckMetricMismatch
Verifica se le metriche utilizzate nell'allarme corrispondono al
ListMetrics
valore. -
UpdateMetricMismatchChecksVariable
Aggiorna la variabile
MetricMismatchChecks
con il valoreMetricMismatchChecks
delCheckMetricMismatch
passaggio. -
BranchOnMetricsMatched
Si ramifica sul
MetricsMatched
valore delCheckMetricMismatch
passaggio, il passaggio predefinito èCheckMissingDatapoint
. -
CheckMissingDatapoint
Verifica se a una metrica mancavano i punti dati in un determinato timestamp.
-
UpdateMetricMissingDatapointsChecksVariable
Aggiorna la variabile con il valore del passaggio.
MetricMissingDatapointsChecks
MetricMissingDatapointsChecks
CheckMissingDatapoint
-
BranchOnMetricMissingDatapoint
Si ramifica sul
MetricMissingDatapoint
valore delCheckMissingDatapoint
passaggio, il passaggio predefinito èGetAlarmHistoryDetails
. -
GetAlarmHistoryDetails
Ottiene la cronologia più recente per un determinato timestamp.
-
UpdateAlarmHistoryChecksVariable
Aggiorna la variabile
AlarmHistoryChecks
con il valore delAlarmHistoryChecks
passaggioGetAlarmHistoryDetails
. -
BranchOnAlarmHistoryFound
Si ramifica sul
AlarmHistoryFound
valore delGetAlarmHistoryDetails
passaggio, il passaggio predefinito èCheckDelayedMetric
. -
CheckDelayedMetric
Verifica se un allarme non si è attivato a causa di una o più metriche ritardate o mancate.
-
UpdateDelayedMetricChecksVariable
Aggiorna la variabile
DelayedMetricChecks
con il valore delDelayedMetricChecks
passaggioCheckDelayedMetric
. -
BranchOnMetricDelayedAndDatapointsMeetThreshold
I rami
MetricDelayed
e iDatapointsMeetThreshold
valori delCheckDelayedMetric
passaggio, il passaggio predefinito èGenerateReport
. -
CheckActionDelivered
Verifica se le azioni abilitate di un allarme sono state was/were eseguite.
-
UpdateActionDeliveredChecksVariable
Aggiorna la variabile
ActionDeliveredChecks
con l'outputActionDeliveredChecks
delCheckActionDelivered
passaggio. -
GenerateReport
Compila l'output dei passaggi precedenti e genera un rapporto.
-
-
Una volta completata l'esecuzione, consulta la sezione Output per i risultati dettagliati dell'esecuzione:
-
GenerateReport.Rapporto
Un rapporto sulla metrica Amazon CloudWatch (CloudWatch) Alarm fornita.
------------------------------------------------------------------------------------------ | AWS CloudWatch Alarm Troubleshooting Results | ------------------------------------------------------------------------------------------ | Alarm Name - Demo-Alarm | | Timestamp - 2025-03-04T06:31:00Z | ------------------------------------------------------------------------------------------ | ✅ No Issue(s) Found | ------------------------------------------------------------------------------------------ ========================================================================================== 1. Validating SSM Document input parameters: ========================================================================================== ✅ [PASSED]: Found a metric alarm with name Demo-Alarm ========================================================================================== 2. Checking alarm's data state: ========================================================================================== ✅ [PASSED]: The alarm is not in INSUFFICIENT_DATA state, alarm's state is: ALARM ========================================================================================== 3. Checking if the alarm experienced metric mismatches: ========================================================================================== ✅ [PASSED]: Metric matches with the configured metric for Alarm. ========================================================================================== 4. Checking if the alarm's metric(s) experienced missing datapoint(s): ========================================================================================== ✅ [PASSED]: Metric has datapoints ========================================================================================== 5. Retrieving alarm's history for timestamp 2025-03-04T06:31:00Z: ========================================================================================== ✅ [PASSED]: Found most recent alarm history item for the provided timestamp: '2025-03-04T06:31:00Z' ========================================================================================== 6. Checking if the alarm experienced metric delays or the alarm's datapoint(s) did not meet the configured threshold: ========================================================================================== ✅ [PASSED]: CloudWatch alarm did not experience any delayed metric ========================================================================================== 7. Checking if the alarm has actions enabled and if action(s) were delivered: ========================================================================================== ✅ [PASSED]: Successfully executed action arn:aws:sns:us-east-1:12345678910:Demo_Alarms_Topic ------------------------------------------------------------------------------------------ ✅ All the checks have passed for CloudWatch alarm, Demo-Alarm, the alarm's configuration is correct.
-
Riferimenti
Systems Manager Automation