AWSSupport-TroubleshootCloudWatchAlarm - AWS Systems Manager Riferimento al runbook di automazione

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

AWSSupport-TroubleshootCloudWatchAlarm

Descrizione

Il AWSSupport-TroubleshootCloudWatchAlarm runbook aiuta a identificare e risolvere i problemi relativi agli allarmi Amazon () non configurati correttamente o problematici. CloudWatch CloudWatch Sfrutta la logica di valutazione degli allarmi pubblici AWS APIs e noti per rilevare punti dati ritardati o mancanti nelle metriche monitorate, il che può portare a mancate o ritardate azioni di allarme. Questo runbook fornisce un approccio strutturato per indagare e risolvere i problemi relativi ad Amazon CloudWatch (CloudWatch) Alarm.

Come funziona?

Il runbook AWSSupport-TroubleshootCloudWatchAlarm esegue i seguenti passaggi:

  • Verifica i dettagli dell'allarme Amazon CloudWatch (CloudWatch) e il valore del AlarmTriggerTimestamp parametro per verificare se è entro 2.592.000 secondi (30 giorni).

  • Verifica se un allarme si basa su un sistema metrico o metrico matematico o se è un allarme che rileva anomalie.

  • Verifica se un allarme ha una sicurezza dati insufficiente.

  • Verifica se le metriche utilizzate nell'allarme corrispondono al ListMetrics valore.

  • Verifica se a una metrica mancavano i datapoint in un determinato timestamp.

  • Ottiene la cronologia più recente per un determinato timestamp.

  • Verifica se un allarme non si è attivato a causa di una o più metriche ritardate o mancate.

  • Verifica se le azioni attivate di un allarme sono state eseguite. was/were

  • Genera un rapporto di risoluzione dei problemi che include tutti i risultati diagnostici.

Esegui questa automazione (console)

Tipo di documento

Automazione

Proprietario

Amazon

Piattaforme

LinuxmacOS, Windows

Parametri

Autorizzazioni IAM richieste

Il AutomationAssumeRole parametro richiede le seguenti azioni per utilizzare correttamente il runbook.

  • cloudwatch:DescribeAlarms

  • cloudwatch:DescribeAlarmHistory

  • cloudwatch:DescribeAnomalyDetectors

  • cloudwatch:GetMetricData

  • cloudwatch:GetMetricStatistics

  • cloudwatch:ListMetrics

{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "cloudwatch:DescribeAlarms", "cloudwatch:DescribeAlarmHistory", "cloudwatch:DescribeAnomalyDetectors", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics" ], "Resource": "*" } ] }

Istruzioni

Segui questi passaggi per configurare l'automazione:

  1. Accedere AWSSupport-TroubleshootCloudWatchAlarma Systems Manager nella sezione Documenti.

  2. Seleziona Execute automation (Esegui automazione).

  3. Per i parametri di input, immettete quanto segue:

    • AutomationAssumeRole (Facoltativo):

      • Tipo: String

      • Descrizione: (Facoltativo) L'Amazon Resource Name (ARN) del ruolo AWS AWS Identity and Access Management (IAM) che consente a Systems Manager Automation di eseguire le azioni per tuo conto. Se non viene specificato alcun ruolo, Systems Manager Automation utilizza le autorizzazioni dell'utente che avvia questo runbook.

    • CloudWatchMetricAlarmName (Obbligatorio):

      • Tipo: String

      • Descrizione: (Obbligatorio) Il nome del parametro Amazon CloudWatch (CloudWatch) Alarm da risolvere.

      • Modello consentito: ^[a-zA-Z0-9.:;,\\-_&() ]{1,255}$

    • AlarmTriggerTimestamp (Obbligatorio):

      • Tipo: String

      • Descrizione: (Obbligatorio) Il timestamp UTC in cui si è verificato il problema di allarme. Queste informazioni sono fondamentali per risolvere il problema e comprendere il contesto in cui si è verificato. Il valore del timestamp deve essere un orario compreso tra gli ultimi 30 giorni a partire da oggi e nel formato. YYYY-MM-DDTHH:mm:ssZ Esempio: 2024-10-29T09:04:00Z

      • Modello consentito: ^(\\d{4})-(\\d{2})-(\\d{2})T(\\d{2}):(\\d{2}):(\\d{2})Z$

  4. Seleziona Esegui.

  5. L'automazione viene avviata.

  6. Il documento esegue le seguenti operazioni:

    • VerifyRunbookInputs

      Verifica i dettagli dell'allarme Amazon CloudWatch (CloudWatch) e il valore del AlarmTriggerTimestamp parametro per verificare se è entro 2.592.000 secondi (30 giorni).

    • UpdateSSMDocumentInputChecksVariable

      Aggiorna la variabile SSMDocumentInputChecks con il valore SSMDocumentInputChecks del passaggio. VerifyRunbookInputs

    • BranchOnAlarmIsVerified

      Succursali sulla verifica AlarmTriggerTimestamp degli input di Runbook e. CloudWatchAlarmName

    • CheckMetricAlarmType

      Verifica se un allarme si basa su un sistema metrico o metrico matematico o se è un allarme che rileva anomalie.

    • CheckAlarmInInsufficientDataState

      Verifica se un allarme ha una sicurezza dati insufficiente.

    • UpdateInsufficientDataChecksVariable

      Aggiorna la variabile InsufficientDataChecks con il valore InsufficientDataChecks del CheckAlarmInInsufficientDataState passaggio.

    • BranchOnAlarmHasInsufficientData

      Si ramifica sul AlarmHasInsufficientData valore del CheckAlarmInInsufficientDataState passaggio, il passaggio predefinito èCheckMetricMismatch.

    • CheckMetricMismatch

      Verifica se le metriche utilizzate nell'allarme corrispondono al ListMetrics valore.

    • UpdateMetricMismatchChecksVariable

      Aggiorna la variabile MetricMismatchChecks con il valore MetricMismatchChecks del CheckMetricMismatch passaggio.

    • BranchOnMetricsMatched

      Si ramifica sul MetricsMatched valore del CheckMetricMismatch passaggio, il passaggio predefinito èCheckMissingDatapoint.

    • CheckMissingDatapoint

      Verifica se a una metrica mancavano i punti dati in un determinato timestamp.

    • UpdateMetricMissingDatapointsChecksVariable

      Aggiorna la variabile con il valore del passaggio. MetricMissingDatapointsChecks MetricMissingDatapointsChecks CheckMissingDatapoint

    • BranchOnMetricMissingDatapoint

      Si ramifica sul MetricMissingDatapoint valore del CheckMissingDatapoint passaggio, il passaggio predefinito èGetAlarmHistoryDetails.

    • GetAlarmHistoryDetails

      Ottiene la cronologia più recente per un determinato timestamp.

    • UpdateAlarmHistoryChecksVariable

      Aggiorna la variabile AlarmHistoryChecks con il valore del AlarmHistoryChecks passaggioGetAlarmHistoryDetails.

    • BranchOnAlarmHistoryFound

      Si ramifica sul AlarmHistoryFound valore del GetAlarmHistoryDetails passaggio, il passaggio predefinito èCheckDelayedMetric.

    • CheckDelayedMetric

      Verifica se un allarme non si è attivato a causa di una o più metriche ritardate o mancate.

    • UpdateDelayedMetricChecksVariable

      Aggiorna la variabile DelayedMetricChecks con il valore del DelayedMetricChecks passaggioCheckDelayedMetric.

    • BranchOnMetricDelayedAndDatapointsMeetThreshold

      I rami MetricDelayed e i DatapointsMeetThreshold valori del CheckDelayedMetric passaggio, il passaggio predefinito èGenerateReport.

    • CheckActionDelivered

      Verifica se le azioni abilitate di un allarme sono state was/were eseguite.

    • UpdateActionDeliveredChecksVariable

      Aggiorna la variabile ActionDeliveredChecks con l'output ActionDeliveredChecks del CheckActionDelivered passaggio.

    • GenerateReport

      Compila l'output dei passaggi precedenti e genera un rapporto.

  7. Una volta completata l'esecuzione, consulta la sezione Output per i risultati dettagliati dell'esecuzione:

    • GenerateReport.Rapporto

      Un rapporto sulla metrica Amazon CloudWatch (CloudWatch) Alarm fornita.

                    ------------------------------------------------------------------------------------------
                    |                     AWS CloudWatch Alarm Troubleshooting Results                       |
                    ------------------------------------------------------------------------------------------
                    |     Alarm Name                        -               Demo-Alarm                       |
                    |     Timestamp                         -               2025-03-04T06:31:00Z             |
                    ------------------------------------------------------------------------------------------
                    |     ✅ No Issue(s) Found                                                               |
                    ------------------------------------------------------------------------------------------
    
    
    
                    ==========================================================================================
                    1. Validating SSM Document input parameters:
                    ==========================================================================================
                    ✅ [PASSED]: Found a metric alarm with name Demo-Alarm
    
    
                    ==========================================================================================
                    2. Checking alarm's data state:
                    ==========================================================================================
                    ✅ [PASSED]: The alarm is not in INSUFFICIENT_DATA state, alarm's state is: ALARM
    
    
                    ==========================================================================================
                    3. Checking if the alarm experienced metric mismatches:
                    ==========================================================================================
                    ✅ [PASSED]: Metric matches with the configured metric for Alarm.
    
    
                    ==========================================================================================
                    4. Checking if the alarm's metric(s) experienced missing datapoint(s):
                    ==========================================================================================
                    ✅ [PASSED]: Metric has datapoints
    
    
                    ==========================================================================================
                    5. Retrieving alarm's history for timestamp 2025-03-04T06:31:00Z:
                    ==========================================================================================
                    ✅ [PASSED]: Found most recent alarm history item for the provided timestamp: '2025-03-04T06:31:00Z'
    
    
                    ==========================================================================================
                    6. Checking if the alarm experienced metric delays or the alarm's datapoint(s) did not meet the configured threshold:
                    ==========================================================================================
                    ✅ [PASSED]: CloudWatch alarm did not experience any delayed metric
    
    
                    ==========================================================================================
                    7. Checking if the alarm has actions enabled and if action(s) were delivered:
                    ==========================================================================================
                    ✅ [PASSED]: Successfully executed action arn:aws:sns:us-east-1:12345678910:Demo_Alarms_Topic
    
    
                    ------------------------------------------------------------------------------------------
    
                    ✅ All the checks have passed for CloudWatch alarm, Demo-Alarm, the alarm's configuration is correct.
                

Riferimenti

Systems Manager Automation