AWSSupport-TroubleshootCloudWatchAlarm - AWS Systems Manager Referência do runbook de automação

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWSSupport-TroubleshootCloudWatchAlarm

Descrição

O AWSSupport-TroubleshootCloudWatchAlarm runbook ajuda a identificar e solucionar problemas com alarmes Amazon CloudWatch () mal configurados ou problemáticos. CloudWatch Ele aproveita a lógica pública AWS APIs e conhecida de avaliação de alarmes para detectar pontos de dados atrasados ou ausentes nas métricas monitoradas, o que pode levar a ações de alarme perdidas ou atrasadas. Este runbook fornece uma abordagem estruturada para investigar e resolver problemas relacionados ao Amazon CloudWatch (CloudWatch) Alarm.

Como funciona?

O runbook AWSSupport-TroubleshootCloudWatchAlarm executa as seguintes etapas:

  • Verifica os detalhes do alarme Amazon CloudWatch (CloudWatch) e o valor do AlarmTriggerTimestamp parâmetro para verificar se está dentro de 2.592.000 segundos (30 dias).

  • Verifica se um alarme é baseado em uma métrica ou matemática métrica ou se é um alarme detector de anomalias.

  • Verifica se um alarme está em estado de dados insuficiente.

  • Verifica se as métricas usadas no alarme coincidem com o ListMetrics valor.

  • Verifica se faltavam pontos de dados em uma métrica em um determinado timestamp.

  • Obtém o histórico mais recente de um determinado carimbo de data/hora.

  • Verifica se um alarme não foi acionado devido a uma métrica atrasada ou perdida.

  • Verifica se a (s) ação (ões) ativada (s) de um alarme was/were foi executada.

  • Gera um relatório de solução de problemas combinando todos os resultados do diagnóstico.

Executar esta automação (console)

Tipo de documento

Automação

Proprietário

Amazon

Plataformas

Linux, macOS, Windows

Parâmetros

Permissões obrigatórias do IAM

O parâmetro AutomationAssumeRole requer as seguintes ações para usar o runbook com êxito.

  • cloudwatch:DescribeAlarms

  • cloudwatch:DescribeAlarmHistory

  • cloudwatch:DescribeAnomalyDetectors

  • cloudwatch:GetMetricData

  • cloudwatch:GetMetricStatistics

  • cloudwatch:ListMetrics

{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "cloudwatch:DescribeAlarms", "cloudwatch:DescribeAlarmHistory", "cloudwatch:DescribeAnomalyDetectors", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics" ], "Resource": "*" } ] }

Instruções

Siga estas etapas para configurar a automação:

  1. Navegue até AWSSupport-TroubleshootCloudWatchAlarmem Systems Manager em Documentos.

  2. Selecione Execute automation (Executar automação).

  3. Para os parâmetros de entrada, insira o seguinte:

    • AutomationAssumeRole (Opcional):

      • Tipo: String

      • Descrição: (Opcional) O Amazon Resource Name (ARN) da função AWS AWS Identity and Access Management (IAM) que permite que o Systems Manager Automation execute as ações em seu nome. Se nenhuma função for especificada, o Systems Manager Automation usa as permissões do usuário que inicia esse runbook.

    • CloudWatchMetricAlarmName (Obrigatório):

      • Tipo: String

      • Descrição: (Obrigatório) O nome do alarme métrico Amazon CloudWatch (CloudWatch) para solucionar o problema.

      • Allowed-pattern: ^[a-zA-Z0-9.:;,\\-_&() ]{1,255}$

    • AlarmTriggerTimestamp (Obrigatório):

      • Tipo: String

      • Descrição: (Obrigatório) A data e hora UTC de quando ocorreu o problema do alarme. Essas informações são cruciais para solucionar o problema e entender o contexto em que ele aconteceu. O valor do carimbo de data/hora deve ser um horário nos últimos 30 dias a partir de hoje e no formato. YYYY-MM-DDTHH:mm:ssZ Example: 2024-10-29T09:04:00Z

      • Allowed-pattern: ^(\\d{4})-(\\d{2})-(\\d{2})T(\\d{2}):(\\d{2}):(\\d{2})Z$

  4. Selecione Executar.

  5. A automação é iniciada.

  6. O bucket realiza as seguintes etapas:

    • VerifyRunbookInputs

      Verifica os detalhes do alarme Amazon CloudWatch (CloudWatch) e o valor do AlarmTriggerTimestamp parâmetro para verificar se está dentro de 2.592.000 segundos (30 dias).

    • UpdateSSMDocumentInputChecksVariable

      Atualiza a variável SSMDocumentInputChecks com o valor SSMDocumentInputChecks da VerifyRunbookInputs etapa.

    • BranchOnAlarmIsVerified

      Ramificações na verificação AlarmTriggerTimestamp de entradas do Runbook e. CloudWatchAlarmName

    • CheckMetricAlarmType

      Verifica se um alarme é baseado em uma métrica ou matemática métrica ou se é um alarme detector de anomalias.

    • CheckAlarmInInsufficientDataState

      Verifica se um alarme está em estado de dados insuficiente.

    • UpdateInsufficientDataChecksVariable

      Atualiza a variável InsufficientDataChecks com o valor InsufficientDataChecks da CheckAlarmInInsufficientDataState etapa.

    • BranchOnAlarmHasInsufficientData

      Ramifica o AlarmHasInsufficientData valor da CheckAlarmInInsufficientDataState etapa, a etapa padrão éCheckMetricMismatch.

    • CheckMetricMismatch

      Verifica se as métricas usadas no alarme coincidem com o ListMetrics valor.

    • UpdateMetricMismatchChecksVariable

      Atualiza a variável MetricMismatchChecks com o valor MetricMismatchChecks da CheckMetricMismatch etapa.

    • BranchOnMetricsMatched

      Ramifica o MetricsMatched valor da CheckMetricMismatch etapa, a etapa padrão éCheckMissingDatapoint.

    • CheckMissingDatapoint

      Verifica se faltavam pontos de dados em uma métrica em um determinado timestamp.

    • UpdateMetricMissingDatapointsChecksVariable

      Atualiza a variável MetricMissingDatapointsChecks com o valor MetricMissingDatapointsChecks da CheckMissingDatapoint etapa.

    • BranchOnMetricMissingDatapoint

      Ramifica o MetricMissingDatapoint valor da CheckMissingDatapoint etapa, a etapa padrão éGetAlarmHistoryDetails.

    • GetAlarmHistoryDetails

      Obtém o histórico mais recente de um determinado carimbo de data/hora.

    • UpdateAlarmHistoryChecksVariable

      Atualiza a variável AlarmHistoryChecks com o valor AlarmHistoryChecks da GetAlarmHistoryDetails etapa.

    • BranchOnAlarmHistoryFound

      Ramifica o AlarmHistoryFound valor da GetAlarmHistoryDetails etapa, a etapa padrão éCheckDelayedMetric.

    • CheckDelayedMetric

      Verifica se um alarme não foi acionado devido a uma métrica atrasada ou perdida.

    • UpdateDelayedMetricChecksVariable

      Atualiza a variável DelayedMetricChecks com o valor DelayedMetricChecks da CheckDelayedMetric etapa.

    • BranchOnMetricDelayedAndDatapointsMeetThreshold

      Ramifica DatapointsMeetThreshold os valores MetricDelayed e da CheckDelayedMetric etapa, a etapa padrão éGenerateReport.

    • CheckActionDelivered

      Verifica se a (s) ação (ões) ativada (s) de um alarme was/were foi executada.

    • UpdateActionDeliveredChecksVariable

      Atualiza a variável ActionDeliveredChecks com ActionDeliveredChecks a saída da CheckActionDelivered etapa.

    • GenerateReport

      Compila a saída das etapas anteriores e gera um relatório.

  7. Após a conclusão da execução, revise a seção Saídas para obter os resultados detalhados da execução:

    • GenerateReport.Relatório

      Um relatório do alarme métrico Amazon CloudWatch (CloudWatch) fornecido.

                    ------------------------------------------------------------------------------------------
                    |                     AWS CloudWatch Alarm Troubleshooting Results                       |
                    ------------------------------------------------------------------------------------------
                    |     Alarm Name                        -               Demo-Alarm                       |
                    |     Timestamp                         -               2025-03-04T06:31:00Z             |
                    ------------------------------------------------------------------------------------------
                    |     ✅ No Issue(s) Found                                                               |
                    ------------------------------------------------------------------------------------------
    
    
    
                    ==========================================================================================
                    1. Validating SSM Document input parameters:
                    ==========================================================================================
                    ✅ [PASSED]: Found a metric alarm with name Demo-Alarm
    
    
                    ==========================================================================================
                    2. Checking alarm's data state:
                    ==========================================================================================
                    ✅ [PASSED]: The alarm is not in INSUFFICIENT_DATA state, alarm's state is: ALARM
    
    
                    ==========================================================================================
                    3. Checking if the alarm experienced metric mismatches:
                    ==========================================================================================
                    ✅ [PASSED]: Metric matches with the configured metric for Alarm.
    
    
                    ==========================================================================================
                    4. Checking if the alarm's metric(s) experienced missing datapoint(s):
                    ==========================================================================================
                    ✅ [PASSED]: Metric has datapoints
    
    
                    ==========================================================================================
                    5. Retrieving alarm's history for timestamp 2025-03-04T06:31:00Z:
                    ==========================================================================================
                    ✅ [PASSED]: Found most recent alarm history item for the provided timestamp: '2025-03-04T06:31:00Z'
    
    
                    ==========================================================================================
                    6. Checking if the alarm experienced metric delays or the alarm's datapoint(s) did not meet the configured threshold:
                    ==========================================================================================
                    ✅ [PASSED]: CloudWatch alarm did not experience any delayed metric
    
    
                    ==========================================================================================
                    7. Checking if the alarm has actions enabled and if action(s) were delivered:
                    ==========================================================================================
                    ✅ [PASSED]: Successfully executed action arn:aws:sns:us-east-1:12345678910:Demo_Alarms_Topic
    
    
                    ------------------------------------------------------------------------------------------
    
                    ✅ All the checks have passed for CloudWatch alarm, Demo-Alarm, the alarm's configuration is correct.
                

Referências

Automação do Systems Manager