Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
AWSSupport-TroubleshootCloudWatchAlarm
Descripción
El AWSSupport-TroubleshootCloudWatchAlarm manual ayuda a identificar y solucionar problemas relacionados con las alarmas Amazon CloudWatch () CloudWatch problemáticas o mal configuradas. Utiliza una lógica de evaluación de alarmas pública AWS APIs y conocida para detectar puntos de datos retrasados o ausentes en las métricas monitoreadas, lo que puede provocar que se omitan o se retrasen las acciones de alarma. Este manual proporciona un enfoque estructurado para investigar y resolver los problemas relacionados con Amazon CloudWatch (CloudWatch) Alarm.
¿Cómo funciona?
El manual de ejecución AWSSupport-TroubleshootCloudWatchAlarm lleva a cabo los siguientes pasos:
-
Verifica los detalles de la alarma de Amazon CloudWatch (CloudWatch) y el valor del
AlarmTriggerTimestampparámetro para comprobar si está dentro de 2 592 000 segundos (30 días). -
Comprueba si una alarma se basa en una métrica o matemática métrica o si se trata de una alarma detectora de anomalías.
-
Comprueba si una alarma tiene un estado de datos insuficiente.
-
Comprueba si las métricas utilizadas en la alarma coinciden con el
ListMetricsvalor. -
Verifica si a una métrica le faltaban puntos de datos en una marca de tiempo determinada.
-
Obtiene el historial más reciente de una marca de tiempo determinada.
-
Comprueba si una alarma no se ha activado debido a un retraso o a un error en las métricas.
-
Comprueba si se han realizado las acciones habilitadas de una was/were alarma.
-
Genera un informe de solución de problemas que combina todos los resultados del diagnóstico.
Ejecuta esta automatización (consola)
Tipo de documento
Automatización
Propietario
Amazon
Plataformas
Linux, macOS, Windows
Parámetros
Permisos de IAM necesarios
El parámetro AutomationAssumeRole requiere las siguientes acciones para utilizar el manual de procedimientos correctamente.
cloudwatch:DescribeAlarmscloudwatch:DescribeAlarmHistorycloudwatch:DescribeAnomalyDetectorscloudwatch:GetMetricDatacloudwatch:GetMetricStatisticscloudwatch:ListMetrics
{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "cloudwatch:DescribeAlarms", "cloudwatch:DescribeAlarmHistory", "cloudwatch:DescribeAnomalyDetectors", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics" ], "Resource": "*" } ] }
Instrucciones
Siga estos pasos para configurar la automatización:
-
Navegue hasta
AWSSupport-TroubleshootCloudWatchAlarmSystems Manager, en Documentos. -
Elija Execute automation (Ejecutar automatización).
-
Para los parámetros de entrada, introduzca lo siguiente:
-
AutomationAssumeRole (Opcional):
Tipo:
StringDescripción: (opcional) El nombre del recurso de Amazon (ARN) del rol AWS AWS Identity and Access Management (IAM) que permite a Systems Manager Automation realizar las acciones en su nombre. Si no se especifica ningún rol, Systems Manager Automation utiliza los permisos del usuario que inicia este runbook.
-
CloudWatchMetricAlarmName (Obligatorio):
Tipo:
StringDescripción: (Obligatorio) El nombre de la alarma métrica de Amazon CloudWatch (CloudWatch) para solucionar el problema.
Valor permitido:
^[a-zA-Z0-9.:;,\\-_&() ]{1,255}$
-
AlarmTriggerTimestamp (Obligatorio):
Tipo:
StringDescripción: (Obligatorio) La marca horaria UTC en la que se produjo el problema de la alarma. Esta información es crucial para solucionar el problema y comprender el contexto en el que ocurrió. El valor de la marca de tiempo debe ser una hora de los últimos 30 días a partir de hoy y estar en ese formato.
YYYY-MM-DDTHH:mm:ssZEjemplo:2024-10-29T09:04:00ZValor permitido:
^(\\d{4})-(\\d{2})-(\\d{2})T(\\d{2}):(\\d{2}):(\\d{2})Z$
-
-
Seleccione Ejecutar.
-
Se inicia la automatización.
-
Este documento realiza los siguientes pasos:
-
VerifyRunbookInputsVerifica los detalles de la alarma de Amazon CloudWatch (CloudWatch) y el valor del
AlarmTriggerTimestampparámetro para comprobar si está dentro de 2 592 000 segundos (30 días). -
UpdateSSMDocumentInputChecksVariableActualiza la variable
SSMDocumentInputCheckscon el valorSSMDocumentInputChecksdel paso.VerifyRunbookInputs -
BranchOnAlarmIsVerifiedSe basa en la verificación de entradas de Runbook
AlarmTriggerTimestampyCloudWatchAlarmName. -
CheckMetricAlarmTypeComprueba si una alarma se basa en una métrica o matemática métrica o si es una alarma detectora de anomalías.
-
CheckAlarmInInsufficientDataStateComprueba si una alarma tiene un estado de datos insuficiente.
-
UpdateInsufficientDataChecksVariableActualiza la variable
InsufficientDataCheckscon el valorInsufficientDataChecksdelCheckAlarmInInsufficientDataStatepaso. -
BranchOnAlarmHasInsufficientDataSe ramifica según el
AlarmHasInsufficientDatavalor delCheckAlarmInInsufficientDataStatepaso, el paso por defecto esCheckMetricMismatch. -
CheckMetricMismatchComprueba si las métricas utilizadas en la alarma coinciden con el
ListMetricsvalor. -
UpdateMetricMismatchChecksVariableActualiza la variable
MetricMismatchCheckscon el valorMetricMismatchChecksdelCheckMetricMismatchpaso. -
BranchOnMetricsMatchedSe ramifica según el
MetricsMatchedvalor delCheckMetricMismatchpaso, el paso por defecto esCheckMissingDatapoint. -
CheckMissingDatapointComprueba si a una métrica le faltaban puntos de datos en una marca de tiempo determinada.
-
UpdateMetricMissingDatapointsChecksVariableActualiza la variable
MetricMissingDatapointsCheckscon el valor del paso.MetricMissingDatapointsChecksCheckMissingDatapoint -
BranchOnMetricMissingDatapointSe ramifica según el
MetricMissingDatapointvalor delCheckMissingDatapointpaso, el paso por defecto esGetAlarmHistoryDetails. -
GetAlarmHistoryDetailsObtiene el historial más reciente de una marca de tiempo determinada.
-
UpdateAlarmHistoryChecksVariableActualiza la variable
AlarmHistoryCheckscon el valorAlarmHistoryChecksdelGetAlarmHistoryDetailspaso. -
BranchOnAlarmHistoryFoundSe ramifica según el
AlarmHistoryFoundvalor delGetAlarmHistoryDetailspaso, el paso por defecto esCheckDelayedMetric. -
CheckDelayedMetricComprueba si una alarma no se ha activado debido a un retraso o a un error en las métricas.
-
UpdateDelayedMetricChecksVariableActualiza la variable
DelayedMetricCheckscon el valorDelayedMetricChecksdelCheckDelayedMetricpaso. -
BranchOnMetricDelayedAndDatapointsMeetThresholdSe ramifica en los
DatapointsMeetThresholdvaloresMetricDelayedy delCheckDelayedMetricpaso; el paso por defecto esGenerateReport. -
CheckActionDeliveredComprueba si se han realizado las acciones activadas por una was/were alarma.
-
UpdateActionDeliveredChecksVariableActualiza la variable
ActionDeliveredCheckscon la salidaActionDeliveredChecksdelCheckActionDeliveredpaso. -
GenerateReportCompila el resultado de los pasos anteriores y genera un informe.
-
-
Una vez completada la ejecución, revise la sección de resultados para ver los resultados detallados de la ejecución:
-
GenerateReport.Informe
Un informe de la alarma métrica de Amazon CloudWatch (CloudWatch) proporcionada.
------------------------------------------------------------------------------------------ | AWS CloudWatch Alarm Troubleshooting Results | ------------------------------------------------------------------------------------------ | Alarm Name - Demo-Alarm | | Timestamp - 2025-03-04T06:31:00Z | ------------------------------------------------------------------------------------------ | ✅ No Issue(s) Found | ------------------------------------------------------------------------------------------ ========================================================================================== 1. Validating SSM Document input parameters: ========================================================================================== ✅ [PASSED]: Found a metric alarm with name Demo-Alarm ========================================================================================== 2. Checking alarm's data state: ========================================================================================== ✅ [PASSED]: The alarm is not in INSUFFICIENT_DATA state, alarm's state is: ALARM ========================================================================================== 3. Checking if the alarm experienced metric mismatches: ========================================================================================== ✅ [PASSED]: Metric matches with the configured metric for Alarm. ========================================================================================== 4. Checking if the alarm's metric(s) experienced missing datapoint(s): ========================================================================================== ✅ [PASSED]: Metric has datapoints ========================================================================================== 5. Retrieving alarm's history for timestamp 2025-03-04T06:31:00Z: ========================================================================================== ✅ [PASSED]: Found most recent alarm history item for the provided timestamp: '2025-03-04T06:31:00Z' ========================================================================================== 6. Checking if the alarm experienced metric delays or the alarm's datapoint(s) did not meet the configured threshold: ========================================================================================== ✅ [PASSED]: CloudWatch alarm did not experience any delayed metric ========================================================================================== 7. Checking if the alarm has actions enabled and if action(s) were delivered: ========================================================================================== ✅ [PASSED]: Successfully executed action arn:aws:sns:us-east-1:12345678910:Demo_Alarms_Topic ------------------------------------------------------------------------------------------ ✅ All the checks have passed for CloudWatch alarm, Demo-Alarm, the alarm's configuration is correct. -
Referencias
Automatización de Systems Manager