기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWSSupport-TroubleshootCloudWatchAlarm
설명
AWSSupport-TroubleshootCloudWatchAlarm
실행서는 잘못 구성되거나 문제가 있는 Amazon CloudWatch(CloudWatch) 경보 관련 문제를 식별하고 해결하는 데 도움이 됩니다. 이는 AWS APIs 및 알려진 경보 평가 로직을 활용하여 모니터링되는 지표에서 지연되거나 누락된 데이터 포인트를 감지하므로 경보 작업이 누락되거나 지연될 수 있습니다. 이 실행서는 Amazon CloudWatch(CloudWatch) 경보 관련 문제를 조사하고 해결하기 위한 구조화된 접근 방식을 제공합니다.
어떻게 작동하나요?
실행서는 다음 단계를 AWSSupport-TroubleshootCloudWatchAlarm
수행합니다.
-
Amazon CloudWatch(CloudWatch) 경보 세부 정보와
AlarmTriggerTimestamp
파라미터 값을 확인하여 2,592,000초(30일) 내에 있는지 확인합니다. -
경보가 지표 또는 지표 수학을 기반으로 하는지 또는 이상 탐지기 경보인지 확인합니다.
-
경보가 데이터 상태가 부족한지 확인합니다.
-
경보에 사용된 지표(들)가
ListMetrics
값과 일치하는지 확인합니다. -
지정된 타임스탬프에서 지표에 데이터 포인트(들)가 누락되었는지 확인합니다.
-
지정된 타임스탬프에 대한 최신 기록을 가져옵니다.
-
지연되거나 누락된 지표(들)로 인해 경보가 트리거되지 않았는지 확인합니다.
-
경보의 활성화된 작업(들)이 전송되었는지/전송되었는지 확인합니다.
-
모든 진단 결과를 결합하는 문제 해결 보고서를 생성합니다.
문서 유형
자동화
소유자
Amazon
플랫폼
Linux, macOS, Windows
파라미터
필수 IAM 권한
실행서를 성공적으로 사용하려면 AutomationAssumeRole
파라미터에 다음 작업이 필요합니다.
cloudwatch:DescribeAlarms
cloudwatch:DescribeAlarmHistory
cloudwatch:DescribeAnomalyDetectors
cloudwatch:GetMetricData
cloudwatch:GetMetricStatistics
cloudwatch:ListMetrics
{ "Version": "2012-10-17", "Statement": [ { "Sid": "", "Effect": "Allow", "Action": [ "cloudwatch:DescribeAlarms", "cloudwatch:DescribeAlarmHistory", "cloudwatch:DescribeAnomalyDetectors", "cloudwatch:GetMetricData", "cloudwatch:GetMetricStatistics", "cloudwatch:ListMetrics" ], "Resource": "*" } ] }
지침
다음 단계에 따라 자동화를 구성합니다.
-
Systems Manager
AWSSupport-TroubleshootCloudWatchAlarm
의 문서로 이동합니다. -
Execute automation(자동화 실행)을 선택합니다.
-
입력 파라미터에 다음을 입력합니다.
-
AutomationAssumeRole(선택 사항):
유형:
String
설명: (선택 사항) Systems Manager Automation이 사용자를 대신하여 작업을 수행하도록 허용하는 (IAM) 역할의 Amazon 리소스 이름 AWS AWS Identity and Access Management (ARN)입니다. 역할이 지정되지 않은 경우 Systems Manager Automation은이 실행서를 시작하는 사용자의 권한을 사용합니다.
-
CloudWatchMetricAlarmName(필수):
유형:
String
설명: (필수) 문제를 해결할 Amazon CloudWatch(CloudWatch) 지표 경보의 이름입니다.
허용된 패턴:
^[a-zA-Z0-9.:;,\\-_&() ]{1,255}$
-
AlarmTriggerTimestamp(필수):
유형:
String
설명: (필수) 경보 문제가 발생한 시점의 UTC 타임스탬프입니다. 이 정보는 문제를 해결하고 문제가 발생한 컨텍스트를 이해하는 데 매우 중요합니다. 타임스탬프 값은 오늘부터 지난 30일 이내의 시간이어야 하며 형식이어야 합니다
YYYY-MM-DDTHH:mm:ssZ
. 예시:2024-10-29T09:04:00Z
허용된 패턴:
^(\\d{4})-(\\d{2})-(\\d{2})T(\\d{2}):(\\d{2}):(\\d{2})Z$
-
-
실행을 선택합니다.
-
자동화가 시작됩니다.
-
문서는 다음 단계를 수행합니다.
-
VerifyRunbookInputs
Amazon CloudWatch(CloudWatch) 경보 세부 정보와
AlarmTriggerTimestamp
파라미터 값을 확인하여 2,592,000초(30일) 내에 있는지 확인합니다. -
UpdateSSMDocumentInputChecksVariable
변수을
SSMDocumentInputChecks
VerifyRunbookInputs
단계의SSMDocumentInputChecks
값으로 업데이트합니다. -
BranchOnAlarmIsVerified
런북의 입력 확인
AlarmTriggerTimestamp
및에 분기합니다CloudWatchAlarmName
. -
CheckMetricAlarmType
경보가 지표 또는 지표 수학을 기반으로 하는지 또는 이상 탐지기 경보인지 확인합니다.
-
CheckAlarmInInsufficientDataState
경보가 데이터 상태가 부족한지 확인합니다.
-
UpdateInsufficientDataChecksVariable
변수을
InsufficientDataChecks
CheckAlarmInInsufficientDataState
단계의InsufficientDataChecks
값으로 업데이트합니다. -
BranchOnAlarmHasInsufficientData
CheckAlarmInInsufficientDataState
단계의AlarmHasInsufficientData
값을 분기합니다. 기본 단계는 입니다CheckMetricMismatch
. -
CheckMetricMismatch
경보에 사용된 지표(들)가
ListMetrics
값과 일치하는지 확인합니다. -
UpdateMetricMismatchChecksVariable
변수을
MetricMismatchChecks
CheckMetricMismatch
단계의MetricMismatchChecks
값으로 업데이트합니다. -
BranchOnMetricsMatched
CheckMetricMismatch
단계의MetricsMatched
값을 분기합니다. 기본 단계는 입니다CheckMissingDatapoint
. -
CheckMissingDatapoint
지정된 타임스탬프에서 지표에 데이터 포인트(들)가 누락되었는지 확인합니다.
-
UpdateMetricMissingDatapointsChecksVariable
변수를
MetricMissingDatapointsChecks
CheckMissingDatapoint
단계의MetricMissingDatapointsChecks
값으로 업데이트합니다. -
BranchOnMetricMissingDatapoint
CheckMissingDatapoint
단계의MetricMissingDatapoint
값을 분기합니다. 기본 단계는 입니다GetAlarmHistoryDetails
. -
GetAlarmHistoryDetails
지정된 타임스탬프에 대한 최신 기록을 가져옵니다.
-
UpdateAlarmHistoryChecksVariable
변수를
AlarmHistoryChecks
GetAlarmHistoryDetails
단계의AlarmHistoryChecks
값으로 업데이트합니다. -
BranchOnAlarmHistoryFound
GetAlarmHistoryDetails
단계의AlarmHistoryFound
값을 분기합니다. 기본 단계는 입니다CheckDelayedMetric
. -
CheckDelayedMetric
지연되거나 누락된 지표(들)로 인해 경보가 트리거되지 않았는지 확인합니다.
-
UpdateDelayedMetricChecksVariable
변수을
DelayedMetricChecks
CheckDelayedMetric
단계의DelayedMetricChecks
값으로 업데이트합니다. -
BranchOnMetricDelayedAndDatapointsMeetThreshold
CheckDelayedMetric
단계의MetricDelayed
및DatapointsMeetThreshold
값을 분기합니다. 기본 단계는 입니다GenerateReport
. -
CheckActionDelivered
경보의 활성화된 작업(들)이 전송되었는지/전송되었는지 확인합니다.
-
UpdateActionDeliveredChecksVariable
ActionDeliveredChecks
CheckActionDelivered
단계의 출력ActionDeliveredChecks
으로 변수를 업데이트합니다. -
GenerateReport
이전 단계의 출력을 컴파일하고 보고서를 출력합니다.
-
-
실행이 완료되면 출력 섹션에서 실행의 자세한 결과를 검토합니다.
-
GenerateReport.Report
제공된 Amazon CloudWatch(CloudWatch) 지표 경보에 대한 보고서입니다.
------------------------------------------------------------------------------------------ | AWS CloudWatch Alarm Troubleshooting Results | ------------------------------------------------------------------------------------------ | Alarm Name - Demo-Alarm | | Timestamp - 2025-03-04T06:31:00Z | ------------------------------------------------------------------------------------------ | ✅ No Issue(s) Found | ------------------------------------------------------------------------------------------ ========================================================================================== 1. Validating SSM Document input parameters: ========================================================================================== ✅ [PASSED]: Found a metric alarm with name Demo-Alarm ========================================================================================== 2. Checking alarm's data state: ========================================================================================== ✅ [PASSED]: The alarm is not in INSUFFICIENT_DATA state, alarm's state is: ALARM ========================================================================================== 3. Checking if the alarm experienced metric mismatches: ========================================================================================== ✅ [PASSED]: Metric matches with the configured metric for Alarm. ========================================================================================== 4. Checking if the alarm's metric(s) experienced missing datapoint(s): ========================================================================================== ✅ [PASSED]: Metric has datapoints ========================================================================================== 5. Retrieving alarm's history for timestamp 2025-03-04T06:31:00Z: ========================================================================================== ✅ [PASSED]: Found most recent alarm history item for the provided timestamp: '2025-03-04T06:31:00Z' ========================================================================================== 6. Checking if the alarm experienced metric delays or the alarm's datapoint(s) did not meet the configured threshold: ========================================================================================== ✅ [PASSED]: CloudWatch alarm did not experience any delayed metric ========================================================================================== 7. Checking if the alarm has actions enabled and if action(s) were delivered: ========================================================================================== ✅ [PASSED]: Successfully executed action arn:aws:sns:us-east-1:12345678910:Demo_Alarms_Topic ------------------------------------------------------------------------------------------ ✅ All the checks have passed for CloudWatch alarm, Demo-Alarm, the alarm's configuration is correct.
-
참조
Systems Manager Automation