AMS의 기준 모니터링 알림 - AMS 고급 사용 설명서

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AMS의 기준 모니터링 알림

AMS 모니터링 기본값에 대해 알아봅니다. 자세한 내용은 AMS의 모니터링 및 이벤트 관리 단원을 참조하십시오.

다음 표에는 모니터링되는 항목과 기본 알림 임계값이 나와 있습니다. 원하는 변경 사항을 결정하고 관련 CloudWatch Amazon SNS 주제를 구독한 후 관리 | 기타 | 기타 | 업데이트(ct-0xdawir96cy7k) RFC를 사용하여 알림 임계값을 변경할 수 있습니다. 주제 생성 및 구독에 대한 자세한 내용은 주제 구독을 참조하세요. 일반 정보는 Amazon SNS FAQs. 경보가 임계값을 초과할 때 직접 알림을 받으려면 AMS의 표준 알림 프로세스 외에도 경보 구성을 덮어쓰는 방법에 대한 다음 지침을 따르세요AMS에서 생성된 알림 수신.

Amazon CloudWatch는 지표의 보존 기간을 연장합니다. 자세한 내용은 CloudWatch 제한을 참조하세요.

참고

AMS는 정기적으로 기준 모니터링을 보정합니다. 새 계정은 항상 최신 기준 모니터링으로 온보딩되며 표에는 새로 온보딩된 계정에 대한 기준 모니터링이 설명되어 있습니다. AMS는 기존 계정의 기준 모니터링을 정기적으로 업데이트하며 업데이트가 적용되기 전에 시간 지연이 발생할 수 있습니다. 자세한 내용은 AMS 계정에 대한 모니터링 구성 보기 단원을 참조하십시오.

참고

EC2 인스턴스 알림Non-root volume usage은 기본적으로 비활성화되어 있습니다. 이 경보를 기반으로 경보를 생성해야 하는 경우 RFC 변경 유형 ct-0erkoad6uyvg를 사용하여 경보를 활성화해야 합니다.

기준 모니터링의 알림

서비스:

보안 알림

알림 이름 및 트리거 조건

참고

별표가 지정된(*) 알림의 경우 AMS는 가능한 경우 영향을 사전에 평가하고 수정합니다. 수정이 불가능한 경우 AMS는 인시던트를 생성합니다. 자동화로 문제가 해결되지 않는 경우 AMS는 인시던트 사례를 알리고 AMS 엔지니어가 참여합니다. 또한 이러한 알림은 이메일로 직접 전송할 수 있습니다(Direct-Customer-Alerts SNS 주제에 옵트인한 경우).

Application Load Balancer(ALB) 인스턴스

아니요

RejectedConnectionCount

1분 동안 합계 > 0, 연속 5회.

CloudWatch는 로드 밸런서가 최대값에 도달하여 거부된 연결 수를 경보합니다.

Application Load Balancer(ALB) 대상

아니요

TargetConnectionErrorCount

1분 동안 합계 > 0, 연속 5회.

로드 밸런서와 등록된 인스턴스 간에 연결 수가 설정되지 않은 경우 CloudWatch 경보가 발생합니다.

Amazon EC2 인스턴스 – Windows

아니요

SecureChannelFailure

마지막 15개 데이터 포인트 중 10개에 대해 > 0.0.

채널 보안 연결이 실패할 때 경고하는 Windows 인스턴스의 CloudWatch 경보입니다.

Aurora 인스턴스

아니요

CPUUtilization

5분 동안 > 85%, 연속 2회.

CloudWatch 경보.

AWS Backup

DeleteRecoveryPoint

예기치 않은 IAM 역할 보안 주체 또는 IAM 사용자 보안 주체가 AWS Backup 복구 시점을 삭제했습니다.

CloudWatch 이벤트. 백업 복구 시점이 삭제될 때 발생합니다.

AWS Outposts

AMSOutpostsInstanceFamilyCapacityAvailability InstanceFamilyCapacityAvailability

= 5분 동안 80%, 연속 12회.

리소스의 인스턴스 패밀리 용량 가용성에 대한 CloudWatch 경보입니다 AWS Outposts .

AMSOutpostsInstanceTypeCapacityAvailability TypeCapacityAvailability

= 5분 동안 80%, 연속 12회.

리소스의 인스턴스 유형 용량 가용성에 대한 CloudWatch 경보입니다 AWS Outposts .

AMSOutpostsConnectedStatusConnectedStatus

5분 동안 < 1, 연속 1회.

AWS Outposts 서비스 링크 연결에 대한 CloudWatch 경보가 1개 미만으로 손상되었습니다.

AMSOutpostsCapacityExceptionCapacityExceptions

5분 동안 0, 연속 1회.

AWS Outposts리소스의 인스턴스 시작에 대한 용량 부족 오류에 대한 CloudWatch 경보

.

EC2 인스턴스 - 모든 OSs

아니요

CPUUtilization*

5분 동안 >= 95%, 연속 6회.

CloudWatch 경보. CPU 사용률이 높다는 것은 데드록, 무한 루프, 악성 공격 및 기타 이상과 같은 애플리케이션 상태의 변화를 나타내는 지표입니다.

StatusCheckFailed

5분 동안 > 0, 연속 3회.

CloudWatch 경보.

루트 볼륨 사용량

5분 동안 >= 95%, 연속 6회.

루트가 아닌 볼륨 사용량

5분 동안 > 85%, 연속 2회.

기본적으로 비활성화되어 있습니다. 자세한 내용은 섹션을 참조하세요https://docs.aws.amazon.com/managedservices/latest/ctref/management-monitoring-cloudwatch-enable-non-root-volumes-monitoring.html#management-monitoring-cloudwatch-enable-non-root-volumes-monitoring-info.

메모리 없음*

MemoryFree 5분 동안 < 5%, 연속 6회.

EPS 맬웨어

인스턴스에서 맬웨어가 발견되었습니다.

CloudWatch 이벤트.

Amazon EC2 인스턴스 - Linux

아니요

루트 볼륨 Inode 사용량

5분, 연속 6회 동안 평균 >= 95%.

CloudWatch 경보. Linux 인스턴스에만 적용됩니다.

스왑 프리*

메모리 5분 동안 스왑 < 5%, 연속 6회.

ElastiCache 클러스터

아니요

CurrConnections = 65000

이 경보는 AMS에 ElastiCache 호스트의 최대 연결 제한을 알립니다.

CloudWatch 경보. 이 임계값을 업데이트하려면 AMS 지원팀에 문의하십시오.

ElastiCache 노드

아니요

CPUUtilization

평균 > 15분 동안 미리 정의된 값, 연속 2회.

CloudWatch 경보. 기본값은 90입니다. Redis인 경우 인스턴스 유형에 따라 다음 값 중 하나를 사용합니다.

  • cache.t1.micro: 90%

  • cache.m1.small: 90%

  • cache.m1.medium: 90%

  • cache.m1.large: 45%

  • cache.m1.xlarge: 22.5%

  • cache.m2.xlarge: 45%

  • cache.m2.4xlarge: 11.25%

  • cache.c1.xlarge: 11.25%

  • cache.t2.micro: 90%

  • cache.t2.small: 90%

  • cache.t2.medium: 45%

  • cache.m3.medium: 90%

  • cache.m3.large: 45%

  • cache.m3.xlarge: 22.5%

  • cache.m3.2xlarge: 11.25%

  • cache.r3.large: 45%

  • cache.r3.xlarge: 22.5%

  • cache.r3.2xlarge: 11.25%

  • cache.r3.4xlarge: 5.625%

  • cache.r3.8xlarge: 2.8125%

ElastiCache 노드 - memcached

아니요

SwapUsage

최대 > 50,000,000바이트, 5분, 5회 연속.

CloudWatch 경보. memcached에만 적용됩니다.

OpenSearch 클러스터

아니요

ClusterStatus.red

최대값은 1분, 연속 1회 동안 >= 1입니다.

AMS는이 알림이 트리거될 때 운영 영향을 줄이기 위해 사전 예방 조치를 취합니다.

CloudWatch 경보. 하나 이상의 기본 샤드와 복제본이 노드에 할당되지 않았습니다. 자세한 내용은 빨간색 클러스터 상태를 참조하세요.

OpenSearch 도메인

아니요

KMSKeyError

>= 1분, 연속 1회.

CloudWatch 경보. 도메인에서 저장된 데이터를 암호화하는 데 사용된 KMS 암호화 키가 비활성화되었습니다. 정상 작동으로 복원하려면 다시 활성화해야 합니다. 자세한 내용은 OpenSearch Service Service의 저장 데이터 암호화를 참조하세요.

ClusterStatus.yellow

최대값은 1분, 연속 1회 동안 >= 1입니다.

AMS는이 알림이 트리거될 때 운영 영향을 줄이기 위해 사전 예방 조치를 취합니다.

하나 이상의 복제 샤드가 노드에 할당되지 않았습니다. 자세한 내용은 노란색 클러스터 상태를 참조하세요.

FreeStorageSpace

최소값은 1분, 연속 1회 동안 <= 20480입니다.

AMS는이 알림이 트리거될 때 운영 영향을 줄이기 위해 사전 예방 조치를 취합니다.

클러스터 속 노드의 여유 스토리지 공간이 20GiB까지 떨어졌습니다. 자세한 내용은 사용 가능한 스토리지 공간 부족을 참조하세요.

ClusterIndexWritesBlocked

5분 동안 >= 1, 연속 1회

AMS는이 알림이 트리거될 때 운영 영향을 줄이기 위해 사전 예방 조치를 취합니다.

클러스터가 쓰기 요청을 차단하고 있습니다. 자세한 내용은 ClusterBlockException을 참조하세요.

노드

최소값은 1일 동안 < x, 연속 1회

AMS는이 알림이 트리거될 때 운영 영향을 줄이기 위해 사전 예방 조치를 취합니다.

x는 클러스터의 노드 수입니다. 이 경보는 클러스터에서 하나 이상의 노드가 하루 동안 연결되지 않았음을 나타냅니다. 자세한 내용은 실패한 클러스터 노드를 참조하세요.

CPUUtilization

평균은 15분, 연속 3회 동안 >= 80%입니다.

AMS는이 알림이 트리거될 때 운영 영향을 줄이기 위해 사전 예방 조치를 취합니다.

100% CPU 사용률이 일반적이지만 지속적으로 높은 평균은 문제가 됩니다. 더 큰 인스턴스 유형을 사용하거나 인스턴스 추가를 고려하세요.

JVMMemoryPressure

최대값은 5분, 연속 횟수 3회 동안 >= 80%입니다.

AMS는이 알림이 트리거될 때 운영 영향을 줄이기 위해 사전 예방 조치를 취합니다.

사용량이 늘어나면 클러스터에서 메모리 부족 오류가 발생할 수 있습니다. 수직 확장을 고려하세요. Amazon ES는 Java 힙에 인스턴스 RAM의 절반을 사용하고 힙 크기는 최대 32GiB입니다. 인스턴스를 최대 64GiB의 RAM까지 수직 확장할 수 있으며 인스턴스를 추가하면 수평 확장도 가능합니다.

MasterCPUUtilization

평균은 15분, 연속 3회 동안 >= 50%입니다.

AMS는이 알림이 트리거될 때 운영 영향을 줄이기 위해 사전 예방 조치를 취합니다.

전용 마스터 노드에 더 큰 인스턴스 유형을 사용하는 것이 좋습니다. 클러스터 안정성 및 블루/그린 배포에서의 역할 때문에 전용 마스터 노드는 데이터 노드보다 평균 CPU 사용량이 낮아야 합니다.

MasterJVMMemoryPressure

최대값은 15분, 연속 1회 동안 >= 80%입니다.

AMS는이 알림이 트리거될 때 운영 영향을 줄이기 위해 사전 예방 조치를 취합니다.

전용 마스터 노드에 더 큰 인스턴스 유형을 사용하는 것이 좋습니다. 클러스터 안정성 및 블루/그린 배포에서의 역할로 인해 전용 마스터 노드는 데이터 노드보다 평균 CPU 사용량이 낮아야 합니다.

OpenSearch 인스턴스

아니요

AutomatedSnapshotFailure

최대값은 1분, 연속 1회 동안 >= 1입니다.

CloudWatch 경보. 자동 스냅샷에 오류가 발생했습니다. 이런 오류는 red 클러스터 상태로 인해 자주 발생했습니다. 빨간색 클러스터 상태를 참조하세요.

Elastic Load Balancing 인스턴스

아니요

SurgeQueueLength

1분 동안 > 100, 연속 15회.

초과 요청 수가 라우팅 보류 중인 경우 CloudWatch 경보가 발생합니다.

HTTPCode_ELB_5XX_Count

5분 동안 합계 > 0, 연속 3회.

로드 밸런서에서 시작된 초과 HTTP 5XX 응답 코드 수에 대한 CloudWatch 경보입니다.

SpilloverCount

1분 동안 > 1, 연속 15회.

서지 대기열이 가득 차서 거부된 요청 수가 초과되면 CloudWatch 경보가 발생합니다.

GuardDuty 서비스

해당 사항 없음. 모든 조사 결과(위협 목적)가 모니터링됩니다. 각 결과는 알림에 해당합니다.

GuardDuty 조사 결과의 변경 사항입니다. 이러한 변경은 새롭게 생성된 결과 또는 기존 결과의 후속 발생을 포함합니다.

지원되는 GuardDuty 결과 유형의 목록은 GuardDuty 활성 결과 유형에 있습니다.

상태

다양

AWS Health Dashboard

AMS에서 지원하는 기준 서비스와 관련하여 AWS Health Dashboard (AWS Health) 이벤트의 상태가 변경되면 알림이 전송됩니다. 자세한 내용은 지원되는 서비스를 참조하세요.

AWS Managed Microsoft AD

아니요

Active Directory 상태

AWS Managed Microsoft AD 인스턴스가 활성 상태 이벤트를 보냅니다.

서비스 이벤트. 이벤트 후 디렉터리가 정상적으로 작동할 때 발생합니다.

손상된 디렉터리 상태

AWS Managed Microsoft AD 인스턴스가 손상된 디렉터리 상태 이벤트를 보냅니다.

서비스 이벤트. 디렉터리가 성능 저하 상태에서 실행 중일 때 발생합니다. 1개 이상의 문제가 탐지되었고, 모든 디렉터리 작업이 전체 운영 용량에서 실행되지 못할 수 있습니다.

사용할 수 없는 디렉터리 상태

AWS Managed Microsoft AD 인스턴스가 작동하지 않는 상태 이벤트를 보냅니다.

서비스 이벤트. 디렉터리가 작동하지 않을 때 발생합니다. 모든 디렉터리 엔드포인트가 문제를 보고했습니다.

디렉터리 상태 삭제

AWS Managed Microsoft AD 인스턴스는 디렉터리 상태 이벤트 삭제를 전송합니다.

서비스 이벤트. 디렉터리가 현재 삭제 중일 때 발생합니다.

실패한 디렉터리 상태

AWS Managed Microsoft AD 인스턴스가 실패 상태 이벤트를 보냅니다.

서비스 이벤트. 디렉터리를 생성할 수 없을 때 발생합니다.

RestoreFailed Directory 상태

AWS Managed Microsoft AD 인스턴스는 복원 실패 디렉터리 상태 이벤트를 전송합니다.

서비스 이벤트. 스냅샷에서 디렉터리를 복원하지 못한 경우 내보내집니다.

Amazon RDS 인스턴스

아니요

DB 인스턴스에 할당된 스토리지가 소진되면 스토리지 부족 알림이 트리거됩니다.

RDS-EVENT-0007, Amazon RDS 이벤트 알림 사용의 세부 정보를 참조하세요.

DB 인스턴스 실패

호환되지 않는 구성 또는 기본 스토리지 문제로 인해 DB 인스턴스에 장애가 발생했습니다. DB 인스턴스에 대해 특정 시점으로 복구를 시작합니다.

서비스 이벤트. RDS-EVENT-0031, Amazon RDS 이벤트 범주 및 이벤트 메시지.

장애 조치가 시도되지 않음

최근에 DB 인스턴스에 장애 조치가 발생하였기 때문에 Amazon RDS가 요청한 장애 조치를 실행하지 않습니다.

서비스 이벤트. RDS-EVENT-0034, Amazon RDS 이벤트 범주 및 이벤트 메시지.

DB 인스턴스 잘못된 파라미터

예를 들어 이 인스턴스 클래스의 메모리 관련 파라미터가 너무 높게 설정되어 MySQL이 시작하지 않습니다. 따라서 메모리 파라미터 설정을 변경한 후 DB 인스턴스를 재부팅하는 것이 바람직합니다.

서비스 이벤트. RDS-EVENT-0035, Amazon RDS 이벤트 범주 및 이벤트 메시지.

잘못된 서브넷 IDs 인스턴스

DB 인스턴스가 호환되지 않는 네트워크에 있습니다. 특정 서브넷 ID 중 일부가 잘못되었거나 존재하지 않습니다.

서비스 이벤트. RDS-EVENT-0036, Amazon RDS 이벤트 범주 및 이벤트 메시지.

DB 인스턴스 읽기 전용 복제본 오류

읽기 전용 복제 프로세스에서 오류가 발생하였습니다. 자세한 내용은 이벤트 메시지 단원을 참조하십시오. 읽기 전용 복제본 오류 문제 해결에 대한 자세한 내용은 MySQL 읽기 전용 복제본 문제 해결을 참조하세요.

서비스 이벤트. RDS-EVENT-0045, Amazon RDS 이벤트 범주 및 이벤트 메시지.

DB 인스턴스 읽기 복제 종료

읽기 전용 복제본에 대한 복제가 종료되었습니다.

서비스 이벤트. RDS-EVENT-0057, Amazon RDS 이벤트 범주 및 이벤트 메시지.

statspack 사용자 계정 생성 오류

Statspack 사용자 계정인 PERFSTAT 생성 중 오류가 발생하였습니다. Statspack 옵션을 추가하기 전에 계정을 삭제합니다.

서비스 이벤트. RDS-EVENT-0058, Amazon RDS 이벤트 범주 및 이벤트 메시지.

DB 인스턴스 복구 시작

SQL Server DB 인스턴스가 미러를 재구성 중입니다. 이때 미러가 재구성될 때까지 성능이 저하됩니다. 복구 모델이 FULL이 아닌 데이터베이스가 발견되었습니다. 복구 모델이 FULL로 다시 변경되었고 미러링 복구가 시작되었습니다(<dbname>: <recovery model found>[,...]).

서비스 이벤트. RDS-EVENT-0066, Amazon RDS 이벤트 범주 및 이벤트 메시지.

DB 클러스터에 대한 장애 조치가 실패했습니다.

RDS-EVENT-0069, Amazon RDS 이벤트 범주 및 이벤트 메시지의 세부 정보를 참조하세요.

잘못된 권한 복구 S3 버킷

SQL Server 기본 백업 및 복원을 위해 Amazon S3 버킷에 액세스하는 데 사용하는 IAM 역할이 잘못 구성되었습니다. 자세한 내용은 기본 백업 및 복원 설정을 참조하세요.

서비스 이벤트. RDS-EVENT-0081, Amazon RDS 이벤트 범주 및 이벤트 메시지.

Aurora가 Amazon S3 버킷에서 백업 데이터를 복사할 수 없습니다.

RDS-EVENT-0082, Amazon RDS 이벤트 범주 및 이벤트 메시지의 세부 정보를 참조하세요.

DB 인스턴스가 할당된 스토리지의 90% 이상을 소비한 경우 스토리지 부족 알림

RDS-EVENT-0089, Amazon RDS 이벤트 범주 및 이벤트 메시지의 세부 정보를 참조하세요.

Aurora Serverless DB 클러스터에 대한 조정 실패 시 알림 서비스입니다.

RDS-EVENT-0143, Amazon RDS 이벤트 카테고리 및 이벤트 메시지의 세부 정보를 참조하세요.

DB 인스턴스가 잘못된 상태입니다. 아무 조치도 필요하지 않습니다. 자동 확장은 나중에 다시 시도합니다.

RDS-EVENT-0219, Amazon RDS 이벤트 범주 및 이벤트 메시지의 세부 정보를 참조하세요.

DB 인스턴스가 스토리지 전체 임계값에 도달했으며 데이터베이스가 종료되었습니다.

RDS-EVENT-0221, Amazon RDS 이벤트 범주 및 이벤트 메시지의 세부 정보를 참조하세요.

이 이벤트는 RDS 인스턴스 스토리지 Autoscaling을 조정할 수 없으며 Autoscaling이 실패한 여러 이유가 있을 수 있음을 나타냅니다.

RDS-EVENT-0223, Amazon RDS 이벤트 범주 및 이벤트 메시지의 세부 정보를 참조하세요.

스토리지 자동 확장은 최대 스토리지 임계값에 도달하는 보류 중인 확장 스토리지 작업을 트리거했습니다.

RDS-EVENT-0224, Amazon RDS 이벤트 범주 및 이벤트 메시지의 세부 정보를 참조하세요.

DB 인스턴스에는 현재 가용 영역에서 사용할 수 없는 스토리지 유형이 있습니다. 자동 확장은 나중에 다시 시도합니다.

RDS-EVENT-0237, Amazon RDS 이벤트 범주 및 이벤트 메시지의 세부 정보를 참조하세요.

서브넷에서 사용할 수 있는 IP 주소가 충분하지 않기 때문에 RDS가 프록시 용량을 프로비저닝할 수 없습니다.

RDS-EVENT-0243, Amazon RDS 이벤트 범주 및 이벤트 메시지의 세부 정보를 참조하세요.

AWS 계정의 스토리지가 허용된 스토리지 할당량을 초과했습니다.

RDS-EVENT-0254, Amazon RDS 이벤트 범주 및 이벤트 메시지의 세부 정보를 참조하세요.

CPUUtilization

15분 동안 평균 CPU 사용률 > 90%, 연속 2회.

CloudWatch 경보.

DiskQueueDepth

합계는 1분, 연속 15회 동안 > 75입니다.

FreeStorageSpace

5분 동안 평균 < 1,073,741,824바이트, 연속 2회.

SwapUsage

평균 >= 5분 동안 104,857,600바이트, 연속 2회.

Amazon Redshift 클러스터

아니요

RedshiftClusterStatus

유지 관리 모드가 아닌 경우 클러스터의 상태가 5분 동안 < 1입니다.

1은 정상 클러스터를 나타냅니다.

Amazon Macie

새로 생성된 알림 및 기존 알림에 대한 업데이트.

Macie는 조사 결과에서 변경 사항을 찾습니다. 이러한 변경은 새롭게 생성된 결과 또는 기존 결과의 후속 발생을 포함합니다.

Amazon Macie 알림. 지원되는 Macie 알림 유형 목록은 Amazon Macie 조사 결과 분석을 참조하세요. Macie는 모든 계정에 대해 활성화되어 있지 않습니다.

AMS는이 알림이 트리거될 때 사전 예방적 작업(클러스터 크기 조정)을 수행합니다.

문제 해결 노력에 대한 자세한 내용은 섹션을 참조하세요알림의 AMS 자동 문제 해결.