인시던트 감지 및 대응에서 경보 정의 및 구성 - AWS 인시던트 감지 및 대응 사용 설명서

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

인시던트 감지 및 대응에서 경보 정의 및 구성

AWS 는 사용자와 협력하여 지표와 경보를 정의하여 애플리케이션 및 기본 AWS 인프라의 성능에 대한 가시성을 제공합니다. 임계값을 정의하고 구성할 때 경보가 다음 기준을 준수하도록 요청합니다.

  • 경보는 즉시 운영자의 주의가 필요한 모니터링되는 워크로드에 심각한 영향(수익 손실 또는 성능이 크게 저하되는 고객 경험 저하)이 있는 경우에만 “경보” 상태로 전환됩니다.

  • 또한 경보는 인시던트 관리 팀을 참여시키기 전에 워크로드에 대해 지정된 해석기를 동시에 참여시켜야 합니다. 인시던트 관리 엔지니어는 완화 프로세스에서 지정된 해석기와 협업해야 하며, 일선 대응 담당자 역할을 하지 않고 에스컬레이션해야 합니다.

  • 경보 임계값을 적절한 임계값 및 기간으로 설정하여 경보가 발생할 때마다 조사를 수행해야 합니다. 경보가 "Alarm" 상태와 "OK" 상태 사이에서 플래핑되는 경우 운영자의 응답과 주의를 기울일 수 있을 만큼 충분한 영향이 발생합니다.

경보 유형:

  • 비즈니스 영향 수준을 설명하고 간단한 장애 감지를 위해 관련 정보를 전달하는 경보입니다.

  • Amazon CloudWatch canary. 자세한 내용은 Canary 및 X-Ray 추적X-Ray를 참조하세요.

  • 집계 경보(종속성 모니터링)

다음 표에는 CloudWatch 모니터링 시스템을 사용하는 경보의 예가 나와 있습니다.

지표 이름/경보 임계값 경보 ARN 또는 리소스 ID 이 경보가 실행되는 경우 참여하는 경우 이러한 서비스에 대한 Premium Support Case를 자릅니다.

API 오류/

10개 데이터 포인트에 대해 오류 수 >= 10개

arn:aws:cloudwatch:us-west-2:000000000000:alarm:E2MPmimLambda-Errors

데이터베이스 관리자(DBA) 팀으로 티켓 자르기

Lambda, API 게이트웨이

ServiceUnavailable(Http 상태 코드 503)

5분 동안 10개의 데이터 포인트(다른 클라이언트)에 대해 >=3인 오류 수

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503

서비스 팀으로 티켓 자르기

Lambda, API 게이트웨이

ThrottlingException(Http 상태 코드 400)

5분 동안 10개의 데이터 포인트(다른 클라이언트)에 대해 >=3인 오류 수

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400

서비스 팀으로 티켓 자르기

EC2, Amazon Aurora

자세한 내용은 AWS 인시던트 감지 및 대응 모니터링 및 관찰성을 참조하세요.

키 출력:

  • 워크로드에 대한 경보의 정의 및 구성입니다.

  • 온보딩 설문지의 경보 세부 정보 작성.