View a markdown version of this page

AMS Accelerate에서 Amazon EKS에 대한 모니터링 및 인시던트 관리 작동 방식 - AMS Accelerate 사용 설명서

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AMS Accelerate에서 Amazon EKS에 대한 모니터링 및 인시던트 관리 작동 방식

생성: AMS는 EKS에 대한 온보딩 모니터링 및 인시던트 관리의 일환으로 관리형 계정에서 선택한 Amazon EKS 클러스터에 대한 기준 모니터링을 구성합니다. AMS는 Amazon Managed Service for Prometheus 알림 관리자 규칙과 Amazon CloudWatch 이벤트 규칙의 조합을 사용하여 기준 모니터링을 구성합니다. 클러스터의 AMS 구성 Prometheus 서버는 Prometheus 지표를 스크레이프하고 동일한 리전의 Amazon Managed Service for Prometheus 엔드포인트에 원격 작성합니다. 기본 모니터링 구성은 Prometheus 알림 관리자 규칙이 트리거되거나 CloudWatch 이벤트가 생성될 때 알림을 생성합니다.

집계: AMS는 리소스가 생성하는 모든 알림을 AMS에서 관리하는 Amazon Simple Notification Service 주제로 전달하여 AMS 모니터링 시스템에 전송합니다.

처리 및 영향 분석: AMS는 알림을 분석한 다음 영향 가능성을 기반으로 처리합니다. AMS는 다음과 같이 알림을 분류합니다.

  • 알려진 고객 영향이 있는 알림: 이러한 알림의 경우 AMS는 인시던트 관리 프로세스를 사용하여 새 인시던트 보고서를 생성합니다.

  • 고객에게 미치는 영향이 불확실한 알림: 이러한 알림의 경우 AMS는 인시던트 보고서를 전송합니다. 대부분의 경우 이러한 알림은 AMS가 조치를 취하기 전에 영향을 확인하도록 요청합니다. 이러한 알림의 경우 AMS는 세부 정보가 포함된 알림 알림을 보내고 알림에 완화 작업이 필요한지 확인합니다. AMS는 알림에서 작업을 완화하는 옵션을 제공합니다. 회신에서 알림이 인시던트임을 확인하면 AMS는 새 인시던트 보고서 생성을 트리거하고 인시던트 관리 프로세스를 시작합니다. "고객 영향 없음" 또는 3일 동안 전혀 응답하지 않음 응답을 수신하는 모든 서비스 알림은 해결된 것으로 표시됩니다. 또한 해당 알림은 해결됨으로 표시됩니다.

  • 고객 영향이 없는 알림: 평가 후 AMS가 알림에 고객 영향이 없다고 판단하면 알림이 종료됩니다.

AMS 책임 매트릭스(RACI)

AMS 책임, 책임, 상담 및 정보 제공 또는 RACI 매트릭스는 다양한 활동에 대해 고객 또는 AMS에 기본 책임을 할당합니다. 다음 표에는 Amazon EKS용 모니터링 및 인시던트 관리를 사용하는 애플리케이션의 활동에 대한 고객 및 AMS의 책임에 대한 개요가 나와 있습니다.

  • R은 작업을 수행하는 책임 당사자를 나타냅니다.

  • 는 책임 당사자를 의미합니다.

  • C는 컨설팅, 일반적으로 주제 전문가로서 의견을 구하는 당사자, 양자 통신이 이루어지는 당사자를 의미합니다.

  • 나는 정보, 즉 종종 작업 또는 결과물 완료 시에만 진행 상황에 대한 정보를 받는 당사자를 의미합니다.

활동 Customer AMS

AMS 요구 사항 검색

정보

R

클러스터 액세스에 대한 AMS 권한(RBAC) 활성화

R

C

아직 없는 경우 작업자 노드에 Amazon EC2 Systems Manager Agent 설치

R C

필요에 따라 AMS 네임스페이스에 Prometheus, Prometheus Node Exporter 및 kube-state-metrics와 같은 AMS 클러스터 내 구성 요소를 배포합니다.

C R

AMS 컨트롤 플레인에서 Amazon Managed Service for Prometheus 프로비저닝

정보 R

AMS 컨트롤 플레인에서 Prometheus 알림 관리자 구성

정보 R

Amazon Managed Grafana 템플릿 제공 및 구성 지원

C R

GuardDuty EKS 감사 로그 모니터링 활성화

C R

Amazon EKS 컨트롤 플레인 로깅 활성화

정보 R

Amazon EKS 컨트롤 플레인의 상태 및 성능 모니터링

정보 R

Amazon EKS 클러스터(클러스터, 노드, 워크로드, 포드, API Server 및 CoreDNS)의 상태 및 성능 모니터링

정보 R

Amazon EKS에 대한 알림 분류 및 인시던트 대응 제공

정보 R

인시던트 발생 시 진단 명령 실행

정보 R

인시던트 중 로그 분석(컨트롤 플레인 및 포드 로그)

정보 R

AWS 네트워크 문제에 대한 인시던트 대응

정보 R

GuardDuty EKS 감사 로그 모니터링 결과에 응답

정보 R

가능한 경우 인시던트를 해결하기 위한 조치에 대한 고객 지침을 제공합니다.

정보 R