AMS Accelerate에서 Amazon EKS 모니터링 및 인시던트 관리의 기준 알림

알림을 확인한 후 AMS는 Amazon EKS에 대해 다음 알림을 활성화한 다음 선택한 Amazon EKS 클러스터에 대한 모니터링 및 인시던트 관리에 참여합니다. 서비스 수준 계약(SLAs) 및 서비스 수준 목표(SLOs) 응답 시간은 선택한 계정 서비스 티어(Plus, Premium)에 따라 달라집니다. 자세한 내용은 AMS Accelerate의 인시던트 보고서 및 서비스 요청을 참조하세요.

알림 및 작업

다음 표에는 Amazon EKS 알림과 AMS가 수행하는 각 작업이 나열되어 있습니다.

Alert	임곗값	작업
컨테이너 OOM 종료됨	지난 10분 내의 총 컨테이너 재시작 수는 1개 이상이며 포드의 Kubernetes 컨테이너가 지난 10분 내에 “OOMKilled”라는 이유로 종료되었습니다.	AMS는 컨테이너 제한에 도달하거나 메모리 제한 초과 커밋으로 인해 OOM 종료가 발생하는지 조사한 다음 수정 조치를 조언합니다.
포드 작업 실패	Kubernetes 작업이 완료되지 않습니다. 실패는 하나 이상의 실패한 작업 상태가 있는 것으로 표시됩니다.	AMS는 Kubernetes 작업 또는 해당 cron 작업이 실패하는 이유를 조사한 다음 수정 조치를 조언합니다.
StatefulSet 다운	트래픽을 처리할 준비가 된 복제본 수가 최소 1분 동안 StatefulSet당 현재 기존 복제본 수와 일치하지 않습니다.	AMS는 포드 이벤트의 오류 메시지와 포드 로그의 오류 로그 조각을 검토하여 포드가 준비되지 않는 이유를 확인한 다음 수정 조치를 조언합니다.
HPA 조정 기능	상태 조건 “AbleToScale”이 최소 2분 동안 false이므로 Horizontal Pod Autoscaler(HPA)를 조정할 수 없습니다.	AMS는 배포 또는 StatefulSet와 같은 후속 워크로드 리소스에 대해 포드를 조정할 수 없는 Kubernetes Horizontal Pod Autoscaler(HPA)를 결정합니다.
HPA 지표 가용성	상태 조건 “ScalingActive”가 2분 이상 false이므로 Horizontal Pod Autoscaler(HPA)는 지표를 수집할 수 없습니다.	AMS는 HPA가 서버 구성 문제 또는 RBAC 권한 부여 문제와 관련된 지표와 같은 지표를 수집할 수 없는 이유를 결정합니다.
포드 준비되지 않음	Kubernetes 포드는 15분 이상 실행 중이 아닌 상태(예: 보류 중, 알 수 없음 또는 실패)로 유지됩니다.	AMS는 영향을 받는 포드(들)의 세부 정보를 조사하고 포드 로그에 관련 오류 및 이벤트가 있는지 검토한 다음 수정 조치를 조언합니다.
포드 충돌 루프	포드 컨테이너는 1시간 동안 15분마다 한 번 이상 다시 시작됩니다.	AMS는 리소스 부족, 다른 컨테이너에 의해 잠긴 파일, 다른 컨테이너에 의해 잠긴 데이터베이스, 서비스 종속성 실패, 외부 서비스에 대한 DNS 문제, 잘못된 구성 등 포드가 시작되지 않는 이유를 조사합니다.
데몬 세트가 잘못 예약됨	10분 동안 Kubernetes Daemonset 포드가 하나 이상 잘못 예약되어 있습니다.	AMS는 Daemonset이 실행되지 않아야 하는 노드에 예약된 이유를 결정합니다. 이는 잘못된 포드 nodeSelector/taints/affinities가 Daemonset 포드에 적용되었거나 노드(노드 풀)가 테인트되고 기존 포드가 제거되도록 예약되지 않은 경우에 발생할 수 있습니다.
Kubernetes API 오류	Kubernetes API 서버 오류율이 2분 동안 3%를 초과합니다.	AMS는 컨트롤 플레인 로그를 분석하여이 알림을 유발하는 오류의 볼륨과 유형을 확인하고 마스터 노드 또는 etcd Autoscaling 그룹에 대한 리소스 경합 문제를 식별합니다. API 서버가 복구되지 않으면 AMS는 Amazon EKS 서비스 팀을 참여시킵니다.
Kubernetes API 지연 시간	Kubernetes API 서버에 대한 요청의 99번째 백분위수 지연 시간이 2분 동안 1초를 초과합니다.	AMS는 컨트롤 플레인 로그를 분석하여 지연 시간을 유발하는 오류의 볼륨과 유형을 확인하고 마스터 노드 또는 etcd Auto Scaling 그룹에 대한 리소스 경합 문제를 식별합니다. API 서버가 복구되지 않으면 AMS는 Amazon EKS 서비스 팀을 참여시킵니다.
Kubernetes 클라이언트 인증서 만료	Kubernetes API 서버에 인증하는 데 사용되는 클라이언트 인증서가 24시간 이내에 만료됩니다.	AMS는 클러스터 인증서가 24시간 후에 만료됨을 알리기 위해이 알림을 보냅니다.
노드 준비되지 않음	노드 “준비” 조건 상태는 최소 10분 동안 false입니다.	AMS는 API 서버에 대한 kubelet 액세스를 방지하는 네트워크 문제와 같은 노드 조건 및 이벤트를 조사합니다.
노드 높은 CPU	CPU 부하가 5분 동안 80%를 초과합니다.	AMS는 하나 이상의 포드가 비정상적으로 많은 양의 CPU를 소비하는지 여부를 결정합니다. 그런 다음 AMS는 요청, 제한 및 포드 활동이 예상대로인지 확인합니다.
노드 OOM 종료 감지됨	4분 동안 노드에서 호스트 OOM 종료가 하나 이상 보고됩니다.	AMS는 컨테이너 제한에 도달하거나 노드 초과 커밋으로 인해 OOM 종료가 발생하는지 확인합니다. 애플리케이션 활동이 정상인 경우 AMS는 초과 커밋 및 포드 제한 수정에 대한 요청 및 제한에 대해 조언합니다.
노드 연결 트랙 제한	현재 연결 추적 항목 수와 최대 한도의 비율이 5분 동안 80%를 초과합니다.	AMS는 코어당 권장 conntrack 값을 알려줍니다. Kubernetes 노드는 노드의 총 메모리 용량에 비례하여 conntrack 최대값을 설정합니다. 로드가 많은 애플리케이션, 특히 더 작은 노드에서는 콘트랙 최대값을 쉽게 초과할 수 있으므로 연결이 재설정되고 제한 시간이 초과될 수 있습니다.
노드 클럭이 동기화되지 않음	2분 동안의 최소 동기화 상태는 0이고 초 단위의 최대 오류는 16 이상입니다.	AMS는 NTP(Network Time Protocol)가 설치되어 제대로 작동하는지 여부를 결정합니다.
포드 하이 CPU	컨테이너의 CPU 사용량이 최소 2분 동안 3분 동안 80%를 초과합니다.	AMS는 포드 로그를 조사하여 많은 양의 CPU를 소비하는 포드 작업을 결정합니다.
포드 고용량 메모리	컨테이너의 메모리 사용량이 2분 동안 지정된 메모리 제한의 80%를 초과합니다.	AMS는 포드 로그를 조사하여 많은 양의 메모리를 소비하는 포드 작업을 결정합니다.
CoreDNS 다운	CoreDNS가 15분 이상 Prometheus 대상 검색에서 사라졌습니다.	이는 내부 또는 외부 클러스터 서비스의 도메인 이름 확인이 중지되었음을 나타내는 중요한 알림입니다. AMS는 CoreDNS 포드의 상태를 확인하고, CoreDNS 구성을 확인하고, CoreDNS 포드를 가리키는 DNS 엔드포인트를 확인하고, CoreDNS 제한을 확인하고, 승인을 받아 CoreDNS 디버그 로깅을 활성화합니다.
CoreDNS 오류	CoreDNS는 10분 동안 DNS 요청의 3% 이상에 대해 SERVFAIL 오류를 반환합니다.	이 알림은 애플리케이션 문제 또는 잘못된 구성을 나타낼 수 있습니다. AMS는 CoreDNS 포드의 상태를 확인하고, CoreDNS 구성을 확인하고, CoreDNS 포드를 가리키는 DNS 엔드포인트를 확인하고, CoreDNS 제한을 확인하고, 승인을 받아 CoreDNS 디버그 로깅을 활성화합니다.
CoreDNS 지연 시간	DNS 요청 기간의 99번째 백분위수가 10분 동안 4초를 초과합니다.	이 알림 CoreDNS가 오버로드될 수 있음을 나타냅니다. AMS는 CoreDNS 포드의 상태를 확인하고, CoreDNS 구성을 확인하고, CoreDNS 포드를 가리키는 DNS 엔드포인트를 확인하고, CoreDNS 제한을 확인하고, 승인을 받아 CoreDNS 디버그 로깅을 활성화합니다.
CoreDNS 전달 지연 시간	CoreDNS가 요청을 kube-dns로 전달하는 응답 시간의 99번째 백분위수가 10분 동안 4초를 초과합니다.	CoreDNS가 신뢰할 수 있는 서버가 아니거나 domanin 이름에 대한 캐시 항목이 없는 경우 CoreDNS는 DNS 요청을 업스트림 DNS 서버로 전달합니다. 이 알림은 CoreDNS가 오버로드되거나 업스트림 DNS 서버에 문제가 있을 수 있음을 나타냅니다. AMS는 CoreDNS 포드의 상태를 확인하고, CoreDNS 구성을 확인하고, CoreDNS 포드를 가리키는 DNS 엔드포인트를 확인하고, CoreDNS 제한을 확인하고, 승인을 받아 CoreDNS 디버그 로깅을 활성화합니다.
CoreDNS 전달 오류	DNS 쿼리의 3% 이상이 5분 동안 실패합니다.	CoreDNS가 신뢰할 수 있는 서버가 아니거나 domanin 이름에 대한 캐시 항목이 없는 경우 CoreDNS는 DNS 요청을 업스트림 DNS 서버로 전달합니다. 이 알림은 업스트림 DNS 서버의 구성 오류 또는 문제를 나타냅니다. AMS는 CoreDNS 포드의 상태를 확인하고, CoreDNS 구성을 확인하고, CoreDNS 포드를 가리키는 DNS 엔드포인트를 확인하고, CoreDNS 제한을 확인하고, 승인을 받아 CoreDNS 디버그 로깅을 활성화합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon EKS에 대한 모니터링 및 인시던트 관리 작동 방식

요구 사항