

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

# Amazon EKS에서 모니터링
<a name="monitoring"></a>

Amazon EKS에서의 모니터링은 Kubernetes 워크로드의 상태, 성능 및 보안에 대한 중요한 가시성을 제공합니다. 적절한 모니터링이 없으면 서비스 중단, 보안 침해 및 비효율적인 리소스 사용률이 발생하여 비즈니스 운영에 영향을 미치고 비용이 증가할 수 있습니다. 효과적인 모니터링을 통해 문제를 사전에 식별 및 해결하고, 리소스 사용을 최적화하고, 컨테이너화된 애플리케이션 전반에서 규정 준수 요구 사항을 유지할 수 있습니다. 포괄적인 모니터링 솔루션을 구현하면 고가용성을 보장하고, 이상을 조기에 감지하고, Amazon EKS 인프라 규모 조정 및 개선을 위한 데이터 기반 결정을 내릴 수 있습니다.

이 섹션에서는 Kubernetes 환경에 대한 강력한 모니터링 전략을 구축하는 데 도움이 되는 다양한 모니터링 유형, 사용 가능한 도구 및 모범 사례를 포함하여 Amazon EKS 모니터링의 다양한 측면을 살펴봅니다.

**Topics**
+ [모니터링 유형](monitoring-types.md)
+ [도구](monitoring-tools.md)
+ [고가용성 구현](monitoring-ha-setup.md)
+ [모범 사례](monitoring-best-practices.md)
+ [고급 고려 사항](monitoring-considerations.md)

# Amazon EKS의 모니터링 유형
<a name="monitoring-types"></a>

Amazon EKS의 효과적인 관찰성에는 인프라, 애플리케이션 및 보안 모니터링 활동이 포함됩니다.

## 인프라 모니터링
<a name="infrastructure"></a>

인프라 모니터링은 Kubernetes 클러스터의 기본 요소의 상태와 성능에 대한 심층적인 인사이트를 제공하는 Amazon EKS 관찰성의 기본 구성 요소입니다. 핵심에는 컨트롤 플레인 구성 요소와 작업자 노드 모두의 생체 신호를 추적하고 기본 플랫폼이 안정적이고 효율적으로 유지되도록 하는 작업이 포함됩니다.
+ **컨트롤 플레인 모니터링**은 API 서버, etcd 데이터베이스 및 스케줄러와 같은 주요 구성 요소를 감독하기 때문에 매우 중요합니다. API 서버 지연 시간을 모니터링하면 애플리케이션 배포 또는 조정 작업에 영향을 미칠 수 있는 성능 병목 현상을 빠르게 식별할 수 있습니다. Etcd 성능 모니터링은 클러스터의 상태 데이터베이스가 효율적으로 작동하는지 확인하고 전체 클러스터에 영향을 미칠 수 있는 데이터 일관성 문제를 방지합니다.
+ **노드 수준 모니터링**은 컨테이너화된 워크로드를 실행하는 컴퓨팅 리소스에 중점을 두기 때문에 똑같이 중요합니다. 여기에는 모든 작업자 노드에서 CPU 사용률, 메모리 사용량, 디스크 I/O 및 네트워크 성능 추적이 포함됩니다. 이러한 지표를 이해하면 리소스 소진을 방지하고, 노드 규모 조정 결정을 최적화하고, 적절한 용량 계획을 수립하는 데 도움이 됩니다.
+ **네트워크 모니터링**은 포드, 서비스 및 외부 리소스 간의 안정적인 통신을 유지하는 데 중요한 역할을 합니다. 네트워크 처리량, 지연 시간 및 연결 상태를 모니터링하여 연결 문제를 조기에 식별하고 원활한 애플리케이션 통신을 보장할 수 있습니다. 스토리지 모니터링은 볼륨 성능, 용량 사용률 및 I/O 패턴을 추적하여 네트워크 모니터링을 보완하여 데이터 관련 병목 현상을 방지합니다.

인프라 모니터링은 잠재적 문제에 대한 조기 경고 시스템 역할을 하고 사전 예방적 유지 관리를 지원하며 최적의 리소스 할당을 보장합니다. 강력한 인프라 모니터링이 없으면 예상치 못한 가동 중지, 성능 저하, 비효율적인 리소스 사용이 발생하여 비즈니스 운영 및 비용에 상당한 영향을 미칠 수 있습니다.

## 애플리케이션 모니터링
<a name="application"></a>

애플리케이션 모니터링은 Amazon EKS 환경에서 정상적이고 성능이 뛰어나며 신뢰할 수 있는 컨테이너화된 애플리케이션을 유지 관리하는 데 필수적입니다. 이 수준의 모니터링은 클러스터 내에서 실행되는 실제 워크로드에 초점을 맞추고 애플리케이션이 어떻게 동작하고, 수행하고, 다른 서비스와 상호 작용하는지에 대한 중요한 인사이트를 제공합니다.

애플리케이션 모니터링에는 컨테이너 수준 모니터링, 서비스 수준 모니터링 및 분산 추적이 포함됩니다.
+ **컨테이너 수준에서** 애플리케이션 모니터링은 컨테이너 상태, 재시작 수, 리소스 소비 패턴과 같은 중요한 지표를 추적합니다. 이러한 지표는 과도한 리소스를 소비하거나 자주 다시 시작될 수 있는 문제가 있는 컨테이너를 식별하는 데 도움이 되며, 이는 메모리 누수 또는 구성 문제와 같은 기본 문제를 나타낼 수 있습니다. 컨테이너 수명 주기 이벤트를 모니터링하면 적절한 애플리케이션 동작을 보장하고 배포 문제를 신속하게 해결할 수 있습니다.
+ **서비스 수준 모니터링**은 응답 시간, 오류율 및 요청 처리량과 같은 애플리케이션 성능 및 안정성 지표에 대한 가시성을 제공합니다. 이러한 지표는 서비스 수준 목표(SLOs 유지하고 긍정적인 최종 사용자 경험을 보장하는 데 필수적입니다. 다양한 서비스 엔드포인트에서 지연 시간을 추적하고, 성능 병목 현상을 식별하고, 오류 패턴을 모니터링하여 애플리케이션 신뢰성을 유지할 수 있습니다.
+ **분산 추적**은 특히 마이크로서비스 아키텍처에서 애플리케이션 모니터링의 또 다른 중요한 측면입니다. 추적을 구현하면 요청이 다양한 서비스를 통과할 때 요청을 따르고, 종속성을 이해하고, 성능 병목 현상을 식별할 수 있습니다. 이러한 end-to-end 가시성을 통해 서비스 상호 작용을 최적화하고 여러 구성 요소에 적용되는 복잡한 문제를 해결할 수 있습니다.

사용자 지정 애플리케이션 지표는 비즈니스별 인사이트를 제공하는 데 중요한 역할을 합니다. 여기에는 주문 처리율, 사용자 로그인 빈도 또는 트랜잭션 성공률과 같은 지표가 포함될 수 있습니다. 이러한 사용자 지정 지표를 인프라 및 컨테이너 지표와 연관시켜 인프라 성능이 비즈니스 운영에 미치는 영향을 더 잘 이해하고 규모 조정 및 최적화를 위한 데이터 기반 결정을 내릴 수 있습니다.

애플리케이션 모니터링의 중요성은 애플리케이션 상태 및 성능에 대한 포괄적인 보기를 제공하는 기능에 있습니다. 이 모니터링을 통해 높은 서비스 품질을 유지하고, 문제를 신속하게 해결하고, 비즈니스 목표에 맞게 애플리케이션을 지속적으로 최적화할 수 있습니다.

## 보안 모니터링
<a name="security"></a>

Amazon EKS의 보안 모니터링은 조직이 Kubernetes 환경의 무결성, 기밀성 및 규정 준수를 유지하는 데 도움이 되는 중요한 활동입니다. 이 포괄적인 보안 접근 방식은 지속적인 감시, 위협 탐지 및 규정 준수 모니터링을 결합하여 잠재적인 보안 위험 및 무단 액세스로부터 컨테이너화된 워크로드를 보호합니다. 여기에는 인증 및 권한 부여 모니터링, 네트워크 보안 모니터링, 구성 및 규정 준수 모니터링이 포함됩니다.
+ **인증 및 권한 부여 모니터링**은 클러스터에 대한 모든 액세스 시도를 추적하여 1차 방어선을 구성합니다. 여기에는 API 서버 요청 모니터링, 성공 및 실패한 로그인 시도 추적, 역할 기반 액세스 제어(RBAC) 변경 감사가 포함됩니다. 어떤 리소스에 언제 액세스했는지에 대한 자세한 감사 로그를 유지하면 잠재적 보안 침해, 무단 액세스 시도 또는 권한 에스컬레이션 활동을 신속하게 감지할 수 있습니다. 이는 엄격한 액세스 제어를 유지해야 하는 다중 테넌트 환경에서 특히 중요합니다.
+ **네트워크 보안 모니터링**은 포드와 서비스 간의 무단 통신을 감지하고 방지하는 데 중점을 둡니다. 네트워크 정책 위반 및 비정상적인 트래픽 패턴을 모니터링하여 컨테이너 이스케이프 시도 또는 클러스터 내 측면 이동과 같은 잠재적 보안 위협을 식별할 수 있습니다. 여기에는 컨테이너가 승인된 엔드포인트와만 통신하고 정의된 보안 정책을 따르도록 내부 클러스터 통신 및 외부 트래픽 패턴을 모두 추적하는 것이 포함됩니다.
+ **구성 및 규정 준수 모니터링**은 보안 기준을 유지하고 규제 요구 사항을 충족하는 데 필수적입니다. 여기에는 컨테이너 이미지에서 취약성을 지속적으로 스캔하고, 런타임 보안을 모니터링하고, 보안 태세에 영향을 미칠 수 있는 구성 변경을 추적하는 작업이 포함됩니다. 정기적인 규정 준수 감사를 통해 업계 표준 및 조직 보안 정책을 준수하고 구성 드리프트 감지를 통해 보안 위험을 초래할 수 있는 무단 변경을 방지할 수 있습니다.

Amazon EKS의 보안 모니터링은 규제 요구 사항을 준수하면서 최신 보안 위협으로부터 보호하는 데 필요한 가시성과 제어를 제공합니다. 포괄적인 보안 모니터링을 구현하면 조직은 강력한 보안 태세를 유지하고, 보안 인시던트에 신속하게 대응하고, 다양한 규제 표준 준수를 입증할 수 있습니다.

# Amazon EKS용 모니터링 도구
<a name="monitoring-tools"></a>

이 섹션에서는 AWS 모니터링 서비스, 오픈 소스 또는 독점 솔루션, 특수 도구의 세 가지 범주의 Amazon EKS 모니터링 도구에 대해 설명합니다.

## AWS 서비스
<a name="monitoring-services"></a>
+ [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html): 포괄적인 모니터링 및 로깅 서비스

  CloudWatch는 AWS 모니터링 솔루션의 백본을 구성하고 Amazon EKS 환경을 위한 광범위한 기능을 제공합니다. 세분화된 컨테이너 및 클러스터 지표를 위한 Container Insights를 제공하므로 성능, 리소스 사용률 및 애플리케이션 상태를 모니터링할 수 있습니다. 이 서비스는 로그 집계 및 분석에 뛰어나며 컨테이너 및 노드 간의 중앙 집중식 로깅을 지원합니다. CloudWatch는와 자연스럽게 통합됩니다 AWS 서비스. 자동 경보 구성을 제공하고 사용자 지정 지표 및 대시보드를 지원하므로 Amazon EKS 모니터링을 위한 필수 도구입니다.
+ [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html): 고급 분산 추적 플랫폼

  X-Ray는 정교한 분산 추적 기능을 제공하여 관찰성을 높입니다. 서비스 맵 시각화는 애플리케이션 아키텍처 및 종속성에 대한 명확한 인사이트를 제공하며, 자세한 요청 추적은 서비스 전반의 성능 병목 현상을 식별하는 데 도움이 됩니다. X-Ray는 복잡한 마이크로서비스 아키텍처를 통해 요청을 추적할 수 있으므로 특히 여러에 걸쳐 있는 분산 시스템에서 문제 해결 및 최적화에 매우 유용합니다 AWS 서비스.
+ [AWS Distro for OpenTelemetry](https://aws-otel.github.io/): 통합 관찰성 프레임워크

  Distro for OpenTelemetry는 교차 플랫폼 지원을 통해 통합 데이터 수집 기능을 제공하므로 하이브리드 환경에 적합합니다. 이 서비스는 다른 서비스와 통합되고 AWS 서비스, 사용자 지정 계측을 지원하며, 업계 표준과의 호환성을 유지하면서 포괄적인 모니터링 솔루션을 유연하게 구현할 수 있습니다.
+ [Amazon Managed Grafana](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html): 엔터프라이즈급 시각화

  Amazon Managed Grafana는 데이터 시각화 및 분석을 위한 완전관리형 서비스를 제공합니다. 기본 AWS 서비스제공 보안 기능 및 엔터프라이즈급 확장성과 원활하게 통합됩니다. 이 서비스는 대시보드 생성 및 관리를 간소화하는 동시에 교차 계정 데이터 소스 액세스 및 와의 통합과 같은 고급 기능을 제공합니다 AWS IAM Identity Center.
+ [Amazon Managed Service for Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html): 가용성이 높고 안전한 관리형 모니터링

  Amazon Managed Service for Prometheus는 완전 관리형 Prometheus 호환 모니터링 서비스입니다. 자동화된 조정, 고가용성, 안전한 지표 수집 및 쿼리를 제공합니다. 이 서비스는 Amazon EKS와 원활하게 통합되며 Prometheus 서버 관리의 운영 오버헤드를 제거합니다.

## 오픈 소스 또는 독점 솔루션
<a name="monitoring-open-source"></a>

이전 섹션에 설명된 AWS 도구는 원활한 통합 및 관리형 서비스를 제공합니다. 이 섹션에 나열된 오픈 소스 도구는 유연성과 광범위한 사용자 지정 옵션을 AWS 서비스 제공하여 보완합니다. 각 도구의 기능과 사용 사례를 이해하면 특정 요구 사항을 가장 잘 충족하는 모니터링 전략을 설계하는 데 도움이 됩니다.
+ [Prometheus](https://docs.aws.amazon.com/eks/latest/userguide/deploy-prometheus.html): 지표 수집 툴킷

  Prometheus는 Kubernetes 환경에서 지표 수집을 위한 오픈 소스 솔루션입니다. 시계열 데이터베이스와 PromQL 쿼리 언어를 사용하면 정교한 지표 분석을 수행할 수 있습니다. 플랫폼의 서비스 검색 기능은 동적 Kubernetes 환경에 자동으로 적응하며 알림 관리 시스템은 중요한 문제를 지속적으로 알려줍니다. Prometheus는 광범위한 통합 옵션을 제공하므로 포괄적인 지표 모니터링에 다양하게 사용할 수 있습니다.
+ [Grafana](https://grafana.com/docs/grafana-cloud/monitor-infrastructure/kubernetes-monitoring/configuration/config-other-methods/config-aws-eks/): 고급 시각화 엔진

  Grafana는 시각화 기능을 통해 복잡한 모니터링 데이터를 실행 가능한 인사이트로 변환합니다. 플랫폼은 여러 소스의 데이터를 결합하고 인프라 및 애플리케이션 지표에 대한 통합 보기를 제공하는 사용자 지정 대시보드를 생성합니다. 다양한 데이터 소스 및 알림 관리 기능에 대한 지원은 포괄적인 모니터링을 제공합니다. Grafana는 실시간 및 기록 데이터를 시각화하는 데 도움이 되므로 추세를 식별하고 정보에 입각한 결정을 내릴 수 있습니다.
+ [Fluent Bit](https://fluentbit.io/): 통합 로깅 계층

  이 로깅 솔루션은 Kubernetes 환경에 대한 로그 수집 및 관리를 제공합니다. 기본 Kubernetes 통합은 컨테이너 및 노드에서 원활한 로그 수집을 보장하며, 여러 출력 대상에 대한 지원은 로그 스토리지 및 분석에 유연성을 제공합니다. 로그 구문 분석 및 필터링과 같은 고급 기능을 사용하면 특정 요구 사항에 따라 로그를 처리하고 라우팅할 수 있습니다. Fluent Bit의 경량 특성으로 컨테이너화된 환경에 특히 적합합니다.
+ [Datadog](https://www.datadoghq.com/blog/eks-monitoring-datadog/): 전체 스택 관찰성

  Datadog은 네이티브 Kubernetes 지원을 통해 포괄적인 모니터링 기능을 제공합니다. 인프라 모니터링, 애플리케이션 성능 모니터링(APM), 로그 관리 및 실시간 분석을 제공합니다. Amazon EKS 모니터링에 플랫폼의 자동 서비스 검색 및 광범위한 통합 카탈로그와 기계 학습 기능을 사용하여 이상을 감지하고 잠재적 문제를 예측할 수 있습니다.
+ [New Relic](https://docs.newrelic.com/docs/infrastructure/amazon-integrations/connect/eks-add-on/): 애플리케이션 성능 모니터링

  New Relic은 애플리케이션 성능 및 인프라 상태에 대한 가시성을 제공합니다. Kubernetes 통합은 자세한 컨테이너 인사이트, 분산 추적 및 사용자 지정 대시보드를 제공합니다. 플랫폼은 애플리케이션 성능을 인프라 지표와 연관시키는 데 도움이 되므로 문제를 신속하게 식별하고 해결할 수 있습니다.
+ [Elastic Stack(ELK Stack)](https://aws.amazon.com/opensearch-service/resources/the-benefits-of-the-elk-stack/): 로그 분석 및 검색

  ELK 스택은 Elasticsearch, Logstash 및 Kibana를 결합하여 로그 관리 및 분석 기능을 제공합니다. 고급 검색 기능, 시각화 도구 및 기계 학습 기능을 제공합니다. 스택을 사용하여 Amazon EKS 환경의 대량 로그 데이터를 처리할 수 있습니다.

## 전문화된 도구
<a name="monitoring-special"></a>

특정 모니터링 요구 사항, 운영 규모 및 조직 기본 설정에 따라 다음 도구를 혼합하고 일치시킬 수 있습니다. 핵심은 관리 가능하고 비용 효율적인 상태를 유지하면서 포괄적인 가시성을 제공하는 모니터링 스택을 생성하는 것입니다.
+ [kube-state-metrics(KSM)](https://github.com/kubernetes/kube-state-metrics): Kubernetes 상태 모니터링

  이 추가 기능 서비스는 Kubernetes API 서버를 수신 대기하고 객체 상태에 대한 지표를 생성합니다. 배포, 포드 및 기타 Kubernetes 리소스의 상태에 대한 인사이트를 제공합니다.
+ [Kubernetes 지표 서버](https://docs.aws.amazon.com/eks/latest/userguide/metrics-server.html): 리소스 지표

  이 지표 서버는 kubelet에서 리소스 지표를 수집하여 Kubernetes 지표 API를 통해 노출합니다. 수평 포드 Auto Scaling과 기본 CPU 및 메모리 지표를 제공합니다.
+ [Kubecost](https://github.com/kubecost/cost-analyzer-helm-chart): Kubernetes 비용 모니터링

  Kubecost와 같은 도구는 EKS 클러스터에 대한 자세한 비용 분석 및 최적화 권장 사항을 제공합니다. 이를 통해 다양한 네임스페이스, 배포 및 서비스에서 클라우드 지출을 이해하고 최적화할 수 있습니다.

# Amazon EKS 모니터링 솔루션의 고가용성 구현
<a name="monitoring-ha-setup"></a>

Amazon EKS 모니터링을 위한 강력한 고가용성(HA) 전략은 Kubernetes 환경에 대한 지속적인 가시성을 보장하는 데 매우 중요합니다. 이 섹션에서는 모니터링 인프라의 다양한 측면에서 HA를 구현하는 포괄적인 접근 방식을 설명합니다.

## 아키텍처 중복성 및 확장성
<a name="architecture"></a>

고가용성 모니터링 시스템 구축은 적절한 아키텍처 설계로 시작됩니다. 영역 장애로부터 보호하려면 모니터링 구성 요소를 여러 AWS 가용 영역에 분산해야 합니다. 여기에는 Prometheus 서버, 로그 수집기 및 알림 관리자와 같은 중요한 모니터링 구성 요소에 대한 수평적 조정 구현이 포함됩니다. Amazon Managed Service for Prometheus 및 Amazon Managed Grafana와 같은 AWS 관리형 서비스를 사용하여 고가용성을 보장하면서 운영 오버헤드를 줄일 수 있습니다. 상태 확인 및 자동 복구 절차를 통해 구성 요소 장애 발생 시 서비스 연속성을 유지하도록 자동 장애 조치 메커니즘을 구성합니다.

## 복원력 있는 데이터 스토리지 전략
<a name="data-storage"></a>

데이터 스토리지 복원력은 모니터링 시스템 신뢰성을 유지하는 데 필수적입니다. 분산 스토리지 솔루션을 구현하면 개별 스토리지 노드에 장애가 발생하더라도 지표 데이터 및 로그에 계속 액세스할 수 있습니다. 여기에는 여러 가용 영역에서 적절한 데이터 복제를 구성하고 중복성을 위해 다양한 스토리지 백엔드를 사용하는 것이 포함됩니다. 다양한 장애 시나리오에 대해 문서화된 복구 프로세스를 사용하여 기록 데이터에 대한 정기 백업 절차를 수립합니다. Prometheus와 같은 시계열 데이터베이스의 경우 원격 스토리지 솔루션을 구현하면 스토리지 문제를 데이터 수집과 분리하고 전반적인 시스템 신뢰성을 개선할 수 있습니다.

## 중복 알림 관리
<a name="alert-mgmt"></a>

알림 관리는 HA 설정에서 특별한 주의가 필요합니다. 중복 알림 관리자를 배포하면 시스템 장애 발생 시에도 중요한 알림이 의도한 수신자에게 전달됩니다. 대체 통신 경로를 제공하도록 이메일, SMS, Slack 및 PagerDuty와 같은 여러 알림 채널을 구성합니다. 알림 중복 제거 메커니즘을 사용하여 부분 시스템 장애 시 알림 폭풍을 방지하고 폴백 알림 방법을 사용하여 중요한 알림을 놓치지 않도록 합니다. 알림 상관 관계를 구현하면 장애 조치 시나리오 중에 컨텍스트를 유지하고 중복 시스템의 중복 알림을 방지할 수 있습니다.

## 로드 밸런싱 및 서비스 검색
<a name="load-balancing"></a>

안정적인 모니터링 서비스를 유지하려면 적절한 로드 밸런싱이 필수적입니다. AWS Application Load Balancer는 수신 모니터링 트래픽을 여러 엔드포인트에 분산하며, 상태 확인은 트래픽이 정상 인스턴스로만 라우팅되도록 합니다. 서비스 검색 메커니즘을 사용하면 구성 요소를 모니터링하여 새 노드 또는 서비스 추가와 같은 환경 변화에 자동으로 적응할 수 있습니다. DaemonSets를 사용하여 모든 노드에 모니터링 에이전트를 일관되게 배포하여 클러스터가 확장될 때 포괄적인 적용 범위를 보장합니다.

## 추가 HA 고려 사항
<a name="ha-considerations"></a>

네트워크 복원력:
+ 중복 네트워크 경로를 구현합니다.
+ 가용 영역에서 적절한 서브넷 설계를 구성합니다.
+ 백업 경로[AWS Direct Connect](https://docs.aws.amazon.com/whitepapers/latest/aws-vpc-connectivity-options/aws-direct-connect.html)와 함께를 사용합니다.
+ 적절한 보안 그룹 및 네트워크 액세스 제어 목록(네트워크 ACLs 구성합니다.

모니터 모니터링:
+ 보조 모니터링 시스템을 배포합니다.
+ 교차 리전 모니터링을 구현합니다.
+ 응답하지 않는 시스템에 대한 알림을 구성합니다.
+ 장애 조치 절차를 정기적으로 테스트합니다.

용량 계획:
+ 리소스 사용 추세를 모니터링합니다.
+ 예측 조정을 구현합니다.
+ 정기적으로 성능을 테스트합니다.

데이터 관리:
+ 데이터 보존 정책을 구현합니다.
+ 지표 집계를 구성합니다.
+ 데이터 수명 주기 관리를 계획합니다.
+ 정기적으로 스토리지를 최적화합니다.

복구 절차:
+ 복구 프로세스를 문서화합니다.
+ 재해 복구를 정기적으로 테스트합니다.
+ 가능한 경우 자동 복구를 구현합니다.
+ 명확한 에스컬레이션 경로를 식별하고 구현합니다.

이러한 고가용성 사례를 구현하면 Amazon EKS 모니터링 인프라가 안정적이고 복원력을 유지하고 다양한 장애 시나리오 중에도 Kubernetes 환경을 지속적으로 파악할 수 있습니다. 이러한 HA 구성에 대한 정기적인 테스트 및 업데이트를 통해 환경이 발전함에 따라 효과적인 상태를 유지할 수 있습니다.

# Amazon EKS의 모니터링 모범 사례
<a name="monitoring-best-practices"></a>

## 전략적 구현 접근 방식
<a name="implementation"></a>

성공적인 Amazon EKS 모니터링 전략은 잘 계획된 단계별 구현 접근 방식으로 시작됩니다.
+ 먼저 비즈니스 운영 및 애플리케이션 신뢰성에 직접적인 영향을 미치는 중요한 지표를 식별하고 모니터링합니다. 이 기반에는 필수 인프라 지표, 주요 애플리케이션 성능 지표 및 중요 보안 지표가 포함되어야 합니다. 운영 요구 사항과 학습한 교훈에 따라 모니터링 범위를 점진적으로 확장하고 각 추가가 의미 있는 가치를 제공하는지 확인합니다.
+ Terraform 또는와 같은 코드형 인프라(IaC) 도구를 사용하여 자동화된 배포 프로세스를 구현 CloudFormation 하여 일관성과 반복성을 보장합니다.
+ 모니터링 시스템을 테스트하고 검증하여 신뢰성과 정확성을 유지합니다.
+ 변화하는 비즈니스 요구 사항에 따라 모니터링 파라미터를 지속적으로 구체화합니다.

## 효과적인 데이터 관리
<a name="data-mgmt"></a>

효율적이고 비용 효율적인 모니터링 솔루션을 유지하려면 적절한 데이터 관리가 중요합니다.
+ 과거 분석 요구 사항과 스토리지 비용의 균형을 맞추는 명확한 데이터 보존 정책을 구현합니다.
+ 중요한 지표의 경우 빈도가 높고 덜 중요한 지표의 경우 빈도가 낮은 등 다양한 지표 유형에 적합한 샘플링 속도를 구성합니다.
+ 특히 장기 추세 분석의 경우 지표 집계를 사용하여 데이터 볼륨을 줄이는 동시에 의미 있는 인사이트를 유지할 수 있습니다.
+ 중앙 집중식 로깅 시스템(예: CloudWatch Logs)에 대한 체계적인 로그 보존 및 보관 절차를 구현하여 스토리지 비용을 관리하고 중요한 데이터에 대한 액세스를 계속 액세스할 수 있도록 합니다.
**참고**  
컨테이너 수준 로그 교체는 Amazon EKS 버전 1.21 이상의 kubelet에서 자동으로 처리됩니다.
+ 액세스 속도와 비용 효율성을 모두 최적화하려면 로그 스토리지에 hot-warm-cold 아키텍처를 구현하는 것이 좋습니다.

## 알림 구성 및 관리
<a name="alert-config"></a>

알림 구성에는 알림 피로를 유발하지 않고 효과를 유지하기 위한 신중한 고려가 필요합니다.
+ 서비스 수준 목표(SLOs) 및 과거 성능 패턴을 기반으로 명확하고 실행 가능한 임계값을 정의합니다.
+ 즉각적인 주의가 필요한 중요한 문제와 덜 긴급한 문제를 명확하게 구분하는 계층화된 알림 심각도 시스템을 구현합니다.
+ 신속한 문제 해결을 위해 알림이 충분한 컨텍스트와 실행 가능한 정보를 제공하는지 확인합니다.
+ 다양한 알림 심각도에 대해 정의된 소유권 및 응답 시간으로 명확한 에스컬레이션 절차를 수립합니다.
+ 알림 구성을 정기적으로 검토하고 구체화하여 관련성과 효과를 유지할 수 있습니다.

## 리소스 최적화
<a name="resource"></a>

비용 효율적인 운영을 유지하려면 리소스 사용률을 지속적으로 모니터링해야 합니다.
+ 노드, 포드 및 영구 볼륨을 포함한 모든 클러스터 구성 요소에 포괄적인 리소스 모니터링을 구현합니다.
+ 실제 사용 패턴 및 성능 요구 사항에 따라 자동 조정을 구성하여 성능을 유지하면서 효율적인 리소스 사용률을 보장합니다.
+ 비용 할당 태그를 사용하여 다양한 팀, 애플리케이션 또는 환경의 리소스 소비를 추적할 수 있습니다.
+ 리소스 효율성 지표를 정기적으로 분석하여 최적화 기회를 식별하고 개선 사항을 구현합니다.
+ 비용 관리 도구를 구현하여 클라우드 지출을 추적하고 최적화하는 것이 좋습니다.

## 보안
<a name="security"></a>

보안 고려 사항은 모니터링 전략에서 반드시 필요합니다.
+ 모든 모니터링 구성 요소에 대해 [최소 권한 액세스 원칙을](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_permissions_least_privileges.html) 구현하여 사용자와 서비스가 필요한 권한만 갖도록 합니다.
+ 포괄적인 감사 로깅을 활성화하여 모니터링 시스템에 대한 모든 액세스 및 변경 사항을 추적할 수 있습니다.
+ 모니터링 구성 및 액세스 패턴에 대한 정기적인 보안 검토를 수행하여 잠재적 취약성을 식별합니다.
+ 전송 중 및 저장 중 민감한 모니터링 데이터에 대한 암호화를 구현합니다.
+ 보안 모니터링을 기존 보안 정보 및 이벤트 관리(SIEM) 시스템과 통합하여 포괄적인 보안 가시성을 확보합니다.

# Amazon EKS의 고급 모니터링 고려 사항
<a name="monitoring-considerations"></a>

성능 최적화:
+ 지표 수집 간격을 최적화합니다.
+ 효율적인 쿼리 패턴을 구성합니다.
+ 지표 사전 집계를 구현합니다.
+ 적절한 스토리지 솔루션을 사용합니다.

규정 준수 및 거버넌스:
+ 감사 추적을 유지 관리합니다.
+ 규정 준수 모니터링을 구현합니다.
+ 정기적인 규정 준수 보고를 제공합니다.
+ 모니터링 절차를 문서화합니다.

재해 복구:
+ 모니터링 구성을 정기적으로 백업합니다.
+ 복구 절차를 문서화합니다.
+ 복구 프로세스를 테스트합니다.

지속적인 개선:
+ 검토 세션을 정기적으로 모니터링합니다.
+ 성능 주기를 최적화합니다.
+ 인시던트를 기반으로 모니터링을 업데이트합니다.
+ 사용자 피드백을 통합합니다.

이러한 모범 사례는 Amazon EKS 환경을 위한 효과적인 모니터링 솔루션을 구현하고 유지하기 위한 프레임워크를 제공합니다. 이러한 관행을 정기적으로 검토하고 업데이트하여 조직의 요구 사항 및 업계 표준에 맞게 유지합니다. 모니터링은 일회성 설정이 아니라 정기적인 관심과 개선이 필요한 지속적인 프로세스입니다.