AWS 사고 탐지 및 대응 모니터링 및 관찰성
AWS 사고 탐지 및 대응은 애플리케이션 계층에서 기본 인프라에 이르기까지 워크로드 전반의 관찰성을 정의하는 방법에 대한 전문가 지침을 제공합니다. 모니터링은 문제가 있음을 알려줍니다. 관찰성은 데이터 수집을 사용하여 무엇이 왜 발생했는지 알려줍니다.
사고 탐지 및 대응 시스템은 Amazon CloudWatch 및 Amazon EventBridge와 같은 네이티브 AWS 서비스를 활용하여 AWS 워크로드에 영향을 미칠 수 있는 이벤트를 감지하여 워크로드에 장애 및 성능 저하가 있는지 모니터링합니다. 모니터링을 통해 임박한 장애, 진행 중인 장애, 완화되는 장애 또는 잠재적 장애 또는 성능 저하에 대한 알림을 받을 수 있습니다. 계정을 사고 탐지 및 대응에 온보딩할 때 사고 탐지 및 대응 모니터링 시스템에서 모니터링해야 하는 계정의 경보를 선택하고 이러한 경보를 인시던트 관리 중에 사용되는 애플리케이션 및 런북과 연결합니다.
사고 탐지 및 대응은 Amazon CloudWatch 및 기타 AWS 서비스를 사용하여 관찰성 솔루션을 구축합니다. AWS 사고 탐지 및 대응은 다음 두 가지 방법으로 관찰성을 지원합니다.
비즈니스 성과 지표: AWS 사고 탐지 및 대응에 대한 관찰성은 워크로드 또는 최종 사용자 경험의 결과를 모니터링하는 주요 지표를 정의하는 것으로 시작됩니다. AWS 전문가는 고객과 협력하여 워크로드의 목표, 사용자 경험에 영향을 미칠 수 있는 핵심 결과물 또는 요소를 이해하고 이러한 주요 지표의 성능 저하를 파악하는 지표와 알림을 정의합니다. 예를 들어 모바일 통화 애플리케이션의 주요 비즈니스 지표는 통화 설정 성공률(사용자 통화 시도 성공률 모니터링)이고 웹 사이트의 주요 지표는 페이지 속도입니다. 인시던트 참여는 비즈니스 성과 지표를 기반으로 트리거됩니다.
인프라 수준 지표: 이 단계에서는 애플리케이션을 지원하는 기본 AWS 서비스 및 인프라를 식별하고 지표와 경보를 정의하여 이러한 인프라 서비스의 성능을 추적합니다. 여기에는 Application Load Balancer 인스턴스의
ApplicationLoadBalancerErrorCount와 같은 지표가 포함될 수 있습니다. 이는 워크로드가 온보딩되고 모니터링이 설정된 후에 시작됩니다.
AWS 사고 탐지 및 대응에 대한 관찰성 구현
관찰성은 한 가지 연습 또는 기간으로 완료할 수 없는 지속적인 프로세스이므로 AWS 사고 탐지 및 대응은 두 단계로 관찰성을 구현합니다.
온보딩 단계: 온보딩 중 관찰성은 애플리케이션의 비즈니스 성과가 저하되는 시점을 감지하는 데 중점을 둡니다. 이를 위해 온보딩 단계 중 관찰성은 애플리케이션 계층에서 주요 비즈니스 성과 지표를 정의하여 워크로드에 AWS 중단을 알리는 데 중점을 둡니다. 이렇게 하면 AWS가 이러한 중단에 즉시 대응할 수 있으며 복구에 도움이 될 수 있습니다. 사고 탐지 및 대응 명령줄 인터페이스(CLI)를 사용하여 이러한 단계를 자동화하는 방법에 대한 자세한 내용은 AWS 사고 탐지 및 대응 CLI 섹션을 참조하세요.
온보딩 후 단계: AWS 사고 탐지 및 대응은 인프라 수준 지표 정의, 지표 튜닝, 고객의 성숙도 수준에 따른 추적 및 로그 설정 등 관찰성을 위한 다양한 사전 예방 서비스를 제공합니다. 이러한 서비스의 구현은 몇 개월에 걸쳐 진행되며 여러 팀이 참여할 수 있습니다. AWS 사고 탐지 및 대응은 관찰성 설정에 대한 지침을 제공하며 고객은 워크로드 환경에서 필요한 변경 사항을 구현해야 합니다. 관찰성 기능의 실습 구현에 도움이 필요하면 기술 계정 관리자(TAM)에게 요청을 제출하세요.