AWS 사고 탐지 및 대응 모니터링 및 관찰성

AWS 사고 탐지 및 대응은 애플리케이션 계층에서 기본 인프라에 이르기까지 워크로드 전반의 관찰성을 정의하는 방법에 대한 전문가 지침을 제공합니다. 모니터링은 문제가 있음을 알려줍니다. 관찰성은 데이터 수집을 사용하여 무엇이 왜 발생했는지 알려줍니다.

사고 탐지 및 대응 시스템은 Amazon CloudWatch 및 Amazon EventBridge와 같은 네이티브 AWS 서비스를 활용하여 AWS 워크로드에 영향을 미칠 수 있는 이벤트를 감지하여 워크로드에 장애 및 성능 저하가 있는지 모니터링합니다. 모니터링을 통해 임박한 장애, 진행 중인 장애, 완화되는 장애 또는 잠재적 장애 또는 성능 저하에 대한 알림을 받을 수 있습니다. 계정을 사고 탐지 및 대응에 온보딩할 때 사고 탐지 및 대응 모니터링 시스템에서 모니터링해야 하는 계정의 경보를 선택하고 이러한 경보를 인시던트 관리 중에 사용되는 애플리케이션 및 런북과 연결합니다.

사고 탐지 및 대응은 Amazon CloudWatch 및 기타 AWS 서비스를 사용하여 관찰성 솔루션을 구축합니다. AWS 사고 탐지 및 대응은 다음 두 가지 방법으로 관찰성을 지원합니다.

비즈니스 성과 지표: AWS 사고 탐지 및 대응에 대한 관찰성은 워크로드 또는 최종 사용자 경험의 결과를 모니터링하는 주요 지표를 정의하는 것으로 시작됩니다. AWS 전문가는 고객과 협력하여 워크로드의 목표, 사용자 경험에 영향을 미칠 수 있는 핵심 결과물 또는 요소를 이해하고 이러한 주요 지표의 성능 저하를 파악하는 지표와 알림을 정의합니다. 예를 들어 모바일 통화 애플리케이션의 주요 비즈니스 지표는 통화 설정 성공률(사용자 통화 시도 성공률 모니터링)이고 웹 사이트의 주요 지표는 페이지 속도입니다. 인시던트 참여는 비즈니스 성과 지표를 기반으로 트리거됩니다.
인프라 수준 지표: 이 단계에서는 애플리케이션을 지원하는 기본 AWS 서비스 및 인프라를 식별하고 지표와 경보를 정의하여 이러한 인프라 서비스의 성능을 추적합니다. 여기에는 Application Load Balancer 인스턴스의 ApplicationLoadBalancerErrorCount와 같은 지표가 포함될 수 있습니다. 이는 워크로드가 온보딩되고 모니터링이 설정된 후에 시작됩니다.

AWS 사고 탐지 및 대응에 대한 관찰성 구현

관찰성은 한 가지 연습 또는 기간으로 완료할 수 없는 지속적인 프로세스이므로 AWS 사고 탐지 및 대응은 두 단계로 관찰성을 구현합니다.

온보딩 단계: 온보딩 중 관찰성은 애플리케이션의 비즈니스 성과가 저하되는 시점을 감지하는 데 중점을 둡니다. 이를 위해 온보딩 단계 중 관찰성은 애플리케이션 계층에서 주요 비즈니스 성과 지표를 정의하여 워크로드에 AWS 중단을 알리는 데 중점을 둡니다. 이렇게 하면 AWS가 이러한 중단에 즉시 대응할 수 있으며 복구에 도움이 될 수 있습니다. AWS 사고 탐지 및 대응 고객 명령줄 인터페이스(CLI)를 사용하여 이러한 단계를 자동화하는 방법에 대한 자세한 내용은 AWS 사고 탐지 및 대응용 CLI를 참조하세요.
온보딩 후 단계: AWS 사고 탐지 및 대응은 인프라 수준 지표 정의, 지표 튜닝, 고객의 성숙도 수준에 따른 추적 및 로그 설정 등 관찰성을 위한 다양한 사전 예방 서비스를 제공합니다. 이러한 서비스의 구현은 몇 개월에 걸쳐 진행되며 여러 팀이 참여할 수 있습니다. AWS 사고 탐지 및 대응은 관찰성 설정에 대한 지침을 제공하며 고객은 워크로드 환경에서 필요한 변경 사항을 구현해야 합니다. 관찰성 기능의 실습 구현에 도움이 필요하면 기술 계정 관리자(TAM)에게 요청을 제출하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

워크로드 오프보딩

인시던트 관리