지속적 개선 - AWS 권장 가이드

지속적 개선

복원력은 지속적 프로세스입니다. 시스템의 수명 주기 동안 시스템이 작동하는 환경은 달라집니다. 시스템의 복원력을 유지하려면 프레임워크를 주기적 운영 및 아키텍처 검토에 통합해야 합니다. 처음에 식별하지 못한 새로운 장애 모드가 발견되거나 지금은 적용할 수 있지만 이전에 생각하지 못했던 완화나 새로운 완화가 있을 수 있습니다. 복원력 분석은 일회성 연습이 아닌 반복 프로세스여야 합니다.

카오스 엔지니어링 또는 게임 데이와 같은 프로세스를 통해 완화 전략을 경험적으로 테스트하여 예상대로 작동하는지 확인해야 합니다. 엄격한 테스트 메커니즘이 없는 경우 필요할 때 완화가 예상대로 작동할 것이라고 확신할 수 없습니다. 복원력 분석 중에 장애 모드가 특정 완화로 이미 처리되었다고 판단할 수 있지만 이러한 가정도 테스트하는 것이 중요합니다. 복원력 분석 프레임워크를 사용하여 생성된 기존 완화 및 새로운 완화를 모두 테스트해야 합니다.

또한 팀 회고를 통해 분석을 얼마나 잘 수행했는지 평가해야 합니다. 분석 중에 작동한 내용을 모두 알고 있었나요? 복원력 분석을 통해 발견한 장애 모드 수가 팀의 기대치와 일치했나요? 발견한 모든 장애 모드에 대한 완화 조치를 식별할 수 있나요? 팀이 프로세스를 유용하다고 생각하나요? 이를 통해 워크로드 복원력이 향상될 것이라고 생각하나요?

워크로드의 가용성에 영향을 미치는 실제 장애 이벤트가 발생하면 특정 장애 모드, 장애의 일부인 구성 요소 및 사용된 완화 패턴을 기록합니다. 사후 인시던트 분석 도구에서 이 메타데이터를 검색 가능하게 만들어 향후 집중할 장애 모드와 구성 요소를 결정할 수 있습니다. 이 프로세스 전반에 걸쳐 AWS 계정 팀과 솔루션 아키텍트를 참여시킬 수 있습니다.