Resilience analysis framework
John Formento, Bruno Emer, Steven Hooper, Jason Barto, Michael Haken, Amazon Web Services(AWS)
2023년 9월(문서 기록)
일관되고 반복 가능한 표준 및 프로세스는 지속적인 개선의 중요한 부분입니다. 이는 분산 시스템의 복원력에도 적용됩니다. 이 지침의 목적은 장애 모드와 장애 모드가 워크로드에 미치는 영향을 일관되게 분석하는 방법을 제공하는 복원력 분석 프레임워크를 소개하는 것입니다. 설계부터 운영에 이르기까지 워크로드의 수명 주기 전반에 걸쳐 이 프레임워크를 사용하면 워크로드의 복원력을 일관되고 반복 가능한 방식으로 광범위한 잠재적 장애 모드로 지속적으로 개선할 수 있습니다. 이를 통해 복원력 목표를 충족하고 워크로드의 원하는 복원력 속성을 유지할 수 있습니다.
이 프레임워크는 AWS 솔루션 아키텍처 필드 팀이 산업 전반의 고객과 협력한 경험을 통해 개발되었습니다. 제품 관리자, 소프트웨어 개발자, 시스템 엔지니어, 운영 팀, 아키텍트 등 많은 직함을 가진 빌더를 대상으로 합니다. 이들은 분석 중인 시스템, 서비스 또는 제품에 대해 가장 잘 알고 있는 사람입니다. 지속적인 연습에서 프레임워크를 사용하면 점진적인 발전과 장기적인 복원력 목표를 달성하는 데 도움이 될 수 있습니다.
프레임워크의 초점은 잠재적 장애 모드와 그 영향을 완화하는 데 사용할 수 있는 예방적 제어 및 수정 제어를 식별하는 것입니다. 종속성의 오류 발생률 증가와 같이 직접 제어할 수 없는 구성 요소에서 장애가 발생하더라도 이러한 장애가 워크로드에 미치는 영향과 이러한 장애에 대응하도록 해당 워크로드를 설계하는 방법을 고려해야 합니다. 궁극적으로 제어 중인 완화를 사용하여 대응할 수 있는 장애에 집중해야 합니다.
이 가이드에서는 프레임워크를 간략하게 설명한 다음 워크로드를 식별하고 문서화하는 방법, 해당 워크로드에 프레임워크를 적용하는 방법, 발견한 잠재적 장애에 대한 완화 전략을 평가하는 방법을 설명합니다.
내용