기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Resilience analysis framework
John Formento, Bruno Emer, Steven Hooper, Jason Barto, Michael Haken, Amazon Web Services(AWS)
2023년 9월(문서 기록)
일관되고 반복 가능한 표준 및 프로세스는 지속적인 개선의 중요한 부분입니다. 이는 분산 시스템의 복원력에도 적용됩니다. 이 지침의 목적은 장애 모드와 장애 모드가 워크로드에 미치는 영향을 일관되게 분석하는 방법을 제공하는 복원력 분석 프레임워크를 도입하는 것입니다. 설계부터 운영에 이르기까지 워크로드의 수명 주기 전반에 걸쳐이 프레임워크를 사용하면 워크로드의 복원력을 일관되고 반복 가능한 방식으로 광범위한 잠재적 장애 모드로 지속적으로 개선할 수 있습니다. 이를 통해 복원력 목표를 충족하고 워크로드의 원하는 복원력 속성을 유지할 수 있습니다.
이 프레임워크는 AWS 솔루션 아키텍처 필드 팀이 산업 전반의 고객과 협력한 경험을 통해 개발되었습니다. 제품 관리자, 소프트웨어 개발자, 시스템 엔지니어, 운영 팀, 아키텍트 등 여러 직함을 가질 수 있는 빌더를 대상으로 합니다. 이들은 분석 중인 시스템, 서비스 또는 제품에 대해 가장 잘 알고 있는 사람입니다. 지속적인 연습에서 프레임워크를 사용하면 점진적인 발전을 이루고 장기적인 복원력 목표를 달성하는 데 도움이 될 수 있습니다.
프레임워크의 초점은 잠재적 장애 모드와 영향을 완화하는 데 사용할 수 있는 예방 및 수정 제어를 식별하는 것입니다. 종속성의 오류 발생률 증가와 같이 직접 제어할 수 없는 구성 요소에서 장애가 발생하더라도 이러한 장애가 워크로드에 미치는 영향과 이러한 장애에 대응하도록 해당 워크로드를 설계하는 방법을 고려해야 합니다. 궁극적으로 제어 중인 완화를 사용하여 대응할 수 있는 장애에 집중해야 합니다.
이 가이드에서는 프레임워크를 간략하게 설명한 다음 워크로드를 식별하고 문서화하는 방법, 해당 워크로드에 프레임워크를 적용하는 방법, 발견한 잠재적 장애에 대한 완화 전략을 평가하는 방법을 설명합니다.
목차