View a markdown version of this page

조직 전체의 카오스 엔지니어링 규모 조정 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

조직 전체의 카오스 엔지니어링 규모 조정

조직이 카오스 엔지니어링을 채택함에 따라 이를 표준화하고 구현하는 데는 과제가 있습니다. 성숙 초기 단계에서는 팀마다 이전 섹션에 설명된 카오스 엔지니어링 프로세스의 다양한 도구와 변형을 사용할 가능성이 높습니다. 동시에 일부 팀은 잠재적 이점에도 불구하고 카오스 엔지니어링을 우선시하거나 채택하지 않을 수 있습니다. 다음 섹션에서는 이러한 문제를 해결하는 방법에 대한 지침을 제공합니다.

전반적으로 카오스 엔지니어링에 대한 접근 방식은 중앙 집중식 리더십과 분산형 참여 간의 균형을 맞추도록 설계되어야 합니다. 이 균형은 카오스 엔지니어링이 개발 프로세스에 통합되고 학습이 조직 전체에서 공유되도록 하는 데 도움이 됩니다.

카오스 엔지니어링 관행 수립

카오스 엔지니어링 관행을 표준화하면 채택을 가속화할 수 있습니다. 팀 간에 실험에서 배운 내용을 공유하면 카오스 엔지니어링 투자에 대한 수익을 높일 수 있습니다.

카오스 엔지니어링 관행의 일환으로 중앙 집중식 우수성 센터를 구축하거나 주제 전문가 그룹을 구성합니다. 소규모 중앙 집중식 기능인이 팀은 소프트웨어 개발, 인프라, 보안 및 비즈니스 팀 전반에서 작동하고 해당 팀이 사용하는 표준을 유지할 수 있습니다. 간소화를 위해 우수성의 중심을 중앙 집중식 연습 팀이라고 하고, 카오스 엔지니어링을 적용하는 그룹을이 가이드의 나머지 부분에서 연습 팀이라고 합니다.

중앙 집중식 연습 팀의 역할

중앙 집중식 연습 팀은 조직 전체에서 카오스 엔지니어링 사례를 개발하고 구현할 책임이 있습니다. 이들은 실습 팀과 긴밀하게 협력하여 실험을 설계 및 수행하고 실험이 비즈니스에 유용한지 확인합니다. 또한 중앙 집중식 연습 팀은 카오스 엔지니어링을 개발 프로세스에 통합하는 데 도움이 되는 개발, 인프라 및 보안 팀에 지침과 지원을 제공합니다.

중앙 집중식 카오스 엔지니어링 실무 팀의 주요 책임은 다음과 같습니다.

  • 활성화 - 중앙 집중식 카오스 엔지니어링 함수는 게임 데이와 워크숍을 통해 카오스 엔지니어링 연습을 소개하는 진행자 역할을 합니다. 실패 시나리오 선택, 가설 정의, 더 광범위한 조직과 공유할 보고서 생성 등 카오스 엔지니어링 프로세스에서 팀을 안내합니다. 중앙 집중식 연습 팀은 훈련 자료를 소유하고 연습 팀이 카오스 엔지니어링을 사용할 수 있도록 역량을 강화하기 위해 노력해야 합니다.

  • 공지 사항 - 중앙 집중식 연습 팀은 자문 역할을 맡아 연습 팀이 수행하는 실험을 감독할 수도 있습니다. 이들의 경험과 지식은 실험이 비즈니스에 가치를 제공하고 안전한 방식으로 수행되도록 할 수 있습니다. 마찬가지로 팀은 실험 실행을 감독하고 실험 결과를 보고하여 카오스 엔지니어링을 처음 접하는 사람들을 안내할 수 있습니다.

  • 마케팅 및 가치 추적 - 카오스 엔지니어링의 비즈니스 가치를 전달하는 것은 이러한 프로그램의 성공에 매우 중요합니다. 카오스 엔지니어링 실험에 참여하는 각 팀은 비즈니스 전반의 실험에서 데이터를 수집하고 카오스 엔지니어링에 대한 조직의 투자 가치를 입증해야 합니다. 여기에는 각 실험 중에 회피된 인시던트 수, 실험이 실패한 경우 발생했을 가동 중지 시간, 프로덕션에서 장애 시나리오가 발생한 경우 비즈니스에 미치는 전반적인 영향을 정량화하고 축하하는 것이 포함됩니다. 팀 전체에서 이러한 데이터를 수집 및 중앙 집중화하고 조직 전체에서 데이터를 사용할 수 있도록 함으로써 중앙 집중식 연습 팀은 조직 전체의 카오스 엔지니어링 채택에서 파생된 가치를 추적하고 영향을 미칠 수 있습니다.

  • 표준 - 중앙 집중식 연습 팀은 카오스 실험을 수행하는 프로세스, 실험 계획 및 보고를 위한 템플릿, 실험을 수행하는 데 사용되는 도구를 소유하고 유지해야 합니다.

    중앙 팀은 실험 계획 템플릿, 실험 보고서 템플릿, 프로세스 설명서 및 지원 자료를 소유하고 관리해야 합니다. 모범 사례 설명서 및 지원 자료는 실험의 영향을 제한하는 데 사용할 수 있는 가드레일, 프로덕션 환경에서 실험을 수행하는 시기, 시간이 지남에 따라 카오스 엔지니어링 사용을 발전시키는 방법과 같은 주제에 대해 팀을 연습하는 데 지침을 제공합니다. 템플릿 및 출력의 예는 부록을 참조하십시오.

    또한 중앙 집중식 연습 팀은 커뮤니케이션 및 에스컬레이션, 실험 전 또는 실험 중에 조직의 다른 팀과 소통하는 시기와 방법을 포함하여 실험을 수행하는 프로세스를 소유해야 합니다. 가드레일이 필요한 경우에도 프로세스를 간략하게 설명해야 합니다.

    또한 중앙 집중식 연습 팀은 카오스 실험을 수행하기 위한 핵심 도구(예:와 같은 도구)를 선택하고 소유해야 합니다 AWS FIS. 로드 생성 도구와 같은 보조 도구의 선택 및 구현은 실무 팀이 결정해야 합니다. 연습 팀은 전체 프로세스와 도구를 필요에 가장 잘 맞게 조정할 수 있어야 합니다.

실무 팀의 역할

중앙 집중식 팀은 전반적인 카오스 엔지니어링 전략을 주도하는 반면, 실무 팀은 프로세스에 참여하고 실험 개발 및 실행을 담당합니다. 이를 통해 실험이 각 특정 제품 또는 서비스와 관련이 있고 학습이 실행 가능하며 제품의 신뢰성과 복원력을 개선하기 위해 적용될 수 있는지 확인할 수 있습니다. 중앙 집중식 연습 팀은 조직의 카오스 엔지니어링 표준 및 프로세스의 조언자이자 소유자 역할을 합니다. 그러나 중앙 집중식 팀이 병목 현상이 되지 않도록 하려면 개별 연습 팀이 중앙 연습에서 학습하여 자체적으로 카오스 실험을 수행해야 합니다.

연습 커뮤니티 구축

중앙 집중식 팀을 만드는 것 외에도 카오스 엔지니어링에 관심이 있는 비공식 실무자 커뮤니티를 구축하는 것이 좋습니다. 이 커뮤니티는 실무 팀과 광범위한 조직에서 지식, 모범 사례 및 경험을 공유할 수 있는 플랫폼을 제공합니다.

중앙 집중식 카오스 엔지니어링 실무 팀이 실무 커뮤니티를 운영할 수 있지만 조직 내 모든 사람이 커뮤니티의 구성원이 될 수 있습니다. 중앙 집중식 팀은 연습 커뮤니티를 활용하여 업데이트 및 소스 학습을 브로드캐스트하고 중앙 집중식 팀이 관리하는 표준 및 프로세스를 사용하는 연습 팀으로부터 피드백을 수집할 수 있습니다. 커뮤니티는 피드백 루프 역할을 하여 중앙 집중식 팀에 연습 팀 전반의 카오스 엔지니어링 관행의 효과를 알립니다. 그런 다음 중앙 집중식 연습 팀은 제품 팀을 가장 잘 지원하도록 설명서 및 지원 아티팩트를 조정할 수 있습니다.

운영 복원력에 카오스 엔지니어링 통합

카오스 실험은 프로덕션 환경에서 인시던트를 방지하기 위한 비즈니스의 투자입니다. 비즈니스가이 투자에서 가장 큰 수익을 실현할 수 있는 위치를 결정해야 합니다. 조직은 중앙 집중식 카오스 엔지니어링 실무 팀과 협력하여 표준을 업데이트하고 카오스 실험이 필요할 만큼 중요한 제품을 결정할 수 있습니다.

시스템 개발 프로세스

카오스 엔지니어링 및 카오스 실험은 애플리케이션 수명 주기의 일부로 반복적으로 수행해야 합니다. 팀이 정기적으로 재해 복구 테스트를 수행하는 방식과 마찬가지로 카오스 실험과 게임 데이를 연중 지속적으로 주기적으로 수행해야 합니다. 이 접근 방식은 조직이 인시던트를 예상, 관찰 및 대응하는 방법을 개선합니다.