기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
5단계: 대응 및 학습
시작을 실행할 때 복잡한 사후 프로세스가 팀의 속도를 늦출 수 있습니다. 이 장에서는 인시던트를 관료적인 연습으로 전환하지 않고 인시던트에서 학습하는 방법을 살펴봅니다.
인시던트 학습을 기존 리듬에 통합합니다. 팀에 이미 정기 회의가 있는 경우 10분을 사용하여 최근 인시던트를 논의합니다. 다음과 같은 실용적인 질문에 집중합니다.
-
실행서가 도움이 되었나요?
-
알림이 적시에 발생했나요?
-
AWS 관리형 서비스가 이를 방지할 수 있었을까요?
비난이 아닌 행동에 집중하세요. 스타트업에서는 완벽한 시스템을 구축하지 않고 문제가 발생할 때마다 개선되는 시스템을 구축합니다.
티켓팅 시스템을 사용하여 인시던트를 추적할 수 있습니다. 특수 도구가 필요하지 않습니다. 인시던트 타임라인, 고객 영향, 수행한 복구 단계 및 학습한 내용을 포함하는 간단한 템플릿을 생성합니다. 이 캠을 적극적으로 사용하면 기관 메모리가 됩니다. 온보딩 중에 발생한 과거 인시던트를 검토하여 신규 엔지니어의 속도를 높이세요. 유사한 시스템을 설계할 때 아키텍처 검토에서 참조하세요. 게임 데이로 가져와 실제 이벤트를 기반으로 현실적인 실패 시나리오를 생성합니다. 템플릿은 발생한 일을 캡처하고 정기적으로 사용하면 이를 조직 학습으로 변환합니다.
스타트업이 성장함에 따라 패턴이 나타납니다. 특정 구성 요소가 더 자주 실패하거나 특정 유형의 변경으로 인해 문제가 발생할 수 있습니다. 이러한 패턴을 사용하여 복원력 투자를 안내합니다. 데이터베이스 장애 조치로 인해 문제가 발생하는 경우 여러 가용 영역 설정을 개선하는 것이 좋습니다. 타사 서비스 중단이 일반적인 테마인 경우 회로 차단기를 개선하는 것이 좋습니다.
가능한 모든 장애를 방지하는 것이 목표는 아닙니다. 이는 불가능하며 속도가 너무 느려집니다. 목표는 빠르게 학습하고, 빠르게 적응하고, 빠르게 성장하는 동안 애플리케이션을 충분히 안정적으로 유지하는 것입니다. 각 인시던트를 사용하여 시스템을 약간 더 복원력이 뛰어나고, 팀이 조금 더 지식이 풍부하며, 고객이 서비스에 조금 더 확신할 수 있는 기회로 삼습니다. 스타트업의 경우 속도 및 학습 비트 완벽성. 혁신을 늦추지 않고 인시던트에서 학습하는 데 도움이 되는 경량 프로세스를 생성합니다. 가장 좋은 복원력 방법은 팀이 실제로 사용하는 것입니다.