Etapa 5: responder e aprender

Quando você administra uma startup, processos post-mortem complexos podem atrasar sua equipe. Este capítulo explora como aprender com os incidentes sem transformá-los em exercícios burocráticos.

Integre o aprendizado de incidentes aos seus ritmos existentes. Se sua equipe já tem reuniões regulares, use dez minutos para discutir incidentes recentes. Concentre-se em questões práticas, como:

Os cadernos de corrida ajudaram?
Os alertas aconteceram na hora certa?
Os serviços AWS gerenciados poderiam ter evitado isso?

Mantenha o foco nas ações, não na culpa. Em uma startup, você não está construindo um sistema perfeito; você está construindo um que fica melhor toda vez que algo dá errado.

Você pode usar seu sistema de emissão de bilhetes para rastrear incidentes; não há necessidade de ferramentas especializadas. Crie um modelo simples que inclua o cronograma do incidente, o impacto no cliente, as etapas de recuperação tomadas e as lições aprendidas. Isso pode se tornar memória institucional se você usá-lo ativamente. Analise incidentes anteriores durante a integração para atualizar os novos engenheiros. Referencie-os em revisões de arquitetura ao projetar sistemas similares. Coloque-os em dias de jogo para criar cenários de falha realistas com base em eventos reais. O modelo captura o que aconteceu e o uso regular o transforma em aprendizado organizacional.

À medida que as startups crescem, surgem padrões. Talvez certos componentes falhem com mais frequência, ou talvez tipos específicos de alterações causem problemas. Use esses padrões para orientar os investimentos em resiliência. Se os failovers do banco de dados causarem problemas, considere melhorar sua configuração de várias zonas de disponibilidade. Se interrupções de serviços de terceiros forem um tema comum, considere melhorar os disjuntores.

O objetivo não é evitar todas as falhas possíveis. Isso é impossível e atrasaria muito você. O objetivo é aprender rápido, adaptar-se rapidamente e manter o aplicativo confiável o suficiente enquanto você cresce rapidamente. Use cada incidente como uma chance de tornar seu sistema um pouco mais resiliente, sua equipe um pouco mais informada e seus clientes um pouco mais confiantes em seu serviço. Para startups, velocidade e aprendizado superam a perfeição. Crie processos leves que ajudem você a aprender com os incidentes sem diminuir a inovação. As melhores práticas de resiliência são aquelas que sua equipe realmente usa.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Etapa 4: operar

Próximas etapas