View a markdown version of this page

Etapa 5: responder e aprender - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Etapa 5: responder e aprender

Quando você administra uma startup, processos post-mortem complexos podem atrasar sua equipe. Este capítulo explora como aprender com os incidentes sem transformá-los em exercícios burocráticos.

Integre o aprendizado de incidentes aos seus ritmos existentes. Se sua equipe já tem reuniões regulares, use dez minutos para discutir incidentes recentes. Concentre-se em questões práticas, como:

  • Os cadernos de corrida ajudaram?

  • Os alertas aconteceram na hora certa?

  • Os serviços AWS gerenciados poderiam ter evitado isso?

Mantenha o foco nas ações, não na culpa. Em uma startup, você não está construindo um sistema perfeito; você está construindo um que fica melhor toda vez que algo dá errado.

Você pode usar seu sistema de emissão de bilhetes para rastrear incidentes; não há necessidade de ferramentas especializadas. Crie um modelo simples que inclua o cronograma do incidente, o impacto no cliente, as etapas de recuperação tomadas e as lições aprendidas. Isso pode se tornar memória institucional se você usá-lo ativamente. Analise incidentes anteriores durante a integração para atualizar os novos engenheiros. Referencie-os em revisões de arquitetura ao projetar sistemas similares. Coloque-os em dias de jogo para criar cenários de falha realistas com base em eventos reais. O modelo captura o que aconteceu e o uso regular o transforma em aprendizado organizacional.

À medida que as startups crescem, surgem padrões. Talvez certos componentes falhem com mais frequência, ou talvez tipos específicos de alterações causem problemas. Use esses padrões para orientar os investimentos em resiliência. Se os failovers do banco de dados causarem problemas, considere melhorar sua configuração de várias zonas de disponibilidade. Se interrupções de serviços de terceiros forem um tema comum, considere melhorar os disjuntores.

O objetivo não é evitar todas as falhas possíveis. Isso é impossível e atrasaria muito você. O objetivo é aprender rápido, adaptar-se rapidamente e manter o aplicativo confiável o suficiente enquanto você cresce rapidamente. Use cada incidente como uma chance de tornar seu sistema um pouco mais resiliente, sua equipe um pouco mais informada e seus clientes um pouco mais confiantes em seu serviço. Para startups, velocidade e aprendizado superam a perfeição. Crie processos leves que ajudem você a aprender com os incidentes sem diminuir a inovação. As melhores práticas de resiliência são aquelas que sua equipe realmente usa.