Melhoria contínua - Recomendações da AWS

Melhoria contínua

A resiliência é um processo contínuo. Durante o ciclo de vida do seu sistema, o ambiente em que ele opera mudará. Para garantir que seu sistema permaneça resiliente, você deve integrar o framework em suas revisões operacionais e de arquitetura periódicas. Você pode encontrar novos modos de falha que não identificou na primeira vez, ou pode haver mitigações novas ou antes não consideradas que você possa implementar. A análise de resiliência deve ser um processo iterativo, e não um exercício único.

Você deve testar empiricamente suas estratégias de mitigação com processos como engenharia do caos ou dias de jogo para validar se elas funcionam conforme o esperado. Se você não tiver um mecanismo de testes rigoroso, não terá certeza de que a mitigação funcionará conforme o esperado quando precisar dela. Durante a análise de resiliência, você pode determinar que um modo de falha já foi tratado por uma mitigação específica, mas também é importante testar essas suposições. Você deve testar tanto as mitigações existentes quanto as novas que foram criadas usando o framework de análise de resiliência.

Você também deve avaliar o quão bem você realizou a análise por meio de retrospectivas da equipe. Todos sabiam no que estavam trabalhando durante a análise? A quantidade de modos de falha que você encontrou por meio da análise de resiliência está alinhada com as expectativas da equipe? Você pode identificar mitigações para todos os modos de falha que você descobriu? A equipe achou o processo útil? Você acredita que isso levará a melhorias na resiliência de sua workload?

Quando ocorrerem eventos reais de falha que afetem a disponibilidade da workload, registre o modo de falha específico, os componentes que fizeram parte da falha e o padrão de mitigação usado. Torne esses metadados pesquisáveis em sua ferramenta de análise pós-incidente para que você possa determinar em quais modos e componentes de falha se concentrar no futuro. Durante todo esse processo, você pode engajar seus arquitetos de soluções e sua equipe de contas da AWS.