Framework de análise de resiliência
John Formento, Bruno Emer, Steven Hooper, Jason Barto e Michael Haken, Amazon Web Services (AWS)
Setembro de 2023 (histórico do documento)
Padrões e processos consistentes e repetíveis são uma parte importante da melhoria contínua. Isso também se aplica para a resiliência dos sistemas distribuídos. O objetivo desta orientação é apresentar um framework de análise de resiliência que forneça uma maneira consistente de analisar os modos de falha e como eles podem afetar suas workloads. O uso desse framework em todo o ciclo de vida de sua workload, do projeto à operação, ajuda você a melhorar continuamente a resiliência de suas workloads a uma variedade mais ampla de modos de falha em potencial de forma consistente e repetível. Isso ajuda a garantir que você atenda aos seus objetivos de resiliência e mantenha as propriedades de resiliência desejadas de suas workloads.
Esse framework foi desenvolvido por meio da experiência das equipes de campo de arquitetura de soluções da AWS em seu trabalho com clientes de vários setores. Ele é voltado para criadores que podem ter vários cargos, incluindo gerentes de produto, desenvolvedores de software, engenheiros de sistemas, equipes de operações e arquitetos. São essas pessoas que sabem mais sobre o sistema, serviço ou produto que está sendo analisado. Usar o framework em exercícios contínuos pode ajudar você a progredir incrementalmente e atingir seus objetivos de resiliência de longo prazo.
O foco do framework é identificar possíveis modos de falha e os controles preventivos e corretivos que você pode usar para mitigar o impacto deles. Mesmo que as falhas ocorram em componentes que não estão diretamente sob seu controle, como o aumento das taxas de erro em uma dependência, você precisa considerar como essas falhas podem afetar sua workload e como projetá-la para responder a essas falhas. Em última análise, você deve se concentrar nas falhas às quais possa responder usando uma mitigação que esteja sob seu controle.
Este guia descreve o framework e, em seguida, analisa como identificar e documentar uma workload, como aplicar o framework a essa workload e como avaliar estratégias de mitigação para possíveis falhas encontradas.
Conteúdo