Estratégias comuns de mitigação

Para começar, considere usar mitigações preventivas para evitar que o modo de falha afete a história do usuário. Você deve então pensar em mitigações corretivas. As mitigações corretivas ajudam o sistema a se autorrecuperar ou a se adaptar às mudanças nas condições. Confira uma lista de mitigações comuns para cada categoria de falha que se alinham às propriedades de resiliência.

Categoria de falha	Propriedades de resiliência desejadas	Mitigações
Pontos únicos de falha (SPOFs)	Redundância e tolerância a falhas	Implemente redundância: por exemplo, usando várias instâncias do EC2 sob controle do Elastic Load Balancing (ELB). Remova as dependências do ambiente de gerenciamento do serviço global da AWS e use-as somente em planos de dados de serviço global. Use a degradação normal quando um recurso não estiver disponível, para que seu sistema fique estaticamente estável até um único ponto de falha.
Carga Excessiva	Capacidade suficiente	As principais estratégias de mitigação são limitação de taxa, descarte de carga e priorização do trabalho, trabalho constante, backoff exponencial e repetição com jitter ou simplesmente não repetição, colocando o serviço menor sob controle, gerenciando a profundidade da fila, escalabilidade automática, evitando caches frios e disjuntores. Você também deve considerar seu plano de capacidade e pensar nos limites futuros de capacidade e escalabilidade, os dois relacionados aos recursos da AWS e aos limites do seu sistema, que você pode atingir.
Latência excessiva	Saída oportuna	Implemente tempos limite configurados adequadamente ou tempos limite adaptáveis (alterando os valores de tempo limite com base nas condições de latência atuais e previstas para permitir que uma dependência lenta progrida em vez de desistir de solicitações lentas). Implemente recuos exponenciais e repetição com jitter, bem como hedging, usando tecnologias como TCP de vários caminhos ao se conectar a serviços em nuvem de ambientes on-premises e experimentar latência em rotas específicas, usando interações assíncronas com sistemas com acoplamento fraco, armazenando em cache e sem desperdiçar o trabalho.
Configuração incorreta e bugs	Saída correta	A principal forma de detectar erros funcionais repetíveis no software é testar rigorosamente por meio de mecanismos como análise estática, testes de unidade, testes de integração, testes de regressão, testes de carga e testes de resiliência. Implemente estratégias como infraestrutura como código (IaC) e automação de integração e entrega contínuas (CI/CD) para ajudar a mitigar ameaças de configuração incorreta. Use técnicas de implantação, como implantações canárias one-box, implantações fracionárias alinhadas à delimitação de isolamento contra falhas ou implantações azul/verde para reduzir configurações incorretas e bugs.
Destino compartilhado	Isolamento de falhas	Implemente a tolerância a falhas em seu sistema e use delimitações de isolamento contra falhas lógicas e físicas, como vários clusters de computação ou contêineres, várias contas da AWS, várias entidades principais do AWS Identity and Access Management (IAM), várias zonas de disponibilidade e talvez várias Regiões da AWS. Técnicas como arquiteturas baseadas em células e shuffle sharding também podem melhorar o isolamento de falhas. Considere padrões como acoplamento fraco e degradação ordenada para evitar falhas em cascata. Ao priorizar histórias de usuários, você também pode usar essa priorização para distinguir entre histórias de usuários que são essenciais para a função principal da empresa e histórias de usuários que podem ser degradadas de forma ordenada. Por exemplo, em um site de comércio eletrônico, você não gostaria que o widget de promoções no site afetasse a capacidade de processar novos pedidos.

Embora algumas dessas mitigações exijam um esforço mínimo para serem implementadas, outras (como a adoção de uma arquitetura baseada em células para isolamento preditivo de falhas e falhas mínimas de destino compartilhado) podem exigir uma reformulação de toda a workload e não apenas dos componentes de uma história de usuário específica. Conforme analisado anteriormente, é importante ponderar a probabilidade e o impacto do modo de falha em relação às compensações que você faz para mitigá-lo.

Além das técnicas de mitigação que se aplicam a cada categoria do modo de falha, você deve considerar as mitigações necessárias para a recuperação da história do usuário ou de todo o sistema. Por exemplo, uma falha pode interromper um fluxo de trabalho e impedir que os dados sejam gravados nos destinos pretendidos. Nesse caso, poderá ser necessário um conjunto de ferramentas operacionais para reorientar o fluxo de trabalho ou corrigir os dados manualmente. Você talvez também precise criar um mecanismo de verificação em sua workload para ajudar a evitar a perda de dados quando ocorrerem falhas. Ou talvez você precise criar um andon cord para pausar o fluxo de trabalho e parar de aceitar novos trabalhos para evitar mais danos. Nesses casos, você deve pensar nas ferramentas operacionais e nas barreiras de proteção necessárias.

Por fim, você deve sempre presumir que os humanos cometerão erros ao desenvolver sua estratégia de mitigação. Embora as práticas modernas de DevOps busquem automatizar as operações, os humanos ainda precisam interagir com suas workloads por vários motivos. Uma ação humana incorreta pode causar uma falha em qualquer uma das categorias do SEEMS, como remover muitos nós durante a manutenção e causar uma sobrecarga ou configurar incorretamente um sinalizador de recurso. Esses cenários são, na verdade, uma falha nas barreiras de proteção preventivas. Uma análise da causa raiz nunca deve terminar com a conclusão de que “um humano cometeu um erro”. Em vez disso, deve abordar as razões pelas quais os erros foram possíveis em primeiro lugar. Portanto, sua estratégia de mitigação deve considerar como os operadores humanos podem interagir com os componentes da workload e como evitar ou minimizar o impacto dos erros do operador humano por meio de barreiras de proteção.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Observabilidade do modo de falha

Melhoria contínua