As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Apêndice A ‒ Tipos de metas para engenharia do caos
As seguintes descrições dos tipos de metas incluem exemplos reais de como a Amazon e outras organizações criaram metas para a engenharia do caos.
Metas de arquitetura resiliente
Um dos fatores iniciais para a adoção da engenharia do caos é identificar e reduzir pontos únicos de falha (SPOF) em sistemas e infraestrutura. As metas são definidas para validar a resiliência de sistemas e arquiteturas essenciais, especialmente para novos serviços ou aplicativos.
As metas de arquitetura resiliente envolvem a execução de experimentos de caos que simulam falhas nas dependências do serviço. Os experimentos confirmam se os tempos limite, as novas tentativas, o comportamento do cache e as configurações do disjuntor estão funcionando corretamente. Esses experimentos ajudam a descobrir problemas para remediação, evitando incidentes que afetem o cliente. Por exemplo, consulte Criação de serviços resilientes no Prime Video com engenharia do caos
Metas de recuperação de serviços
As metas de recuperação de serviços se concentram em melhorar a capacidade de recuperação de interrupções operacionais ou falhas na infraestrutura. Por exemplo, sua organização pode ter como objetivo atingir um objetivo de tempo de recuperação (RTO) específico para seus serviços principais no caso de uma interrupção. As equipes podem criar experimentos de caos para validar e otimizar estratégias de evacuação, mecanismos de failover e processos de recuperação automatizados. Em última análise, as otimizações reduzem o tempo necessário para a restauração do serviço. Para obter um exemplo, consulte AWS Lambda: Resiliência. under-the-hood
Metas de experiência do usuário
Manter uma experiência de usuário consistente e confiável é fundamental, especialmente durante períodos de alto tráfego ou eventos críticos. Nesses casos, defina metas centradas no cumprimento de objetivos específicos de nível de serviço (). SLOs Essa abordagem centrada no cliente garante que os esforços de resiliência estejam diretamente alinhados com a entrega de uma experiência superior ao usuário, mesmo em face de falhas ou condições degradadas. Por exemplo, consulte Resiliência de engenharia: lições da jornada de engenharia do caos da Amazon Search
Metas orientadas por métricas
Você pode estabelecer metas com base em métricas quantitativas, como uma pontuação de resiliência calculada atribuindo pontos aos serviços que adotam as melhores práticas comprovadas de resiliência. Em seguida, você pode usar experimentos de caos específicos para determinar a pontuação de resiliência. Essa pontuação pode servir como uma medida para as equipes acompanharem seu progresso na mitigação dos riscos de disponibilidade conhecidos e na implementação de medidas de resiliência recomendadas. No entanto, é crucial interpretar essas pontuações com cautela e evitar enfatizar demais uma única métrica em detrimento de objetivos mais amplos de resiliência. Por exemplo, consulte Entendendo as pontuações de resiliência.
Metas de conformidade regulatória
O setor de serviços financeiros emergiu como pioneiro na adoção da engenharia do caos, impulsionado principalmente por requisitos regulatórios rigorosos que exigem recursos robustos de resiliência. As regulamentações exigirão que as instituições financeiras identifiquem, testem e corrijam proativamente as vulnerabilidades em seus sistemas e processos críticos. Esses regulamentos incluem o seguinte:
-
O documento interinstitucional sobre boas práticas para fortalecer a resiliência operacional emitido por agências federais dos EUA
-
As diretrizes do Banco Central Europeu sobre resiliência operacional
-
A proposta da Comissão Europeia para uma Lei de Resiliência Operacional Digital (DORA)
Se sua organização for uma instituição financeira, cumpra essas regulamentações definindo metas explícitas para demonstrar resiliência operacional por meio de estratégias abrangentes de testes e validação. Por exemplo, veja o London Stock Exchange Group usa a engenharia do caos AWS para melhorar a resiliência.