As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Dimensionando a engenharia do caos em toda a sua organização
À medida que sua organização adota a engenharia do caos, padronizá-la e implementá-la apresentará desafios. Nos estágios iniciais de maturidade, é provável que equipes diferentes usem ferramentas e variações diferentes do processo de engenharia do caos descrito nas seções anteriores. Ao mesmo tempo, algumas equipes podem não priorizar ou adotar a engenharia do caos, apesar de seus benefícios potenciais. As seções a seguir fornecem orientação sobre como superar esses desafios.
No geral, sua abordagem à engenharia do caos deve ser projetada para encontrar um equilíbrio entre liderança centralizada e participação descentralizada. Esse equilíbrio ajuda a garantir que a engenharia do caos seja integrada ao processo de desenvolvimento e que os aprendizados sejam compartilhados em toda a organização.
Estabelecendo uma prática de engenharia do caos
Padronizar a prática da engenharia do caos pode acelerar sua adoção. Compartilhar os aprendizados dos experimentos entre as equipes pode aumentar o retorno dos investimentos em engenharia do caos.
Crie um centro de excelência centralizado ou reúna um grupo de especialistas no assunto, como parte de sua prática de engenharia do caos. Como uma função pequena e centralizada, essa equipe pode atuar em equipes de desenvolvimento de software, infraestrutura, segurança e negócios e manter os padrões usados por essas equipes. Para simplificar, o centro de excelência é chamado de equipe de prática centralizada, e os grupos que aplicam a engenharia do caos são chamados de equipes praticantes no restante deste guia.
Papel da equipe de prática centralizada
A equipe de prática centralizada é responsável por desenvolver e implementar práticas de engenharia do caos em toda a organização. Eles trabalham em estreita colaboração com as equipes de prática para orientá-las na concepção e condução de experimentos e garantir que os experimentos sejam valiosos para os negócios. A equipe de prática centralizada também fornece orientação e suporte às equipes de desenvolvimento, infraestrutura e segurança para ajudá-las a integrar a engenharia do caos em seus processos de desenvolvimento.
As principais responsabilidades de uma equipe centralizada de prática de engenharia do caos incluem o seguinte:
-
Capacitação — Uma função centralizada de engenharia do caos atua como facilitadora para introduzir a prática da engenharia do caos por meio de dias de jogos e workshops. Eles orientam as equipes no processo de engenharia do caos, incluindo a seleção de cenários de falha, a definição de hipóteses e a produção de relatórios para serem compartilhados com a organização em geral. A equipe de prática centralizada deve possuir materiais de treinamento e trabalhar para aprimorar as equipes praticantes no uso da engenharia do caos.
-
Consultoria — A equipe de prática centralizada também pode atuar em uma função consultiva para supervisionar os experimentos conduzidos pelas equipes de prática. Sua experiência e conhecimento podem garantir que os experimentos agreguem valor aos negócios e sejam conduzidos de maneira segura. Da mesma forma, a equipe pode supervisionar a execução e o resumo de um experimento para orientar pessoas que são novas na engenharia do caos.
-
Marketing e rastreamento de valor — Comunicar o valor comercial da engenharia do caos é fundamental para o sucesso desse programa. Cada equipe que participa de experimentos de engenharia do caos deve coletar dados dos experimentos em toda a empresa e demonstrar o valor do investimento da organização na engenharia do caos. Isso inclui quantificar e comemorar o número de incidentes que foram evitados durante cada experimento, o tempo de inatividade que teria ocorrido se o experimento tivesse falhado e o impacto geral nos negócios se os cenários de falha tivessem ocorrido na produção. Ao reunir e centralizar esses dados de todas as equipes e disponibilizá-los em toda a organização, a equipe de prática centralizada pode rastrear e influenciar o valor derivado da adoção da engenharia do caos em toda a organização.
-
Padrões — A equipe de prática centralizada deve possuir e manter o processo de realização de experimentos caóticos, os modelos para planejar e relatar os experimentos e as ferramentas usadas para conduzir os experimentos.
A equipe central deve possuir e gerenciar modelos de planejamento de experimentos, modelos de relatórios de experimentos, documentação de processos e materiais de capacitação. A documentação de melhores práticas e os materiais de capacitação fornecem orientação às equipes praticantes sobre tópicos como as grades de proteção que elas podem usar para limitar o impacto de um experimento, quando conduzir um experimento na produção e como desenvolver o uso da engenharia do caos ao longo do tempo. Para exemplos de modelos e saídas, consulte o apêndice.
A equipe de prática centralizada também deve ser proprietária do processo de realização de um experimento, incluindo comunicações e escalonamento, e quando e como se comunicar com outras equipes da organização antes ou durante um experimento. O processo também deve descrever quando são necessárias grades de proteção.
A equipe de prática centralizada também deve selecionar e possuir as principais ferramentas para conduzir experimentos de caos (por exemplo, ferramentas como AWS FIS). A seleção e implementação de ferramentas complementares, como ferramentas de geração de carga, devem ser deixadas para as equipes praticantes decidirem. As equipes praticantes devem ser capazes de adaptar o processo geral e as ferramentas para melhor atender às suas necessidades.
Papel das equipes praticantes
A equipe centralizada é responsável por conduzir a estratégia geral de engenharia do caos, enquanto as equipes praticantes participam do processo e são responsáveis pelo desenvolvimento e execução dos experimentos. Isso ajuda a garantir que os experimentos sejam relevantes para cada produto ou serviço específico e que os aprendizados sejam acionáveis e possam ser aplicados para melhorar a confiabilidade e a resiliência do produto. A equipe de prática centralizada atua como mentora e proprietária dos padrões e processos de engenharia do caos da organização. No entanto, para evitar que a equipe centralizada se torne um gargalo, as equipes praticantes individuais precisarão aprender com a prática central para realizar experiências de caos por si mesmas.
Estabelecendo uma comunidade de prática
Além de criar uma equipe centralizada, recomendamos que você estabeleça uma comunidade informal de profissionais interessados na engenharia do caos. Essa comunidade fornece uma plataforma para compartilhar conhecimento, melhores práticas e experiências entre as equipes de prática e a organização em geral.
A comunidade de prática pode ser operada pela equipe centralizada de prática de engenharia do caos, mas qualquer pessoa dentro da organização pode se tornar membro da comunidade. A equipe centralizada pode aproveitar a comunidade de prática para transmitir atualizações e obter aprendizados e coletar feedback de equipes praticantes que estão usando os padrões e os processos gerenciados pela equipe centralizada. A comunidade atuará como um ciclo de feedback para informar a equipe centralizada sobre a eficácia das práticas de engenharia do caos em todas as equipes praticantes. A equipe de prática centralizada pode então ajustar sua documentação e artefatos de suporte para melhor apoiar as equipes de produto.
Incorporando a engenharia do caos à sua resiliência operacional
Um experimento de caos é um investimento da sua empresa para evitar incidentes na produção. Será necessário determinar onde a empresa pode obter o maior retorno sobre esse investimento. A organização pode trabalhar com a equipe centralizada de prática de engenharia do caos para atualizar seus padrões e determinar quais produtos são essenciais o suficiente para exigir a experimentação do caos.
Processo de desenvolvimento de sistemas
A engenharia do caos e os experimentos do caos devem ser realizados repetidamente como parte do ciclo de vida de um aplicativo. Da mesma forma que as equipes realizam regularmente testes de recuperação de desastres, elas devem conduzir experimentos de caos e dias de jogos de forma contínua e periódica ao longo do ano. Essa abordagem melhora a forma como uma organização antecipa, observa e responde aos incidentes.