As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Etapa 4: operar
Depois de concluir a Etapa 3: avaliar e testar, tudo estará pronto para a implantação da aplicação na produção. Na etapa Operar, você implanta a aplicação na produção e gerencia a experiência de seus clientes. O design e a implementação da sua aplicação determinam muitos de seus resultados de resiliência, mas essa etapa se concentra nas práticas operacionais que seu sistema usa para manter e melhorar a resiliência. Criar uma cultura de excelência operacional ajuda a criar padrões e consistência nessas práticas.
Observabilidade
A parte mais importante para entender a experiência do cliente é por meio de monitoramento e alarmes. Você precisa instrumentar sua aplicação para entender seu estado, e precisa de perspectivas diversas, o que significa que você precisa avaliar tanto do lado do servidor quanto do lado do cliente, normalmente com canários. Suas métricas devem incluir dados sobre as interações da sua aplicação com suas dependências e dimensões que se alinham às delimitações de isolamento contra falhas. Você também deve produzir logs que forneçam detalhes adicionais sobre cada unidade de trabalho realizada pela sua aplicação. Você pode considerar combinar métricas e logs usando uma solução como o formato métrico incorporado do Amazon CloudWatch. Você provavelmente descobrirá que sempre quer mais observabilidade, então considere as compensações de custo, esforço e complexidade necessárias para implementar o nível desejado de instrumentação.
Os links a seguir fornecem as práticas recomendadas para instrumentar a aplicação e criar alarmes:
-
Monitoring production services at Amazon
(apresentação do AWS re:Invent 2020) -
Amazon Builders' Library: Operational Excellence at Amazon
(apresentação do AWS re:Invent 2021) -
Observability best practices at Amazon
(apresentação do AWS re:Invent 2022) -
Como instrumentar sistemas distribuídos para obter visibilidade operacional
(artigo da Amazon Builders' Library) -
Building dashboards for operational visibility
(artigo da Amazon Builders' Library)
Gerenciamento de eventos
Você deve ter um processo de gerenciamento de eventos para lidar com deficiências quando seus alarmes (ou pior, seus clientes) informam que algo está errado. Esse processo deve incluir o acionamento de um operador de plantão, o escalonamento de problemas e o estabelecimento de runbooks para abordagens consistentes de solução de problemas que ajudem a remover erros humanos. No entanto, as deficiências geralmente não ocorrem isoladamente. Uma única aplicação pode afetar várias outras aplicações que dependem dela. Você pode resolver problemas rapidamente entendendo todas as aplicações afetadas e reunindo operadores de várias equipes em uma única teleconferência. No entanto, dependendo do tamanho e da estrutura da sua organização, esse processo pode exigir uma equipe de operações centralizada.
Além de configurar um processo de gerenciamento de eventos, você deve revisar regularmente suas métricas por meio de painéis. As avaliações regulares ajudam você a entender a experiência do cliente e as tendências de longo prazo na performance da sua aplicação. Isso ajuda a identificar problemas e gargalos antes que eles causem um impacto significativo na produção. Analisar as métricas de forma consistente e padronizada oferece benefícios significativos, mas exige uma adesão de cima para baixo e um investimento de tempo.
Os links a seguir fornecem as práticas recomendadas na criação de painéis e análises de métricas operacionais:
-
Building dashboards for operational visibility
(artigo da Amazon Builders' Library) -
Amazon's approach to failing successfully
(apresentação do AWS re:Invent 2019)
Resiliência contínua
Durante a Etapa 2: projetar e implementar e a Etapa 3: avaliar e testar, você iniciou as atividades de revisão e teste antes de implantar sua aplicação na produção. Durante a etapa de operação, você deve continuar iterando essas atividades na produção. Você deve revisar periodicamente a postura de resiliência da sua aplicação por meio de análises do AWS Well-Architected Framework
Você também pode considerar realizar dias de jogo
Ao operar suas aplicações, enfrentar eventos operacionais, revisar métricas e testar sua aplicação, você encontrará inúmeras oportunidades para responder e aprender.