Etapa 4: operar

Você criou um aplicativo resiliente e o testou. Agora, a realidade diária é mantê-lo funcionando. Mas em uma startup, você não pode acompanhar todas as operações e não deve tentar. O segredo é ficar atento ao que importa sem fornecer muitas métricas ou sobrecarregar sua equipe.

Comece com a perspectiva do cliente. Os canários da Amazon CloudWatch Synthetics atuam como clientes automatizados. Eles testam continuamente as jornadas críticas dos usuários. Faça com que eles façam login, simulem compras usando contas de teste ou acessem os principais recursos, especialmente durante o horário de maior movimento. Isso ajuda você a entender a experiência do cliente e a detectar problemas antes que usuários reais o façam. Quando um canário falha, você sabe imediatamente que algo está errado do ponto de vista do cliente.

Desenvolva essa base com monitoramento focado da infraestrutura de suporte. Quais sinais indicam que há problemas? CloudWatchA Amazon ajuda você a criar painéis que rastreiam esses sinais. Não monitore apenas as métricas técnicas; vincule-as ao impacto nos negócios. Por exemplo, o alto uso da CPU é importante, mas isso porque pode degradar a experiência do cliente que você está monitorando com canários.

Como uma abordagem prática, mapeie seu monitoramento de acordo com as jornadas do cliente. Se você estiver executando uma plataforma de software como serviço (SaaS), provavelmente se preocupa com os tempos de resposta da API, as taxas de sucesso da autenticação e a disponibilidade dos principais recursos. Configure alertas que avisem quando essas métricas mudam. No entanto, seja seletivo. Todo alerta deve exigir ação. Se sua equipe começar a ignorar os alertas porque “provavelmente não é nada”, você definiu muitos ou está monitorando as métricas erradas.

Direcione esses alertas por meio de ferramentas que sua equipe já usa. Se seus engenheiros moram em um aplicativo de mensagens específico, envie alertas para lá. O objetivo é uma rápida conscientização sem criar um novo processo. Quando um alerta é acionado, sua equipe deve saber exatamente o que isso significa e o que fazer a respeito.

Mantenha sua documentação operacional enxuta e prática. Armazene runbooks com seu código no controle de versão, mas lembre-se de que eles não são romances. Quando algo falha, sua equipe precisa de etapas claras e acionáveis. Cada alerta deve ser vinculado a um runbook correspondente, e cada runbook deve responder a três perguntas:

O que quebrou?
Por que é importante?
Como posso corrigir isso?

Implemente um processo simples de gerenciamento de incidentes. Você não precisa de estruturas complexas, apenas de definições claras do que constitui um incidente e para quem ligar quando as coisas piorarem. Mantenha registros de incidentes porque eles ajudam você a melhorar a resiliência do seu aplicativo.

A chave é encontrar o ponto ideal entre vigilância e sobrecarga. Use AWS ferramentas para automatizar o que puder, concentre-se no monitoramento de métricas que afetam os clientes e mantenha seus processos leves o suficiente para evoluir à medida que você cresce.

O próximo capítulo explora como promover uma mentalidade de resiliência sem sacrificar a velocidade e a inovação que tornam as startups especiais. No final das contas, a resiliência tem tanto a ver com as pessoas quanto com a tecnologia.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Etapa 3: avaliar e testar

Etapa 5: responder e aprender