Princípios de design

Os princípios de design para obter a excelência operacional na nuvem são:

Executar operações como código: na nuvem, você pode aplicar a todo o ambiente a mesma disciplina de engenharia usada para o código da aplicação. É possível definir toda a sua workload (aplicações, infraestrutura etc.) como código e atualizá-la com código. Você pode criar um script dos seus procedimentos de operações e automatizar o processo acionando-o em resposta a eventos. Ao executar operações como código, você limita o erro humano e cria respostas consistentes aos eventos.
Fazer mudanças frequentes, pequenas e reversíveis: projete workloads escaláveis e com acoplamento fraco para permitir que os componentes sejam atualizados regularmente. Técnicas de implantação automatizadas, bem como mudanças menores e incrementais, reduzem o raio de expansão e permitem uma reversão mais rápida se ocorrerem falhas. Isso aumenta a confiança na entrega de mudanças benéficas à workload, mantendo a qualidade e possibilitando uma rápida adaptação às mudanças nas condições do mercado.
Refinar os procedimentos operacionais com frequência: à medida que as workloads evoluem, expanda suas operações de forma adequada. ao usar os procedimentos de operação, procure oportunidades para melhorá-los. Organize análises regularmente e valide se todos os procedimentos estão em vigor e se as equipes estão familiarizadas com eles. Ao identificar lacunas, atualize os procedimentos adequadamente. Comunique as atualizações dos procedimentos a todas as partes interessadas e equipes. Promova o aprendizado gamificado em suas operações para compartilhar as práticas recomendadas e instruir as equipes.
Antecipar falhas: execute exercícios “pre-mortem” para identificar possíveis origens de falhas, para que elas possam ser removidas ou mitigadas. Teste cenários de falha e valide sua compreensão do impacto deles. Teste os procedimentos de resposta para garantir que sejam eficazes e que as equipes estejam familiarizadas com o processo. Organize dias de jogo periódicos para testar workloads da equipe a eventos simulados.
Aprender com todas as falhas operacionais: promova melhorias por meio de lições aprendidas com todos os eventos e falhas operacionais. Compartilhe o que foi aprendido com as equipes e a organização inteira.
Usar serviços gerenciados: reduza a carga operacional usando serviços gerenciados da AWS sempre que possível. Crie procedimentos operacionais em torno das interações com esses serviços.
Implementar a observabilidade para obter insights práticos: obtenha uma compreensão abrangente do comportamento, do desempenho, da confiabilidade, do custo e da integridade da workload. Estabeleça indicadores-chave de desempenho (KPIs) e aproveite a telemetria de observabilidade para tomar decisões fundamentadas e agir imediatamente quando os resultados obtidos estiverem em risco. Melhore proativamente o desempenho, a confiabilidade e o custo com base em dados de observabilidade úteis.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Excelência operacional

Definição