# Perspectiva de operações: integridade e disponibilidade
<a name="operations-perspective"></a>

A perspectiva de *operações* se concentra em garantir que os serviços de nuvem sejam entregues em um nível acordado com as partes interessadas da sua empresa. Automatizar e otimizar as operações permitirá que você escale efetivamente e melhore a confiabilidade de suas workloads. Essa perspectiva compreende nove capacidades mostradas na figura a seguir. As partes interessadas comuns incluem líderes de infraestrutura e operações, engenheiros de confiabilidade do local e gerentes de serviços de tecnologia da informação.

![Um diagrama que descreve as capacidades da perspectiva das operações do AWS CAF.](http://docs.aws.amazon.com/pt_br/whitepapers/latest/overview-aws-cloud-adoption-framework/images/cloud-adoption-10.png)


*Capacidades da perspectiva de operações do AWS CAF*
+ **Observabilidade**: obtenha insights factíveis de sua infraestrutura e dados de aplicações. Quando você está operando na [velocidade e escala da nuvem](https://aws.amazon.com/products/management-and-governance/use-cases/monitoring-and-observability/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc&blog-posts-cards.sort-by=item.additionalFields.createdDate&blog-posts-cards.sort-order=desc), você precisa ser capaz de detectar problemas à medida que eles surgem, de preferência antes que eles atrapalhem a experiência do cliente. Desenvolva a [telemetria](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/design-telemetry.html) (logs, métricas e rastreamentos) necessária para entender o [estado interno](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-lens/observability.html) e a integridade de suas workloads. Monitore os endpoints da aplicação, avalie o impacto para os usuários finais e gere alertas quando as medições excederem os limites. 

  Use o [monitoramento sintético](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) para criar canaries (scripts configuráveis que são executados de acordo com uma programação) para monitorar os endpoints e as APIs. Implemente [rastreamentos](https://aws.amazon.com/xray/) para rastrear solicitações enquanto elas percorrem toda a aplicação e identifique gargalos ou problemas de performance. Obtenha [insights](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-lens/observability.html) sobre recursos, servidores, bancos de dados e redes usando métricas e registros. Configure a análise em tempo real dos dados de séries temporais para entender as causas dos impactos na performance. Centralize os dados em um único [painel](https://aws.amazon.com/builders-library/building-dashboards-for-operational-visibility/), oferecendo uma [visão unificada](https://aws.amazon.com/opensearch-service/?nc=bc&pg=rs) das informações essenciais sobre suas workloads e performance.
+ **Gerenciamento de eventos (AIOps)**: detecte eventos, avalie seu impacto potencial e determine a ação de controle apropriada. Ser capaz de filtrar o ruído, focar em eventos prioritários, prever o esgotamento iminente de recursos, gerar alertas e incidentes automaticamente e identificar causas prováveis e ações de correção ajudará você a melhorar a detecção de incidentes e os tempos de resposta. Estabeleça um padrão de armazenamento de eventos e use o [machine learning](https://aws.amazon.com/blogs/devops/gaining-operational-insights-with-aiops-using-amazon-devops-guru/) ([AIOps](https://aws.amazon.com/devops-guru/)) para automatizar a correlação de eventos, a detecção de anomalias e a determinação de causalidade. Faça a integração com [serviços de nuvem](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) e ferramentas de terceiros, inclusive com seu sistema e processo de gerenciamento de incidentes. Automatize as respostas aos eventos para reduzir erros causados por processos manuais e garantir respostas rápidas e consistentes.
+ **Gerenciamento de incidentes e problemas**: restaure rapidamente as operações de serviço e minimize o impacto adverso nos negócios. Com a adoção da nuvem, os processos de resposta a problemas de serviço e problemas de integridade de aplicações podem ser altamente automatizados, resultando em maior tempo de atividade do serviço. À medida que você muda para um modelo operacional mais distribuído, simplificar as interações entre equipes, ferramentas e processos relevantes ajudará a acelerar a resolução de incidentes críticos e/ou complexos. Defina caminhos de escalação em seus runbooks, incluindo o que aciona a escalação e os procedimentos para escalação. 

  Pratique os [gamedays](https://wa.aws.amazon.com/wellarchitected/2020-07-02T19-33-23/wat.concept.gameday.en.html) de resposta a incidentes e incorpore as lições aprendidas em seus runbooks. Identifique padrões de incidentes para determinar problemas e medidas corretivas. Use [chatbots](https://aws.amazon.com/chatbot/) e ferramentas de colaboração para conectar suas equipes de operações, ferramentas e fluxos de trabalho. Use à vontade as [análises pós-incidentes](https://docs.aws.amazon.com/incident-manager/latest/userguide/analysis.html) para identificar os fatores contribuintes dos incidentes e desenvolver planos de ação correspondentes.
+ **Gerenciamento de alterações e lançamentos**: introduza e modifique workloads enquanto minimiza o risco para os ambientes de produção. O gerenciamento tradicional de versões é um processo complexo, de implantação lenta e difícil de reverter. A adoção da nuvem oferece a oportunidade de usar as técnicas de CI/CD para gerenciar rapidamente lançamentos e reversões. Estabeleça [processos de mudança](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/change-management.html) que permitam [fluxos de trabalho](https://docs.aws.amazon.com/systems-manager/latest/userguide/change-manager.html) de aprovação automatizada que se alinhem com a [agilidade da nuvem](https://docs.aws.amazon.com/whitepapers/latest/change-management-in-the-cloud/change-management-in-the-cloud.html). Use sistemas de gerenciamento para implantação a fim de rastrear e implementar mudanças. Use alterações [frequentes](https://docs.aws.amazon.com/wellarchitected/latest/framework/oe-prepare.html), pequenas e reversíveis para reduzir o escopo de uma alteração. Teste as alterações e valide os resultados em todas as [etapas do ciclo de vida](https://aws.amazon.com/devops/what-is-devops/) para minimizar o risco e o impacto de implantações com falha. Automatize a reversão para o bom estado anterior conhecido quando os resultados não forem alcançados para minimizar o tempo de recuperação e reduzir os erros causados por processos manuais.
+ **Gerenciamento de desempenho e capacidade**: monitore a performance da workload e garanta que a capacidade atenda às demandas atuais e futuras. Embora a capacidade da nuvem seja praticamente ilimitada, as [cotas de serviço](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/manage-service-quotas-and-constraints.html), as [reservas de capacidade](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/ec2-capacity-reservations.html) e as restrições de recursos restringem a capacidade real de suas workloads. Essas restrições de capacidade precisam ser [compreendidas](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/) e [gerenciadas](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/manage-service-quotas-and-constraints.html) de forma eficaz. Identifique as principais partes interessadas e cheguem a um consenso sobre os objetivos, escopo, metas e métricas. Colete e processe dados de performance e [analise](https://aws.amazon.com/blogs/opensource/the-wheel/) e relate regularmente a performance em relação às metas. Avalie periodicamente novas tecnologias para melhorar a performance e recomendar mudanças nas metas e métricas, conforme apropriado. Monitore a utilização de suas workloads, crie linhas de base para comparação futura e identifique limites para expandir a capacidade conforme necessário. Analise a demanda ao longo do tempo para garantir que a capacidade corresponda às tendências sazonais e condições operacionais flutuantes. 
+ **Gerenciamento de configuração**: mantenha um registro preciso e completo de todas as workloads na nuvem, seus relacionamentos e alterações de configuração ao longo do tempo. A menos que seja gerenciada de forma eficaz, a natureza dinâmica e virtual do provisionamento de recursos de nuvem pode levar a um desvio de configuração. Defina e aplique um [esquema de marcação](https://d1.awsstatic.com/whitepapers/aws-tagging-best-practices.pdf) que sobreponha os atributos de negócios ao uso da nuvem e use as etiquetas para organizar seus recursos em dimensões técnicas, comerciais e de segurança. Especifique etiquetas obrigatórias e imponha a [conformidade](https://docs.aws.amazon.com/config/latest/developerguide/evaluate-config.html) por meio da política. Use a [infraestrutura como código](https://aws.amazon.com/cloudformation/) (IaC) e [ferramentas](https://aws.amazon.com/opsworks/) de gerenciamento de configuração para provisionamento de recursos e [gerenciamento do ciclo de vida](https://docs.aws.amazon.com/wellarchitected/latest/management-and-governance-lens/servicemanagement.html). Estabeleça [linhas de base](https://docs.aws.amazon.com/config/latest/developerguide/WhatIsConfig.html) de configuração e mantenha-nas por meio do [controle de versão](https://aws.amazon.com/devops/source-control/).
+ **Gerenciamento de patches**: distribua e aplique atualizações de software sistematicamente. As atualizações de software corrigem vulnerabilidades de segurança emergentes, corrigem bugs e apresentam novos recursos. Uma abordagem sistemática para o [gerenciamento de patches](https://docs.aws.amazon.com/prescriptive-guidance/latest/patch-management-hybrid-cloud/overview.html) garantirá que você se beneficie das atualizações mais recentes, minimizando os riscos para os ambientes de produção. [Aplique](https://docs.aws.amazon.com/systems-manager/latest/userguide/systems-manager-patch.html) atualizações importantes durante a [janela de manutenção](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-patch-mw-console.html) especificada e as atualizações de segurança críticas o mais rápido possível. Notifique os usuários com antecedência informando os detalhes das próximas atualizações e permita que eles adiem os patches quando outros controles atenuantes estiverem disponíveis. Atualize as imagens da máquina e os patches de teste antes de lançar para a produção. Para garantir a disponibilidade contínua durante a aplicação de patches, considere janelas de manutenção separadas para cada zona de disponibilidade (AZ) e ambiente. Analise regularmente a conformidade de patches e alerte as equipes que não estão em conformidade para aplicar as atualizações necessárias.
+ **Gerenciamento de disponibilidade e continuidade**: garanta a disponibilidade de informações, aplicações e serviços essenciais aos negócios. A criação de soluções de [backup](https://aws.amazon.com/backup/?whats-new-cards.sort-by=item.additionalFields.postDateTime&whats-new-cards.sort-order=desc) habilitadas para nuvem requer uma consideração cuidadosa dos investimentos em tecnologia existentes, dos objetivos de recuperação e dos recursos disponíveis. A [restauração](https://aws.amazon.com/backup-restore/) no momento certo após [desastres](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-workloads-on-aws.html) e eventos de segurança ajudará você a manter a disponibilidade do sistema e a [continuidade dos negócios](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/business-continuity-plan-bcp.html). Faça backup de seus dados e documentação de acordo com um cronograma definido. 

  Desenvolva um plano de recuperação de desastres como um subconjunto do seu plano de continuidade de negócios. Identifique a ameaça, o risco, o impacto e o custo de diferentes cenários de desastre para cada workload e especifique os objetivos de tempo de recuperação (RTOs) e os objetivos de ponto de recuperação (RPOs) adequadamente. Implemente sua [estratégia](https://docs.aws.amazon.com/whitepapers/latest/disaster-recovery-workloads-on-aws/disaster-recovery-options-in-the-cloud.html) de recuperação de desastres escolhida usando a arquitetura Multi-AZ ou multirregional. Considere o uso da [engenharia do caos](https://aws.amazon.com/fis/) para melhorar a resiliência e a performance com experimentos controlados. Revise e teste seus planos regularmente e ajuste sua abordagem com base nas lições aprendidas.
+ **Gerenciamento de aplicações**: investigue e corrija problemas de aplicações em um único painel de vidro. Agregar dados de aplicações em um [único console de gerenciamento](https://aws.amazon.com/blogs/aws/new-aws-systems-manager-consolidates-application-management/) simplificará a supervisão operacional e acelerará a correção de problemas de aplicações, reduzindo a necessidade de alternar o contexto entre diferentes ferramentas de gerenciamento.

  [Integre-se](https://docs.aws.amazon.com/systems-manager/latest/userguide/application-manager-getting-started-related-services.html) a outros sistemas operacionais e de gerenciamento, como o gerenciamento de portfólio de aplicações e o CMDB, [automatize](https://docs.aws.amazon.com/systems-manager/latest/userguide/application-manager.html) a detecção de seus componentes e recursos de aplicações e consolide os dados de aplicações em um único console de gerenciamento. Inclua componentes de software e recursos de infraestrutura e delineie diferentes ambientes, como desenvolvimento, preparação e produção. Para corrigir problemas operacionais de forma mais rápida e consistente, considere automatizar seus [runbooks](https://docs.aws.amazon.com/systems-manager/latest/userguide/application-manager-working-runbooks.html).