# OPS 8  Como você compreende a integridade da sua carga de trabalho?
<a name="ops-08"></a>

 Defina, capture e analise as métricas da carga de trabalho para obter visibilidade destes eventos, para que você possa tomar as ações apropriadas. 

**Topics**
+ [OPS08-BP01 Identificar os indicadores-chave de performance](ops_workload_health_define_workload_kpis.md)
+ [OPS08-BP02 Definir as métricas da workload](ops_workload_health_design_workload_metrics.md)
+ [OPS08-BP03 Coletar e analisar as métricas da workload](ops_workload_health_collect_analyze_workload_metrics.md)
+ [OPS08-BP04 Estabelecer as referências das métricas da workload](ops_workload_health_workload_metric_baselines.md)
+ [OPS08-BP05 Aprender os padrões esperados das atividades da workload](ops_workload_health_learn_workload_usage_patterns.md)
+ [OPS08-BP06 Alertar quando os resultados da workload estiverem em risco](ops_workload_health_workload_outcome_alerts.md)
+ [OPS08-BP07 Alertar quando forem detectadas anomalias na workload](ops_workload_health_workload_anomaly_alerts.md)
+ [OPS08-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas](ops_workload_health_biz_level_view_workload.md)

# OPS08-BP01 Identificar os indicadores-chave de performance
<a name="ops_workload_health_define_workload_kpis"></a>

 Identifique os indicadores-chave de performance (KPIs) com base nos resultados de negócios desejados (por exemplo, taxa de pedidos, taxa de retenção do cliente e lucro versus despesa operacional) e resultados do cliente (por exemplo, satisfação do cliente). Avalie os KPIs para determinar o sucesso da carga de trabalho. 

 **Antipadrões comuns:** 
+  A liderança de negócios pergunta a você sobre o sucesso de uma carga de trabalho atendendo às necessidades empresariais, mas não tem um quadro de referência para determinar o sucesso. 
+  Você não consegue determinar se a aplicação comercial pronta para uso que você opera para a organização é econômica. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao identificar os indicadores-chave de performance, você permite alcançar resultados empresariais como teste da integridade e do sucesso da sua carga de trabalho. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Identificar os indicadores-chave de performance: identifique os indicadores-chave de performance (KPIs) com base nos resultados desejados dos negócios e dos clientes. Avalie os KPIs para determinar o sucesso da carga de trabalho. 

# OPS08-BP02 Definir as métricas da workload
<a name="ops_workload_health_design_workload_metrics"></a>

Defina as métricas para medir a integridade da workload. A integridade da workload é medida pelo cumprimento dos resultados empresariais (KPIs) e pelo estado dos componentes e das aplicações da workload. Exemplos de KPIs são carrinhos de compra abandonados, pedidos feitos, custo, preço e despesa alocada para a workload. Embora você possa coletar telemetria de vários componentes, escolha um subconjunto que forneça informações sobre a integridade geral da workload. Ajuste as métricas da workload ao longo do tempo à medida que as necessidades da empresa mudam. 

 **Resultado desejado:** 
+  Você identificou métricas que validam o cumprimento de KPIs que refletem os resultados empresariais. 
+  Você tem métricas que mostram uma visão consistente da integridade da workload. 
+  As métricas da workload são avaliadas periodicamente à medida que as necessidades da empresa mudam. 

 **Antipadrões comuns:** 
+ Você está monitorando todas as aplicações na workload, mas não consegue determinar se ela está atingindo os resultados empresariais.
+ Você definiu métricas da workload, mas elas não estão associadas a nenhum KPI da empresa.

 **Benefícios do estabelecimento desta prática recomendada:** 
+  É possível medir a workload com relação ao cumprimento dos resultados empresariais. 
+  Você sabe se a workload está em um estado íntegro ou se precisa de intervenção. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>

 A meta dessa prática recomendada é poder responder à pergunta: minha workload está íntegra? A integridade da workload é determinada pelo cumprimento dos resultados empresariais e pelo estado das aplicações e dos componentes na workload. Faça uma análise retroativa partindo dos KPIs para identificar as métricas. Identifique as principais métricas dos componentes e das aplicações. Analise periodicamente as métricas da workload à medida que as necessidades da empresa mudam. 

 **Exemplo de clientes** 

 Na Loja UmaEmpresa, a integridade da workload é determinada por um conjunto de métricas de componentes e aplicações. Partindo das KPIs empresariais, é possível identificar métricas, como a taxa de pedidos, que podem mostrar se os resultados empresariais estão sendo alcançados. Também são incluídas as principais métricas de aplicações, como resposta da página e métricas de componentes, como conexões de banco de dados abertas. Trimestralmente, as métricas da workload são reavaliadas para garantir que ainda sejam válidas para determinar a integridade da workload. 

 **Etapas da implementação** 

1.  Partindo das KPIs empresariais, identifique as métricas que mostram que você está atingindo os resultados empresariais. Se houver KPIs que não têm métricas, equipe a workload com métricas adicionais para KPIs empresariais ausentes. 

   1.  É possível publicar métricas personalizadas das aplicações no [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html). 

   1.  O [AWS Distro para OpenTelemetry](https://aws-otel.github.io/) pode coletar métricas de aplicações existentes e ser usado para adicionar novas métricas. 

   1.  Os clientes que contam com o Enterprise Support podem solicitar o workshop [Building a Monitoring Strategy](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) (Como criar uma estratégia de monitoramento) ao respectivo gerente de conta técnico. Esse workshop ajudará você a elaborar uma estratégia de capacidade de observação para a workload. 

1.  Identifique métricas para aplicações e componentes na workload. Quais são as principais métricas que mostram a integridade de componentes e aplicações individuais? As aplicações e os componentes podem emitir várias métricas diferentes, mas escolha de uma a três métricas principais que mostrem a integridade geral deles. 

1.  Implemente um mecanismo para avaliar as métricas da workload periodicamente. Quando as KPIs empresariais mudarem, trabalhe com as partes interessadas para atualizar as métricas da workload. À medida que os componentes e as aplicações da workload evoluem, ajuste as métricas da workload. 

 **Nível de esforço do plano de implementação:** médio. Adicionar métricas de KPIs empresariais às aplicações pode exigir um esforço moderado. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS04-BP01 Implementar a telemetria de aplicações](ops_telemetry_application_telemetry.md) – A aplicação deve emitir telemetria compatível com os resultados empresariais. 
+  [OPS04-BP02 Implementar e configurar a telemetria da workload](ops_telemetry_workload_telemetry.md) – É necessário equipar a workload para emitir telemetria antes de definir as métricas da workload compatíveis com os resultados empresariais. 
+  [OPS08-BP01 Identificar os indicadores-chave de performance](ops_workload_health_define_workload_kpis.md) – É necessário primeiro identificar os principais indicadores de desempenho antes de escolher as métricas da workload. 

 **Documentos relacionados:** 
+ [ Adding metrics and traces to your application on Amazon EKS with AWS Distro for OpenTelemetry, AWS X-Ray, and Amazon CloudWatch ](https://aws.amazon.com/blogs/mt/adding-metrics-and-traces-to-your-application-on-amazon-eks-with-aws-distro-for-opentelemetry-aws-x-ray-and-amazon-cloudwatch/) (Adicionar métricas e rastreamentos à aplicação no Amazon EKS com o AWS Distro para OpenTelemetry, o AWS X-Ray e o Amazon CloudWatch)
+ [instrumentação de sistemas distribuídos para visibilidade operacional](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility/)
+ [implementação de verificações de integridade](https://aws.amazon.com/builders-library/implementing-health-checks/)
+ [Como monitorar suas aplicações com eficácia](https://aws.amazon.com/startups/start-building/how-to-monitor-applications/)
+ [How to better monitor your custom application metrics using Amazon CloudWatch Agent](https://aws.amazon.com/blogs/devops/new-how-to-better-monitor-your-custom-application-metrics-using-amazon-cloudwatch-agent/) (Como monitorar melhor as métricas de aplicações personalizadas usando o agente do Amazon CloudWatch)

 **Vídeos relacionados:** 
+ [AWS re:Invent 2020: Monitoring production services at Amazon ](https://www.youtube.com/watch?v=hnPcf_Czbvw) (AWS re:Invent 2020: monitoramento de serviços de produção na Amazon)
+ [AWS re:Invent 2022 - Building observable applications with OpenTelemetry (BOA310) ](https://www.youtube.com/watch?v=efk8XFJrW2c) (AWS re:Invent 2022: criação de aplicações observáveis com o OpenTelemetry (BOA310))
+ [How to Easily Setup Application Monitoring for Your AWS Workloads - AWS Online Tech Talks ](https://www.youtube.com/watch?v=LKCth30RqnA) (Como configurar facilmente o monitoramento de aplicações para as workloads da AWS: AWS Online Tech Talks)
+ [Mastering Observability of Your Serverless Applications - AWS Online Tech Talks](https://www.youtube.com/watch?v=CtsiXhiAUq8) (Domínio da capacidade de observação de aplicações de tecnologia sem servidor: AWS Online Tech Talks)

 **Exemplos relacionados:** 
+ [Um workshop de observabilidade](https://catalog.workshops.aws/observability/en-US/intro)

 **Serviços relacionados:** 
+ [ Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [AWS Distro for OpenTelemetry ](https://aws-otel.github.io/)

# OPS08-BP03 Coletar e analisar as métricas da workload
<a name="ops_workload_health_collect_analyze_workload_metrics"></a>

Faça análises proativas regulares de métricas da workload para identificar tendências e determinar se é necessária uma resposta, além de validar o cumprimento dos resultados empresariais. Agregue métricas das aplicações e dos componentes da workload em um local central. Use painéis e ferramentas de análise para analisar a telemetria e determinar a integridade da workload. Implemente um mecanismo para realizar análises da integridade da workload periodicamente com as partes interessadas na organização. 

 **Resultado desejado:** 
+  As métricas da workload são coletadas em um local central. 
+  Os painéis e as ferramentas de análise são usados para analisar as tendências de integridade da workload. 
+  Você realiza análises periódicas das métricas da workload com a organização. 

 **Antipadrões comuns:** 
+  A organização coleta métricas da workload em duas plataformas de capacidade de observação diferentes. Não é possível determinar a integridade da workload porque as plataformas são incompatíveis. 
+  As taxas de erro de um componente da workload estão aumentando lentamente. Você não consegue perceber essa tendência porque sua organização não realiza análises periódicas de métricas da workload. O componente falha depois de uma semana, prejudicando a workload. 

 **Benefícios do estabelecimento desta prática recomendada:** 
+  Você está cada vez mais ciente acerca da integridade da workload e do cumprimento dos resultados empresariais. 
+  As tendências de integridade da workload podem ser desenvolvidas ao longo do tempo. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** alto 

## Orientações para a implementação
<a name="implementation-guidance"></a>

 Colete as métricas da workload em um local central. Com painéis e ferramentas de análise, analise as métricas da workload para obter informações sobre a integridade da workload, desenvolver as tendências de integridade da workload e validar o cumprimento dos resultados empresariais. Implemente um mecanismo para realizar análises periódicas das métricas da workload. 

 **Exemplo de clientes** 

 A Loja UmaEmpresa realiza análises das métricas da workload toda semana, às quartas-feiras. As partes interessadas da empresa se reúnem e analisam as métricas da semana anterior. Durante a reunião, são destacadas tendências e captadas informações por meio das ferramentas de análise. Os painéis internos são publicados com as principais métricas da workload que qualquer funcionário pode ver e pesquisar. 

 **Etapas da implementação** 

1.  Identifique as métricas da workload ligadas à integridade dela. Partindo dos KPIs empresariais, identifique as métricas de aplicações, componentes e plataformas que fornecem uma visão geral da integridade da workload. 

   1.  É possível publicar métricas personalizadas no [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html). Você pode utilizar o [agente do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) para coletar métricas e logs de instâncias do Amazon EC2 e de servidores on-premises. 

   1.  O [AWS Distro para OpenTelemetry](https://aws-otel.github.io/) pode coletar métricas de aplicações existentes e ser usado para adicionar novas métricas. 

   1.  Os clientes que contam com o Enterprise Support podem solicitar o workshop [Building a Monitoring Strategy](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) (Como criar uma estratégia de monitoramento) ao respectivo gerente de conta técnico. Esse workshop ajuda você a elaborar uma estratégia de capacidade de observação para a workload. 

1.  Colete as métricas da workload em uma plataforma central. Se as métricas da workload estiverem divididas entre plataformas diferentes, isso poderá dificultar a análise e o desenvolvimento de tendências. A plataforma deve ter painéis e recursos de análise. 

   1.  O [Amazon CloudWatch](https://docs.aws.amazon.com/) pode coletar e armazenar métricas da workload. Em topologias de várias contas, é recomendável ter uma [conta central de registro e monitoramento](https://docs.aws.amazon.com/prescriptive-guidance/latest/security-reference-architecture/log-archive.html), chamada de *conta de arquivo de log*. 

1.  Crie um painel consolidado de métricas da workload. Use essa visualização para avaliações de métricas e análises de tendências. 

   1.  É possível criar [painéis do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) personalizados para coletar as métricas da workload em uma visualização consolidada. 

1.  Implemente um processo de análise de métricas da workload. Com uma frequência semanal, quinzenal ou mensal, analise as métricas da workload com as partes interessadas, incluindo funcionários técnicos e não técnicos. Use essas sessões de análise para identificar tendências e obter informações sobre a integridade da workload. 

 **Nível de esforço do plano de implementação:** alto. Se as métricas da workload não forem coletadas centralmente, poderá ser necessário um investimento significativo para consolidá-las em uma única plataforma. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP01 Identificar os indicadores-chave de performance](ops_workload_health_define_workload_kpis.md) – É necessário primeiro identificar os principais indicadores de desempenho antes de escolher as métricas da workload. 
+  [OPS08-BP02 Definir as métricas da workload](ops_workload_health_design_workload_metrics.md) – É necessário definir as métricas da workload antes de coletá-las e analisá-las. 

 **Documentos relacionados:** 
+ [ Power operational insights with Amazon Quick ](https://aws.amazon.com/blogs/big-data/power-operational-insights-with-amazon-quicksight/)(Potencializar as informações operacionais com o Amazon Quick)
+ [ Using Amazon CloudWatch dashboards custom widgets ](https://aws.amazon.com/blogs/mt/introducing-amazon-cloudwatch-dashboards-custom-widgets/)(Usar widgets personalizados de painéis do Amazon CloudWatch)

 **Vídeos relacionados:** 
+ [ Create Cross Account & Cross Region CloudWatch Dashboards ](https://www.youtube.com/watch?v=eIUZdaqColg)(Criar painéis do CloudWatch entre contas e entre regiões)
+ [ Monitor AWS Resources Using Amazon CloudWatch Dashboards ](https://www.youtube.com/watch?v=I7EFLChc07M)(Monitorar recursos da AWS usando os painéis do Amazon CloudWatch)

 **Exemplos relacionados:** 
+ [AWS Management and Governance Tools Workshop - CloudWatch Dashboards ](https://mng.workshop.aws/operations-2022/detect/cwdashboard.html)(Workshop de ferramentas de gerenciamento e governança da AWS: painéis do CloudWatch)
+ [ Well-Architected Labs - Level 100: Monitoring with CloudWatch Dashboards ](https://www.wellarchitectedlabs.com/performance-efficiency/100_labs/100_monitoring_with_cloudwatch_dashboards/) (Laboratórios do Well-Architected – Nível 100: monitoramento com painéis do CloudWatch)

 **Serviços relacionados:** 
+  [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+ [AWS Distro for OpenTelemetry](https://aws-otel.github.io/)

# OPS08-BP04 Estabelecer as referências das métricas da workload
<a name="ops_workload_health_workload_metric_baselines"></a>

Estabelecer uma referência para as métricas da workload auxilia na compreensão da integridade e do desempenho da workload. Com as referências, é possível identificar aplicações e componentes com desempenho acima e abaixo do esperado. Uma referência da workload permite que você mitigue problemas antes que eles se tornem incidentes. As referências são fundamentais no desenvolvimento de padrões de atividade e na implementação da detecção de anomalias quando as métricas desviam dos valores esperados. 

 **Resultado desejado:** 
+  Você tem um nível de referência das métricas da workload em condições normais. 
+  É possível determinar se a workload está funcionando normalmente. 

 **Antipadrões comuns:** 
+  Depois de implantar um novo recurso, ocorre uma queda na latência da solicitação. Não foi estabelecida uma referência para uma métrica composta de solicitações processadas recebidas e latência geral. Não é possível determinar se a mudança causou uma melhoria ou um defeito. 
+  Ocorre um pico repentino na atividade de usuários, mas você não estabeleceu uma referência para a métrica. O pico de atividade leva lentamente a um vazamento de memória em uma aplicação. Isso acaba deixando a workload offline. 

 **Benefícios do estabelecimento desta prática recomendada:** 
+  Você entende o padrão normal de atividade para a workload usando métricas para os principais componentes e aplicações. 
+  É possível determinar se a workload, suas aplicações e seus componentes estão se comportando normalmente ou exigem intervenção. 

 **Nível de risco exposto se esta prática recomendada não é estabelecida:** médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>

 Use dados históricos para estabelecer uma referência das métricas da workload para aplicações e componentes na workload. Utilize a referência das métricas nas reuniões de análise das métricas e na resolução de problemas. Analise periodicamente o desempenho da workload e ajuste a referência à medida que a arquitetura evolui. 

 **Exemplo de clientes** 

 As referências são estabelecidas para todos os componentes e as aplicações na Loja UmaEmpresa. Usando dados históricos, a Loja UmaEmpresa desenvolveu as referências das métricas da workload em um prazo de métricas de dois meses. A cada dois meses, as referências são reavaliadas e ajustadas com base em dados reais. 

 **Etapas da implementação** 

1.  Faça uma análise retroativa partindo das métricas da workload, estabeleça uma referência das métricas para os principais componentes e aplicações usando dados históricos. Limite o número de métricas por componente ou aplicação e evite o excesso de monitoramento. 

   1.  É possível usar o [Amazon CloudWatch Metrics Insight](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) para consultar métricas em escala e identificar tendências e padrões. 

   1.  A [detecção de anomalias do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) usa algoritmos de machine learning para identificar padrões de comportamento para métricas, determinar referências e expor anomalias. 

   1.  O [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) permite detectar problemas operacionais com a workload usando machine learning. 

   1.  Os clientes que contam com o Enterprise Support podem solicitar o workshop [Building a Monitoring Strategy](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) (Como criar uma estratégia de monitoramento) ao respectivo gerente de conta técnico. Esse workshop ajudará você a elaborar uma estratégia de capacidade de observação para a workload. 

1.  Estabeleça um mecanismo para analisar periodicamente as referências das métricas da workload, principalmente antes de eventos empresariais significativos. Ao menos a cada trimestre, avalie a referência das métricas da workload usando dados históricos. Use a referência nas reuniões de análise das métricas. 

 **Nível de esforço do plano de implementação:** baixo. Estabelecer métricas da workload e as referências pode exigir a coleta de dados suficientes para identificar padrões normais de comportamento. 

## Recursos
<a name="resources"></a>

 **Práticas recomendadas relacionadas:** 
+  [OPS08-BP02 Definir as métricas da workload](ops_workload_health_design_workload_metrics.md) – As métricas da workload devem ser estabelecida antes de determinar as referências. 
+  [OPS08-BP03 Coletar e analisar as métricas da workload](ops_workload_health_collect_analyze_workload_metrics.md) – É necessário coletar e analisar as métricas da workload antes de estabelecer as referências da métrica. 
+  [OPS08-BP05 Aprender os padrões esperados das atividades da workload](ops_workload_health_learn_workload_usage_patterns.md) – Essa prática recomendada se baseia na referência para desenvolver tendências de uso. 
+  [OPS08-BP06 Alertar quando os resultados da workload estiverem em risco](ops_workload_health_workload_outcome_alerts.md) – As referências das métricas são necessárias para identificar limites e desenvolver alertas. 
+  [OPS08-BP07 Alertar quando forem detectadas anomalias na workload](ops_workload_health_workload_anomaly_alerts.md) – A detecção de anomalias exige o estabelecimento de referências das métricas. 

 **Documentos relacionados:** 
+ [AWS Observability Best Practices - Alarms ](https://aws-observability.github.io/observability-best-practices/tools/alarms/)(Práticas recomendadas de capacidade de observação da AWS: alarmes)
+ [Como monitorar suas aplicações com eficácia](https://aws.amazon.com/startups/start-building/how-to-monitor-applications/)
+ [ How to set up CloudWatch Anomaly Detection to set dynamic alarms, automate actions, and drive online sales ](https://aws.amazon.com/blogs/mt/how-to-set-up-cloudwatch-anomaly-detection-to-set-dynamic-alarms-automate-actions-and-drive-online-sales/)(Como configurar a detecção de anomalias do CloudWatch para definir alarmes dinâmicos, automatizar ações e gerar vendas online)
+ [ Operationalizing CloudWatch Anomaly Detection ](https://aws.amazon.com/blogs/mt/operationalizing-cloudwatch-anomaly-detection/)(Operacionalizar a detecção de anomalias do CloudWatch)

 **Vídeos relacionados:** 
+ [AWS re:Invent 2020: Monitoring production services at Amazon ](https://www.youtube.com/watch?v=hnPcf_Czbvw) (AWS re:Invent 2020: monitoramento de serviços de produção na Amazon)
+ [AWS re:Invent 2021 - Get insights from operational metrics at scale with CloudWatch Metrics Insights ](https://www.youtube.com/watch?v=xKib0xvbIfo)(AWS re:Invent 2021: obtenha informações de métricas operacionais em escala com o CloudWatch Metrics Insights)
+ [AWS re:Invent 2022: Developing an observability strategy (COP302) ](https://www.youtube.com/watch?v=Ub3ATriFapQ)(AWS re:Invent 2022: desenvolvimento de uma estratégia de capacidade de observação (COP302))
+ [AWS Summit DC 2022 - Monitoring and observability for modern applications ](https://www.youtube.com/watch?v=AHiuyT0B5Gk)(AWS Summit DC 2022: monitoramento e capacidade de observação para aplicações modernas)
+ [AWS Summit SF 2022 - Full-stack observability and application monitoring with AWS (COP310) ](https://www.youtube.com/watch?v=or7uFFyHIX0)(AWS Summit SF 2022: capacidade de observação de pilha completa e monitoramento de aplicações com a AWS (COP310))

 **Exemplos relacionados:** 
+ [AWS CloudTrail and Amazon CloudWatch Integration Workshop ](https://catalog.us-east-1.prod.workshops.aws/workshops/2e48b9fc-f721-4417-b811-962b7f31b61c/en-US)(Workshop de integração do AWS CloudTrail e do Amazon CloudWatch)

 **Serviços relacionados:** 
+ [ Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [ Amazon DevOps Guru ](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)

# OPS08-BP05 Aprender os padrões esperados das atividades da workload
<a name="ops_workload_health_learn_workload_usage_patterns"></a>

 Estabeleça padrões de atividade de carga de trabalho para identificar comportamentos anômalos para que você possa responder adequadamente, se necessário. 

 O CloudWatch por meio da [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) aplica algoritmos estatísticos e de machine learning para gerar uma variedade de valores esperados que representam o comportamento normal da métrica. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) pode ser usado para identificar comportamento anômalo por meio da correlação de eventos, da análise do log e da aplicação de machine learning para analisar a telemetria da workload. Quando são detectados comportamentos inesperados, ele fornece as [métricas e os eventos relacionados](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) com recomendações para resolver o comportamento. 

 **Antipadrões comuns:** 
+  Você está revisando os logs de utilização da rede e verá que a utilização da rede aumentou entre 11h30 e 13h30 e novamente das 16h30 às 18h. Você não sabe se isso deve ser considerado normal ou não. 
+  Seus servidores web reinicializam todas as noites às 3h. Você não sabe se esse é um comportamento esperado. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao aprender padrões de comportamento, você pode reconhecer comportamentos inesperados e tomar medidas, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não for estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Estabelecer os padrões esperados das atividades da workload: estabeleça os padrões das atividades da workload para determinar quando o comportamento está fora dos valores esperados, para que seja possível responder adequadamente, se necessário. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 

# OPS08-BP06 Alertar quando os resultados da workload estiverem em risco
<a name="ops_workload_health_workload_outcome_alerts"></a>

 Emita um alerta quando os resultados da carga de trabalho estiverem em risco, para que você possa responder adequadamente, se necessário. 

 em condições ideais, você identificou anteriormente um limite de métrica sobre o qual é capaz de emitir alarmes ou um evento que você pode usar para acionar uma resposta automatizada. 

 No AWS, você pode usar o [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) para criar scripts canário para monitorar os seus endpoints e APIs executando as mesmas ações que seus clientes. A telemetria gerada e o [insight obtido](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_Details.html) podem permitir que você identifique problemas antes que causem impacto nos clientes. 

 Você também pode usar o [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para pesquisar e analisar interativamente seus dados de log usando uma linguagem de consulta específica. O CloudWatch Logs Insights descobre [campos em logs automaticamente](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData-discoverable-fields.html) dos serviços da AWS e dos eventos de log personalizados em JSON. Ele faz o dimensionamento de acordo com o volume de logs e a complexidade das consultas e oferece respostas em segundos, ajudando você a procurar os fatores que contribuem para um incidente. 

 **Antipadrões comuns:** 
+  Você não tem conectividade de rede. Ninguém está ciente. Ninguém está tentando identificar o motivo ou tomando medidas para restaurar a conectividade. 
+  Após a aplicação de um patch, as instâncias persistentes se tornaram indisponíveis, prejudicando os usuários. Seus usuários abriram casos de suporte. Ninguém foi notificado. Ninguém está realizando ações. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao identificar que os resultados de negócios estão em risco e alertar sobre ações a serem tomadas, você tem a oportunidade de evitar ou reduzir o impacto de um incidente. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Médio 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Alertar quando os resultados da workload estão em risco: emita um alerta quando os resultados da workload estiverem em risco para que você possa responder adequadamente, se necessário. 
  +  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP07 Alertar quando forem detectadas anomalias na workload
<a name="ops_workload_health_workload_anomaly_alerts"></a>

 Emita um alerta quando forem detectadas anomalias na carga de trabalho, para que você possa responder adequadamente, se necessário. 

 sua análise das métricas da carga de trabalho ao longo do tempo pode estabelecer padrões de comportamento que você pode quantificar suficientemente para definir um evento ou gerar um alarme em resposta. 

 Uma vez treinado, o recurso [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) pode ser usado para [gerar alarmes](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) sobre anomalias detectadas ou pode fornecer valores esperados sobrepostos em um [gráfico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) de dados de métricas para comparação contínua. 

 **Antipadrões comuns:** 
+  As vendas do site de varejo aumentaram drasticamente de forma repentina; Ninguém está ciente. Ninguém está tentando identificar o que levou a esse pico. Ninguém está realizando ações para garantir experiências de qualidade para o cliente sob a carga adicional. 
+  Após a aplicação de um patch, seus servidores persistentes estão reinicializando com frequência, prejudicando os usuários. Normalmente, os servidores reinicializam até três vezes, mas não mais. Ninguém está ciente. Ninguém está tentando identificar por que isso está acontecendo. 

 **Benefícios do estabelecimento desta prática recomendada:** Com a compreensão dos padrões de comportamento da workload, é possível identificar comportamentos inesperados e tomar medidas, se necessário. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Alertar quando são detectadas anomalias da workload: emita um alerta quando anomalias da workload forem detectadas para que seja possível responder adequadamente, se necessário. 
  +  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Criação de alarmes do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Detecção de anomalias do CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Invocar funções do Lambda usando notificações do Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [O que é o Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP08 Validar a obtenção de resultados e a eficácia dos KPIs e das métricas
<a name="ops_workload_health_biz_level_view_workload"></a>

 Crie uma visualização em nível de negócios de suas operações de carga de trabalho para ajudá-lo a determinar se você está satisfazendo estas necessidades e para identificar áreas que precisam de melhorias para atingir as metas de negócios. Valide a eficácia dos KPIs e métricas e revise-os, se necessário. 

 A AWS também é compatível com sistemas de análise de log de terceiros e com ferramentas de inteligência de negócios por meio das APIs e SDKs de serviços da AWS (por exemplo, Grafana, Kibana e Logstash). 

 **Antipadrões comuns:** 
+  O tempo de resposta da página nunca foi considerado um colaborador para a satisfação do cliente. Você nunca estabeleceu uma métrica ou um limite para o tempo de resposta da página. Seus clientes estão reclamando sobre lentidão. 
+  Você não está atingindo seus objetivos mínimos de tempo de resposta. Como um esforço para melhorar o tempo de resposta, você aumentou a escala vertical dos servidores de aplicações. Agora você está excedendo as metas de tempo de resposta por uma margem significativa e também tem uma capacidade significativa não utilizada pela qual está pagando. 

 **Benefícios do estabelecimento desta prática recomendada:** Ao analisar e revisar os KPIs e as métricas, você entende como sua workload oferece suporte à obtenção dos resultados dos negócios e pode identificar onde é necessário melhorar para atingir suas metas de negócios. 

 **Nível de exposição a riscos quando esta prática recomendada não é estabelecida:** Baixo 

## Orientações para a implementação
<a name="implementation-guidance"></a>
+  Validar a obtenção dos resultados e a eficácia dos KPIs e das métricas: crie uma visão de nível empresarial das operações da workload para ajudá-lo a determinar se você está atendendo às necessidades e a identificar áreas que precisam ser aprimoradas para atingir metas empresariais. Valide a eficácia dos KPIs e métricas e revise-os, se necessário. 
  +  [Uso de painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [O que é análise de log?](https://aws.amazon.com/log-analytics/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Uso de painéis do Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [O que é análise de log?](https://aws.amazon.com/log-analytics/)