

# OPS 8 ¿Qué hace para comprender el estado de la carga de trabajo?
<a name="ops-08"></a>

 Defina, capture y analice las métricas de cargas de trabajo para obtener visibilidad de los eventos de cargas de trabajo y poder tomar las medidas adecuadas. 

**Topics**
+ [OPS08-BP01 Identificar los indicadores clave de rendimiento](ops_workload_health_define_workload_kpis.md)
+ [OPS08-BP02 Definir las métricas de las cargas de trabajo](ops_workload_health_design_workload_metrics.md)
+ [OPS08-BP03 Recopilar y analizar métricas de cargas de trabajo](ops_workload_health_collect_analyze_workload_metrics.md)
+ [OPS08-BP04 Establecer puntos de referencias de métricas de cargas de trabajo](ops_workload_health_workload_metric_baselines.md)
+ [OPS08-BP05 Descubrir los patrones esperados de actividad para la carga de trabajo](ops_workload_health_learn_workload_usage_patterns.md)
+ [OPS08-BP06 Alertar cuando los resultados de la carga de trabajo corren riesgo](ops_workload_health_workload_outcome_alerts.md)
+ [OPS08-BP07 Alertar cuando se detectan anomalías en la carga de trabajo](ops_workload_health_workload_anomaly_alerts.md)
+ [OPS08-BP08 Validar el logro de resultados y la efectividad de los KPI y las métricas](ops_workload_health_biz_level_view_workload.md)

# OPS08-BP01 Identificar los indicadores clave de rendimiento
<a name="ops_workload_health_define_workload_kpis"></a>

 Identifique los indicadores clave de rendimiento (KPI) en función de los resultados empresariales deseados (por ejemplo, la tasa de pedidos, la tasa de retención de clientes y los beneficios frente a los gastos de explotación) y de los resultados de los clientes (por ejemplo, la satisfacción de los clientes). Evalúe los KPI para determinar el éxito de la carga de trabajo. 

 **Antipatrones usuales:** 
+  Los directivos de la empresa le preguntan por el éxito de una carga de trabajo para satisfacer las necesidades de la empresa, pero no tiene un marco de referencia para determinar el éxito. 
+  No es capaz de determinar si la aplicación comercial que utiliza para su organización es rentable. 

 **Beneficios de establecer esta práctica recomendada:** La identificación de los indicadores clave de rendimiento permite obtener resultados empresariales como prueba del estado y el éxito de su carga de trabajo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Identificar los indicadores clave de rendimiento: identifique los indicadores clave de rendimiento (KPI) en función de los resultados que desee obtener para la empresa y los clientes. Evalúe los KPI para determinar el éxito de la carga de trabajo. 

# OPS08-BP02 Definir las métricas de las cargas de trabajo
<a name="ops_workload_health_design_workload_metrics"></a>

Defina las métricas que miden el estado de la carga de trabajo. El estado de la carga de trabajo se mide por la consecución de resultados empresariales (KPI) y el estado de los componentes y las aplicaciones de la carga de trabajo. Ejemplos de KPI son carritos de la compra abandonados, pedidos realizados, costes, precios y gastos asignados a la carga de trabajo. Aunque es posible recopilar datos de telemetría de varios componentes, seleccione un subconjunto que le proporcione información sobre el estado general de la carga de trabajo. Ajuste las métricas de la carga de trabajo a lo largo del tiempo a medida que cambien las necesidades empresariales. 

 **Resultado deseado:** 
+  Ha identificado métricas que validan la consecución de KPI que reflejan los resultados empresariales. 
+  Dispone de métricas que muestran una visión coherente del estado de la carga de trabajo. 
+  Las métricas de la carga de trabajo se evalúan periódicamente conforme cambian las necesidades de la empresa. 

 **Antipatrones usuales:** 
+ Supervisa todas las aplicaciones de su carga de trabajo, pero no puede determinar si la carga de trabajo logra resultados empresariales.
+ Ha definido métricas de la carga de trabajo, pero no están asociadas a ningún KPI empresarial.

 **Beneficios de establecer esta práctica recomendada:** 
+  Puede medir la carga de trabajo en función de la consecución de resultados empresariales. 
+  Sabrá si la carga de trabajo se encuentra en buen estado o si necesita realizar alguna intervención. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 El objetivo de esta práctica recomendada es obtener una respuesta a la siguiente pregunta: ¿está en buen estado mi carga de trabajo? El estado de la carga de trabajo se determina por la consecución de resultados empresariales y el estado de las aplicaciones y los componentes de la carga de trabajo. Trabaje en sentido inverso a partir de los KPI empresariales para identificar las métricas. Identifique las métricas clave de los componentes y las aplicaciones. Evalúe periódicamente las métricas de la carga de trabajo conforme cambien las necesidades de la empresa. 

 **Ejemplo de cliente** 

 En AnyCompany Retail el estado de la carga de trabajo se determina mediante una recopilación de métricas de aplicaciones y componentes. Al partir de los KPI empresariales, se identifican métricas, como el ritmo de pedidos, que permiten demostrar que se están logrando resultados empresariales. También incluyen métricas clave de la aplicación, como la respuesta de la página, y métricas de los componentes, como las conexiones abiertas a bases de datos. Cada trimestre, se vuelven a evaluar las métricas de la carga de trabajo con objeto de garantizar que sigan siendo válidas para determinar el estado de la carga de trabajo. 

 **Pasos para la implementación** 

1.  A partir de los KPI empresariales, identifique las métricas que muestren que está logrando resultados empresariales. Si hay KPI que no tengan métricas, instrumente la carga de trabajo con métricas adicionales para los KPI comerciales que falten. 

   1.  Puede publicar métricas personalizadas de sus aplicaciones en [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html). 

   1.  [AWS Distro for OpenTelemetry](https://aws-otel.github.io/) permite recopilar métricas de aplicaciones existentes que se pueden utilizar para añadir nuevas métricas. 

   1.  Los clientes con Enterprise Support pueden solicitar el taller[Building a Monitoring Strategy](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) (Creación de una estrategia de supervisión) a su gerente técnico de cuentas. Este taller le ayudará a erigir una estrategia de observabilidad para su carga de trabajo. 

1.  Identifique métricas para aplicaciones y componentes en la carga de trabajo. ¿Cuáles son las métricas clave que muestran el estado de los componentes y aplicaciones individuales? Las aplicaciones y los componentes pueden producir muchas métricas diferentes; elija de una o tres métricas clave que muestren el estado general. 

1.  Implante un mecanismo para evaluar periódicamente las métricas de la carga de trabajo. Cuando cambien los KPI empresariales, colabore con las partes interesadas para actualizar las métricas de la carga de trabajo. A medida que evolucionen los componentes y las aplicaciones de la carga de trabajo, ajuste las métricas de la carga de trabajo. 

 **Nivel de esfuerzo para el plan de implementación:** medio. La adición de métricas de los KPI empresariales a las aplicaciones puede requerir un esfuerzo moderado. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Implementar telemetría de aplicaciones](ops_telemetry_application_telemetry.md) - Su aplicación debe emitir telemetría que respalde los resultados empresariales. 
+  [OPS04-BP02 Implementar y configurar telemetría de cargas de trabajo](ops_telemetry_workload_telemetry.md) - Debe instrumentar su carga de trabajo para que emita telemetría antes de definir las métricas de la carga de trabajo que respalden los resultados empresariales. 
+  [OPS08-BP01 Identificar los indicadores clave de rendimiento](ops_workload_health_define_workload_kpis.md) - Antes de seleccionar las métricas de la carga de trabajo debe identificar los indicadores clave de rendimiento. 

 **Documentos relacionados:** 
+ [ Adding metrics and traces to your application on Amazon EKS with AWS Distro for OpenTelemetry, AWS X-Ray, and Amazon CloudWatch](https://aws.amazon.com/blogs/mt/adding-metrics-and-traces-to-your-application-on-amazon-eks-with-aws-distro-for-opentelemetry-aws-x-ray-and-amazon-cloudwatch/) (Añadir métricas y rastreos a su aplicación en Amazon EKS con AWS Distro for OpenTelemetry, AWS X-Ray y Amazon CloudWatch)
+ [ Instrumenting distributed systems for operational visibility](https://aws.amazon.com/builders-library/instrumenting-distributed-systems-for-operational-visibility/) (Instrumentación de los sistemas distribuidos para la visibilidad de las operaciones)
+ [ Implementing health checks](https://aws.amazon.com/builders-library/implementing-health-checks/) (Implementación de comprobaciones de estado)
+ [Cómo supervisar aplicaciones eficazmente](https://aws.amazon.com/startups/start-building/how-to-monitor-applications/)
+ [ How to better monitor your custom application metrics using Amazon CloudWatch Agent](https://aws.amazon.com/blogs/devops/new-how-to-better-monitor-your-custom-application-metrics-using-amazon-cloudwatch-agent/) (Cómo supervisar mejor las métricas de su aplicación personalizada con Amazon CloudWatch Agent)

 **Vídeos relacionados: ** 
+ [AWS re:Invent 2020: Monitoring production services at Amazon](https://www.youtube.com/watch?v=hnPcf_Czbvw) (AWS re:Invent 2020: Supervisión de los servicios de producción en Amazon)
+ [AWS re:Invent 2022 - Building observable applications with OpenTelemetry (BOA310)](https://www.youtube.com/watch?v=efk8XFJrW2c) (AWS re:Invent 2022: Creación de aplicaciones observables con OpenTelemetry)
+ [How to Easily Setup Application Monitoring for Your AWS Workloads - AWS Online Tech Talks](https://www.youtube.com/watch?v=LKCth30RqnA) (Cómo configurar fácilmente la supervisión de aplicaciones para sus cargas de trabajo de AWS: charlas técnicas en línea de AWS)
+ [Mastering Observability of Your Serverless Applications - AWS Online Tech Talks](https://www.youtube.com/watch?v=CtsiXhiAUq8) (Dominar la observabilidad de sus aplicaciones sin servidor: charlas técnicas en línea de AWS)

 **Ejemplos relacionados:** 
+ [Taller sobre observabilidad](https://catalog.workshops.aws/observability/en-US/intro)

 **Servicios relacionados:** 
+ [ Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [AWS Distro for OpenTelemetry ](https://aws-otel.github.io/)

# OPS08-BP03 Recopilar y analizar métricas de cargas de trabajo
<a name="ops_workload_health_collect_analyze_workload_metrics"></a>

Lleve a cabo revisiones periódicas y proactivas de las métricas de la carga de trabajo para identificar tendencias y determinar si es necesaria una respuesta y validar la consecución de resultados empresariales. Agregue las métricas de sus aplicaciones y componentes de la carga de trabajo a una ubicación central. Utilice paneles y herramientas de análisis para analizar la telemetría y determinar el estado de la carga de trabajo. Implemente un mecanismo para realizar revisiones periódicas del estado de la carga de trabajo con las partes interesadas en la organización. 

 **Resultado deseado:** 
+  Las métricas de la carga de trabajo se recopilan en una ubicación central. 
+  Se utilizan paneles y herramientas de análisis para analizar las tendencias del estado de la carga de trabajo. 
+  Lleva a cabo revisiones periódicas de las métricas de la carga de trabajo con su organización. 

 **Antipatrones usuales:** 
+  La organización recopila métricas de la carga de trabajo en dos plataformas de observabilidad diferentes. No es capaz de determinar el estado de la carga de trabajo porque las plataformas son incompatibles. 
+  Los índices de error de un componente de la carga de trabajo aumenta poco a poco. No se da cuenta de esta tendencia porque su organización no realiza revisiones periódicas de las métricas de la carga de trabajo. Se produce un error en el componente al cabo de una semana, lo que afecta a la carga de trabajo. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Ha aumentado la concienciación sobre el estado de la carga de trabajo y la consecución de resultados empresariales. 
+  Las tendencias del estado de la carga de trabajo pueden desarrollarse a lo largo del tiempo. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Recopile métricas de la carga de trabajo en una ubicación central. Por medio de paneles y herramientas de análisis, estudie las métricas de la carga de trabajo para obtener información sobre el estado de la carga de trabajo, desarrollar tendencias de estado de la carga de trabajo y validar la consecución de resultados empresariales. Implemente un mecanismo para realizar revisiones periódicas de las métricas de la carga de trabajo. 

 **Ejemplo de cliente** 

 AnyCompany Retail lleva a cabo revisiones de las métricas de carga de trabajo todos los miércoles. Reúne a las partes interesadas de toda la empresa y repasa las métricas de la semana anterior. Durante la reunión, se destacan las tendencias y las ideas extraídas de las herramientas de análisis. Se publican paneles internos con métricas clave de la carga de trabajo que todos los empleados pueden ver y consultar. 

 **Pasos para la implementación** 

1.  Identifique las métricas de la carga de trabajo que están vinculadas al estado de la carga de trabajo. Empezando por los KPI empresariales, identifique las métricas de las aplicaciones, componentes y plataformas que proporcionan una visión general del estado de la carga de trabajo. 

   1.  Puede publicar las métricas personalizadas en [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html). Puede aprovechar el [agente Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Install-CloudWatch-Agent.html) para recopilar métricas y registros de instancias Amazon EC2 y servidores locales. 

   1.  [AWS Distro for OpenTelemetry](https://aws-otel.github.io/) permite recopilar métricas de aplicaciones existentes que se pueden utilizar para añadir nuevas métricas. 

   1.  Los clientes con Enterprise Support pueden solicitar el taller [Building a Monitoring Strategy Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) (Creación de una estrategia de supervisión) a su gerente técnico de cuentas. Este taller le ayuda a erigir una estrategia de observabilidad para su carga de trabajo. 

1.  Recopile métricas de la carga de trabajo en una plataforma central. Si las métricas de la carga de trabajo se dividen entre diferentes plataformas, puede resultar difícil analizar y desarrollar tendencias. La plataforma debe disponer de paneles y capacidades analíticas. 

   1.  [Amazon CloudWatch](https://docs.aws.amazon.com/) puede recopilar y conservar métricas de la carga de trabajo. En las topologías multicuenta, se recomienda disponer de una [cuenta central de registro y supervisión](https://docs.aws.amazon.com/prescriptive-guidance/latest/security-reference-architecture/log-archive.html), denominada *cuenta de archivo de registros*. 

1.  Cree un panel consolidado de métricas de la carga de trabajo. Utilice esta vista para hacer revisiones de métricas y analizar tendencias. 

   1.  Puede crear [paneles de CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) personalizados para recopilar las métricas de la carga de trabajo en una vista consolidada. 

1.  Implemente un proceso de revisión de las métricas de la carga de trabajo. Con una periodicidad semanal, quincenal o mensual, revise las métricas de la carga de trabajo con las partes interesadas, incluido el personal técnico y no técnico. Utilice estas sesiones de revisión para identificar tendencias y obtener información sobre el estado de la carga de trabajo. 

 **Nivel de esfuerzo para el plan de implementación:** alto. Si las métricas de la carga de trabajo no se recopilan de forma centralizada, podría ser necesario efectuar una inversión significativa para consolidarlas en una plataforma. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP01 Identificar los indicadores clave de rendimiento](ops_workload_health_define_workload_kpis.md) - Antes de seleccionar las métricas de la carga de trabajo debe identificar los indicadores clave de rendimiento. 
+  [OPS08-BP02 Definir las métricas de las cargas de trabajo](ops_workload_health_design_workload_metrics.md) - Debe definir las métricas de la carga de trabajo antes de recopilarlas y analizarlas. 

 **Documentos relacionados:** 
+ [ Power operational insights with Amazon Quick](https://aws.amazon.com/blogs/big-data/power-operational-insights-with-amazon-quicksight/) (Potenciar la información operativa con Amazon Quick)
+ [ Using Amazon CloudWatch dashboards custom widgets](https://aws.amazon.com/blogs/mt/introducing-amazon-cloudwatch-dashboards-custom-widgets/) (Uso de los widgets personalizados de los paneles de Amazon CloudWatch)

 **Vídeos relacionados: ** 
+ [ Create Cross Account & Cross Region CloudWatch Dashboards](https://www.youtube.com/watch?v=eIUZdaqColg) (Crear paneles de CloudWatch entre cuentas y regiones)
+ [ Monitor AWS Resources Using Amazon CloudWatch Dashboards](https://www.youtube.com/watch?v=I7EFLChc07M) (Supervisión de los recursos de AWS con paneles de Amazon CloudWatch)

 **Ejemplos relacionados:** 
+ [AWS Management and Governance Tools Workshop - CloudWatch Dashboards](https://mng.workshop.aws/operations-2022/detect/cwdashboard.html) (Taller de herramientas de administración y gobernanza de AWS: paneles de CloudWatch)
+ [ Well-Architected Labs - Level 100: Monitoring with CloudWatch Dashboards](https://www.wellarchitectedlabs.com/performance-efficiency/100_labs/100_monitoring_with_cloudwatch_dashboards/) (Laboratorios de Well-Architected - Nivel 100: Supervisión con paneles de CloudWatch)

 **Servicios relacionados:** 
+  [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 
+ [AWS Distro for OpenTelemetry](https://aws-otel.github.io/)

# OPS08-BP04 Establecer puntos de referencias de métricas de cargas de trabajo
<a name="ops_workload_health_workload_metric_baselines"></a>

El establecimiento de un punto de referencia para las métricas de la carga de trabajo ayuda a comprender el estado y el rendimiento de la carga de trabajo. Mediante el uso de líneas de referencia, es posible identificar aplicaciones y componentes de bajo y alto rendimiento. Una línea de referencia de la carga de trabajo aumenta su capacidad de mitigar los contratiempos antes de que se conviertan en incidentes. Las líneas de referencia son fundamentales para desarrollar patrones de actividad e implementar la detección de anomalías cuando las métricas se desvían de los valores esperados. 

 **Resultado deseado:** 
+  Dispone de un nivel de referencia de las métricas de la carga de trabajo en condiciones normales. 
+  Puede determinar si la carga de trabajo funciona con normalidad. 

 **Antipatrones usuales:** 
+  Tras el despliegue de una nueva característica, se produce un descenso de la latencia de las solicitudes. No se ha establecido una línea de referencia para una métrica compuesta de solicitudes entrantes procesadas y de latencia global. No es posible determinar si el cambio ha causado una mejora o un defecto. 
+  Se produce un pico repentino en la actividad de los usuarios, pero no se ha establecido una línea de referencia de las métricas. El pico de actividad conduce lentamente a una pérdida de memoria de una aplicación. Con el tiempo, la carga de trabajo pierde la conexión. 

 **Beneficios de establecer esta práctica recomendada:** 
+  Comprenderá el patrón normal de actividad de su carga de trabajo mediante métricas para componentes y aplicaciones clave. 
+  Podrá determinar si la carga de trabajo, las aplicaciones y los componentes se comportan con normalidad o si es preciso una intervención. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** medio 

## Guía para la implementación
<a name="implementation-guidance"></a>

 Utilice datos históricos para establecer una línea de referencia de las métricas de la carga de trabajo para aplicaciones y componentes de su carga de trabajo. Utilice la línea de referencia de las métricas en las reuniones de revisión de métricas y en la solución de problemas. Revise periódicamente el rendimiento de la carga de trabajo y ajuste la línea de referencia a medida que evoluciona la arquitectura. 

 **Ejemplo de cliente** 

 Se establecen líneas de referencia para todos los componentes y aplicaciones de AnyCompany Retail. Utilizando datos históricos, AnyCompany Retail desarrolló sus líneas de referencia de las métricas de la carga de trabajo en un intervalo de medición de dos meses. Cada dos meses se vuelven a evaluar las líneas de referencia y se ajustan en función de los datos de la vida real. 

 **Pasos para la implementación** 

1.  Trabajando en sentido inverso de las métricas de la carga de trabajo, establezca una línea de referencia de las métricas de los componentes y aplicaciones clave mediante los datos históricos. Limite el número de métricas por componente o aplicación y evite la fatiga visual. 

   1.  Puede utilizar [Amazon CloudWatch Metrics Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/query_with_cloudwatch-metrics-insights.html) para consultar métricas a escala e identificar tendencias y patrones. 

   1.  La [detección de anomalías de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) utiliza algoritmos de machine learning para identificar patrones de comportamiento de las métricas, determinar líneas de referencia y revelar anomalías. 

   1.  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) ofrece la posibilidad de detectar problemas operativos de la carga de trabajo mediante machine learning. 

   1.  Los clientes con Enterprise Support pueden solicitar el taller [Building a Monitoring Strategy Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/) (Creación de una estrategia de supervisión) a su gerente técnico de cuentas. Este taller le ayudará a erigir una estrategia de observabilidad para su carga de trabajo. 

1.  Ponga en práctica un mecanismo para revisar periódicamente las líneas de referencia de las métricas de la carga de trabajo, especialmente antes de eventos empresariales significativos. Al menos una vez cada trimestre, evalúe la línea de referencia de su métrica de carga de trabajo por medio de los datos históricos. Utilice la línea de referencia en las reuniones de revisión de métricas. 

 **Nivel de esfuerzo para el plan de implementación:** bajo. Una vez instauradas las métricas de la carga de trabajo, el establecimiento de líneas de referencia requerirá la recopilación de una cantidad suficientes datos para identificar patrones normales de comportamiento. 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS08-BP02 Definir las métricas de las cargas de trabajo](ops_workload_health_design_workload_metrics.md) - En primer lugar, deben establecerse los parámetros de la carga de trabajo antes de determinar las líneas de referencia. 
+  [OPS08-BP03 Recopilar y analizar métricas de cargas de trabajo](ops_workload_health_collect_analyze_workload_metrics.md) - Es necesario recopilar y analizar las métricas de la carga de trabajo antes de establecer las líneas de referencia de las métricas. 
+  [OPS08-BP05 Descubrir los patrones esperados de actividad para la carga de trabajo](ops_workload_health_learn_workload_usage_patterns.md) - Esta práctica recomendada se basa en la línea de referencia para desarrollar tendencias de uso. 
+  [OPS08-BP06 Alertar cuando los resultados de la carga de trabajo corren riesgo](ops_workload_health_workload_outcome_alerts.md) - Las líneas de referencia de las métricas son necesarias para identificar umbrales y perfeccionar alertas. 
+  [OPS08-BP07 Alertar cuando se detectan anomalías en la carga de trabajo](ops_workload_health_workload_anomaly_alerts.md) - La detección de anomalías exige el establecimiento de líneas de referencia de las métricas. 

 **Documentos relacionados:** 
+ [AWS Observability Best Practices - Alarms](https://aws-observability.github.io/observability-best-practices/tools/alarms/) (Prácticas recomendadas de observabilidad de AWS: alarmas)
+ [Cómo supervisar aplicaciones eficazmente](https://aws.amazon.com/startups/start-building/how-to-monitor-applications/)
+ [ How to set up CloudWatch Anomaly Detection to set dynamic alarms, automate actions, and drive online sales](https://aws.amazon.com/blogs/mt/how-to-set-up-cloudwatch-anomaly-detection-to-set-dynamic-alarms-automate-actions-and-drive-online-sales/) (Cómo configurar la detección de anomalías de CloudWatch para establecer alarmas dinámicas, automatizar acciones y fomentar las ventas en línea)
+ [ Operationalizing CloudWatch Anomaly Detection](https://aws.amazon.com/blogs/mt/operationalizing-cloudwatch-anomaly-detection/) (Operatividad de la detección de CloudWatch)

 **Vídeos relacionados: ** 
+ [AWS re:Invent 2020: Monitoring production services at Amazon](https://www.youtube.com/watch?v=hnPcf_Czbvw) (AWS re:Invent 2020: Supervisión de los servicios de producción en Amazon)
+ [AWS re:Invent 2021- Get insights from operational metrics at scale with CloudWatch Metrics Insights](https://www.youtube.com/watch?v=xKib0xvbIfo) (AWS re:Invent 2021: Obtenga información de las métricas operativas a escala con CloudWatch Metrics Insights)
+ [AWS re:Invent 2022 - Developing an observability strategy (COP302)](https://www.youtube.com/watch?v=Ub3ATriFapQ) (AWS re:Invent 2022: Desarrollo de una estrategia de observabilidad)
+ [AWS Summit DC 2022 - Monitoring and observability for modern applications](https://www.youtube.com/watch?v=AHiuyT0B5Gk) (Supervisión y observabilidad de las aplicaciones modernas)
+ [AWS Summit SF 2022 - Full-stack observability and application monitoring with AWS (COP310)](https://www.youtube.com/watch?v=or7uFFyHIX0) (Observabilidad completa y supervisión de aplicaciones con AWS)

 **Ejemplos relacionados:** 
+ [AWS CloudTrail and Amazon CloudWatch Integration Workshop](https://catalog.us-east-1.prod.workshops.aws/workshops/2e48b9fc-f721-4417-b811-962b7f31b61c/en-US) (Taller de integración de AWS CloudTrail y Amazon CloudWatch)

 **Servicios relacionados:** 
+ [ Amazon CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [ Amazon DevOps Guru ](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html)

# OPS08-BP05 Descubrir los patrones esperados de actividad para la carga de trabajo
<a name="ops_workload_health_learn_workload_usage_patterns"></a>

 Establezca patrones de actividad de la carga de trabajo para identificar comportamientos anómalos, de modo que pueda responder adecuadamente cuando sea necesario. 

 CloudWatch a través de la función [Detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) aplica algoritmos estadísticos y de machine learning para generar un rango de valores esperados que representan el comportamiento normal de las métricas. 

 [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) puede utilizarse para identificar comportamientos anómalos mediante la correlación de eventos, el análisis de registros y la aplicación de machine learning para analizar la telemetría de la carga de trabajo. Cuando se detectan comportamientos inesperados, proporciona las [métricas y los eventos relacionados](https://docs.aws.amazon.com/devops-guru/latest/userguide/understanding-insights-console.html) con recomendaciones para abordar el comportamiento. 

 **Patrones de uso no recomendados comunes:** 
+  Está revisando los registros de utilización de la red y ve que la utilización de la red aumentó entre las 11:30 h y las 13:30 h y luego de nuevo entre las 16:30 h y las 18:00 h. No sabe si esto debe considerarse normal o no. 
+  Sus servidores web se reinician cada noche a las 3:00 h. No sabe si este es un comportamiento esperado. 

 **Beneficios de establecer esta práctica recomendada:** al aprender patrones de comportamiento, puede reconocer comportamientos inesperados y adoptar medidas en caso necesario. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Descubrir los patrones esperados de actividad para la carga de trabajo: establezca patrones de actividad de la carga de trabajo para determinar cuando el comportamiento está fuera de los valores esperados para que pueda responder apropiadamente si es necesario. 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon DevOps Guru](https://docs.aws.amazon.com/devops-guru/latest/userguide/welcome.html) 
+  [Detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 

# OPS08-BP06 Alertar cuando los resultados de la carga de trabajo corren riesgo
<a name="ops_workload_health_workload_outcome_alerts"></a>

 Emita una alerta cuando los resultados de la carga de trabajo corran riesgo para que pueda responder apropiadamente en caso necesario. 

 Lo ideal es que haya identificado previamente un umbral de métrica sobre el que pueda emitir una alarma o un evento que pueda utilizar para activar una respuesta automática. 

 En AWS, puede usar [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) para crear scripts de valor controlado para supervisar sus puntos de conexión y las API realizando las mismas acciones que sus clientes. La telemetría generada y la [información obtenida](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries_Details.html) pueden permitirle identificar los problemas antes de que sus clientes se vean afectados. 

 También puede utilizar [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) para buscar y analizar de forma interactiva sus datos de registro utilizando un lenguaje de consulta especialmente diseñado. CloudWatch Logs Insights automáticamente [descubre los campos en los registros,](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData-discoverable-fields.html) desde servicios de AWS y eventos de registros personalizados en JSON. Se adapta a su volumen de registros y a la complejidad de las consultas y le ofrece respuestas en segundos, ayudándole a buscar los factores que contribuyen a un incidente. 

 **Antipatrones usuales:** 
+  No tiene conectividad a la red. Nadie se da cuenta. Nadie trata de identificar el motivo ni de tomar medidas para restablecer la conectividad. 
+  Tras un parche, sus instancias persistentes han dejado de estar disponibles, interrumpiendo a los usuarios. Sus usuarios han abierto casos de asistencia. No se ha notificado a nadie. Nadie está tomando medidas. 

 **Beneficios de establecer esta práctica recomendada:** Al identificar que los resultados empresariales están en riesgo y alertar para que se tomen medidas, se tiene la oportunidad de prevenir o mitigar el impacto de un incidente. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Mediana 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Alertar cuando los resultados de la carga de trabajo están en riesgo: emita una alerta cuando los resultados de la carga de trabajo estén en riesgo para que pueda responder apropiadamente si es necesario. 
  +  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocación de funciones de Lambda utilizando notificaciones de Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Amazon CloudWatch Synthetics](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Synthetics_Canaries.html) 
+  [CloudWatch Logs Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AnalyzingLogData.html) 
+  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Invocación de funciones de Lambda utilizando notificaciones de Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP07 Alertar cuando se detectan anomalías en la carga de trabajo
<a name="ops_workload_health_workload_anomaly_alerts"></a>

 Emita una alerta cuando se detecten anomalías en la carga de trabajo para poder responder adecuadamente en caso necesario. 

 El análisis de las métricas de la carga de trabajo a lo largo del tiempo puede establecer patrones de comportamiento que puede cuantificar lo suficiente como para definir un evento o dar una alarma en respuesta. 

 Una vez entrenada, la función [Detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) se puede usar para [alertar](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) sobre las anomalías detectadas o puede proporcionar valores esperados superpuestos en un [gráfico](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/graph_a_metric.html#create-metric-graph) de datos métricos para una comparación continua. 

 **Antipatrones usuales:** 
+  Las ventas de su sitio web de venta al por menor han aumentado de forma repentina y espectacular. Nadie se da cuenta. Nadie está tratando de identificar lo que generó este aumento. Nadie está tomando medidas para garantizar la calidad de las experiencias de los clientes bajo la carga adicional. 
+  Tras la aplicación de un parche, sus servidores persistentes se reinician con frecuencia, interrumpiendo a los usuarios. Sus servidores suelen reiniciarse hasta tres veces, pero no más de eso. Nadie se da cuenta. Nadie trata de identificar por qué ocurre esto. 

 **Beneficios de establecer esta práctica recomendada:** Al comprender los patrones de comportamiento de la carga de trabajo, puede identificar comportamientos inesperados y adoptar medidas en caso necesario. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Bajo 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Alertar cuando se detectan anomalías en la carga de trabajo: emita una alerta cuando se detecten anomalías en la carga de trabajo para poder responder adecuadamente si es necesario. 
  +  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 
  +  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
  +  [Invocación de funciones de Lambda utilizando notificaciones de Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Creación de alarmas de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [Detección de anomalías de CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 
+  [Invocación de funciones de Lambda utilizando notificaciones de Amazon SNS](https://docs.aws.amazon.com/sns/latest/dg/sns-lambda.html) 
+  [¿Qué es Amazon CloudWatch Events?](https://docs.aws.amazon.com/AmazonCloudWatch/latest/events/WhatIsCloudWatchEvents.html) 

# OPS08-BP08 Validar el logro de resultados y la efectividad de los KPI y las métricas
<a name="ops_workload_health_biz_level_view_workload"></a>

 Cree una visión a nivel empresarial de sus operaciones de carga de trabajo para determinar si está satisfaciendo las necesidades e identificar las áreas que necesitan mejoras para alcanzar los objetivos empresariales. Valide la eficacia de los KPI y las métricas y revíselos si es necesario. 

 AWS también brinda asistencia para sistemas de análisis de registros de terceros y herramientas de inteligencia comercial a través de las API y SDK del servicio de AWS (por ejemplo, Grafana, Kibana y Logstash). 

 **Patrones de uso no recomendados comunes:** 
+  El tiempo de respuesta de las páginas nunca se ha considerado un factor que contribuya a la satisfacción del cliente. Nunca se ha establecido una métrica o un umbral para el tiempo de respuesta de las páginas. Sus clientes se quejan de la lentitud. 
+  No ha alcanzado sus objetivos de tiempo de respuesta mínimo. En un esfuerzo por mejorar el tiempo de respuesta, ha escalado sus servidores de aplicaciones. Ahora está superando los objetivos de tiempo de respuesta por un margen significativo y también tiene una importante capacidad no utilizada por la que está pagando. 

 **Beneficios de establecer esta práctica recomendada:** al examinar y revisar los KPI y las métricas, comprenderá cómo su carga de trabajo contribuye a la consecución de los resultados de la empresa y podrá identificar los aspectos que deben mejorarse para alcanzar los objetivos empresariales. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Bajo 

## Guía para la implementación
<a name="implementation-guidance"></a>
+  Validar el logro de resultados y la efectividad de los KPI y las métricas: cree una visión a nivel empresarial de las operaciones de las cargas de trabajo para determinar si está satisfaciendo las necesidades e identificar las áreas que necesitan mejoras para alcanzar los objetivos empresariales. Valide la eficacia de los KPI y las métricas y revíselos si es necesario. 
  +  [Uso de paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
  +  [¿Qué es el análisis de registros?](https://aws.amazon.com/log-analytics/) 

## Recursos
<a name="resources"></a>

 **Documentos relacionados:** 
+  [Uso de paneles de Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Dashboards.html) 
+  [¿Qué es el análisis de registros?](https://aws.amazon.com/log-analytics/) 