

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Alertas en Amazon EKS
<a name="alerting"></a>

Las alertas son un componente fundamental de la administración y el mantenimiento de las aplicaciones que se ejecutan en Amazon EKS. Sirve como un sistema de alerta temprana que notifica a los operadores y desarrolladores sobre posibles problemas, anomalías o degradaciones del rendimiento antes de que se conviertan en problemas graves que puedan afectar a la disponibilidad del servicio o a la experiencia del usuario. Las alertas implican la supervisión de varios aspectos del clúster de Kubernetes, entre los que se incluyen:
+ Estado de la infraestructura
+ Rendimiento de las aplicaciones
+ Métricas de contenedores
+ Métricas empresariales personalizadas

Las alertas eficaces en Amazon EKS van más allá de la simple configuración de notificaciones. Requiere una well-thought-out estrategia que equilibre la necesidad de información puntual con la posibilidad de agotar las alertas. Esta estrategia debería:
+ Defina umbrales y condiciones significativos.
+ Priorice las alertas en función de la gravedad y el impacto.
+ Implemente los procedimientos de enrutamiento y escalamiento adecuados.
+ Intégrelo con las herramientas de comunicación y gestión de incidentes.

**Topics**
+ [Tools (Herramientas)](alerting-tools.md)
+ [Prácticas recomendadas](alerting-best-practices.md)

# Herramientas de alertas para Amazon EKS
<a name="alerting-tools"></a>

Amazon EKS admite varias opciones AWS y opciones de terceros para implementar alertas. Cuando elija una herramienta para las alertas de Amazon EKS, tenga en cuenta factores como las capacidades de integración, la escalabilidad, la facilidad de uso, el costo y las características específicas que se adapten a sus requisitos de monitoreo y alertas. Muchas organizaciones utilizan una combinación de estas herramientas para crear una solución integral de supervisión y alertas para sus entornos Amazon EKS.
+ [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html): **Servicio de AWS **para monitoreo y observabilidad

  CloudWatch proporciona métricas, registros y alarmas para los clústeres de EKS y se integra bien con otros Servicios de AWS.
+ [Prometheus](https://docs.aws.amazon.com/eks/latest/userguide/deploy-prometheus.html): herramienta de monitoreo y alertas de código abierto para Kubernetes

  Prometheus proporciona un potente lenguaje de consulta (ProMQL) para definir las condiciones de alerta.
+ [Alertmanager](https://prometheus.io/docs/alerting/latest/alertmanager/): el complemento de Prometheus para gestionar las alertas

  Alertmanager permite deduplicar, agrupar y enrutar las alertas. Es compatible con varios canales de notificación, incluidos el correo electrónico, Slack y. PagerDuty
+ [Grafana](https://aws.amazon.com/grafana/): plataforma de código abierto para monitoreo y observabilidad

  Grafana proporciona capacidades de visualización y alerta. Se puede integrar con varias fuentes de datos, incluidas CloudWatch Prometheus y.
+ [Elastic Stack (ELK Stack)](https://aws.amazon.com/what-is/elk-stack/): combinación de Elasticsearch, Logstash y Kibana

  Esta herramienta es útil para la agregación, el análisis y las alertas de registros. Se puede ampliar con las funciones de observabilidad de Elastic.
+ Soluciones de terceros

  Hay muchas herramientas disponibles en el mercado, incluidas Datadog, New Relic, Sysdig, Dynatrace, Zabbix, Nagios, Splunk, IBM Instana y. AppDynamics

# Prácticas recomendadas para la emisión de alertas en Amazon EKS
<a name="alerting-best-practices"></a>

En esta sección se describen las prácticas recomendadas para crear un sistema de alertas sólido que mejore la fiabilidad y el rendimiento de las aplicaciones basadas en Kubernetes en Amazon EKS.

Defina umbrales de alerta claros:
+ Establezca umbrales significativos en función de los datos históricos y los requisitos empresariales.
+ Utilice umbrales dinámicos cuando proceda para tener en cuenta las diferentes cargas de trabajo.

Implemente la priorización de alertas:
+ Clasifique las alertas por gravedad (por ejemplo, críticas, altas, medias o bajas).
+ Alinee las prioridades de las alertas con el impacto empresarial.

Evite la fatiga de las alertas:
+ Reduzca el ruido eliminando las alertas redundantes o de bajo valor.
+ Correlaciona las alertas con los problemas relacionados con el grupo.

Utilice alertas en varias etapas:
+ Implemente umbrales de advertencia antes de que se alcancen los niveles críticos.
+ Utilice diferentes canales de notificación para diferentes niveles de gravedad de las alertas.

Implemente un enrutamiento de alertas adecuado:
+ Asegúrese de que las alertas se envíen a los equipos o personas correctos.
+ Utilice los horarios y rotaciones de guardia para obtener cobertura durante todo el día y todos los días.

Aproveche las métricas nativas de Kubernetes:
+ Supervise los componentes principales de Kubernetes (nodos, pods, servicios).
+ Usa [kube-state-metrics (KSM)](https://github.com/kubernetes/kube-state-metrics) para obtener métricas adicionales de objetos de Kubernetes.

Supervise tanto la infraestructura como las aplicaciones:
+ Configure alertas sobre el estado del clúster, el estado de los nodos y la utilización de los recursos.
+ Implemente alertas específicas de la aplicación, como las tasas de error y la latencia.

Utilice Prometheus y Alertmanager:
+ Utilice Prometheus para la recopilación de métricas y ProMQL para definir las condiciones de alerta.
+ Utilice Alertmanager para el enrutamiento y la deduplicación de alertas.

Integre con Amazon CloudWatch:
+ Usa [CloudWatchContainer Insights para obtener](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) métricas específicas de Amazon EKS.
+ Configure [CloudWatchalarmas para las](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) métricas de AWS recursos críticos.

Implemente alertas contextuales:
+ Incluya información relevante en los mensajes de alerta, como el nombre del clúster, el espacio de nombres y los detalles del pod.
+ Proporcione enlaces a los cuadros de mando o manuales relevantes en las alertas.

Utilice la detección de anomalías:
+ Implemente la detección de anomalías basada en el aprendizaje automático para patrones complejos.
+ Utilice servicios como la detección de CloudWatch anomalías o herramientas de terceros.

Implemente la supresión y el silenciamiento de alertas:
+ Permita la supresión temporal de los problemas conocidos.
+ Implemente períodos de mantenimiento para reducir el ruido durante los tiempos de inactividad planificados.

Supervise el rendimiento de las alertas:
+ Realice un seguimiento de métricas como la frecuencia de las alertas, el tiempo de resolución y las tasas de falsos positivos.
+ Revisa y refina periódicamente las reglas de alerta en función de estas métricas.

Implemente procedimientos de escalamiento:
+ Defina rutas de escalamiento claras para las alertas no resueltas.
+ Utilice herramientas como PagerDuty Opsgenie para las escalaciones automatizadas.

Pruebe los sistemas de alerta con regularidad:
+ Realice pruebas periódicas de su canal de alertas.
+ Incluya las pruebas de alerta en los simulacros de recuperación ante desastres.

Utilice plantillas para mantener la coherencia de las alertas:
+ Cree plantillas de alertas estandarizadas para escenarios comunes.
+ Garantice la coherencia del formato y la información en todas las alertas.

Implemente una limitación de velocidad:
+ Prevenga las tormentas de alertas implementando una limitación de frecuencia en las alertas que se activan con frecuencia.

Usa métricas personalizadas:
+ Implemente métricas personalizadas para el monitoreo específico de la aplicación.
+ Usa la API de métricas personalizadas de Kubernetes para realizar un escalado automático en función de estas métricas.

Implemente la integración de registros:
+ Correlaciona las alertas con los registros relevantes para una solución de problemas más rápida.
+ Utilice herramientas como Grafana Loki o ELK Stack junto con su sistema de alertas.

Considera las alertas de costos:
+ Configure alertas en caso de picos inesperados en el uso de los recursos o los costos.
+ Utilice [AWS Budgets](https://docs.aws.amazon.com/cost-management/latest/userguide/budgets-managing-costs.html)herramientas de gestión de costes de terceros.

Utilice el rastreo distribuido:
+ Integre herramientas de rastreo distribuido como Jaeger o. [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ Configure alertas para detectar patrones de rastreo o latencias anormales.

Documente los manuales de alertas:
+ Cree manuales claros y procesables para cada tipo de alerta.
+ Incluya los pasos de solución de problemas y los procedimientos de escalamiento en los manuales de instrucciones.

Si sigue estas prácticas recomendadas, puede crear un sistema de alertas sólido, eficiente y eficaz para su entorno de Amazon EKS. Esto ayudará a garantizar la alta disponibilidad, la rápida resolución de problemas y el rendimiento óptimo de sus aplicaciones basadas en Kubernetes.