

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Prácticas recomendadas para la emisión de alertas en Amazon EKS
<a name="alerting-best-practices"></a>

En esta sección se describen las prácticas recomendadas para crear un sistema de alertas sólido que mejore la fiabilidad y el rendimiento de las aplicaciones basadas en Kubernetes en Amazon EKS.

Defina umbrales de alerta claros:
+ Establezca umbrales significativos en función de los datos históricos y los requisitos empresariales.
+ Utilice umbrales dinámicos cuando proceda para tener en cuenta las diferentes cargas de trabajo.

Implemente la priorización de alertas:
+ Clasifique las alertas por gravedad (por ejemplo, críticas, altas, medias o bajas).
+ Alinee las prioridades de las alertas con el impacto empresarial.

Evite la fatiga de las alertas:
+ Reduzca el ruido eliminando las alertas redundantes o de bajo valor.
+ Correlaciona las alertas con los problemas relacionados con el grupo.

Utilice alertas en varias etapas:
+ Implemente umbrales de advertencia antes de que se alcancen los niveles críticos.
+ Utilice diferentes canales de notificación para diferentes niveles de gravedad de las alertas.

Implemente un enrutamiento de alertas adecuado:
+ Asegúrese de que las alertas se envíen a los equipos o personas correctos.
+ Utilice los horarios y rotaciones de guardia para obtener cobertura durante todo el día y todos los días.

Aproveche las métricas nativas de Kubernetes:
+ Supervise los componentes principales de Kubernetes (nodos, pods, servicios).
+ Usa [kube-state-metrics (KSM)](https://github.com/kubernetes/kube-state-metrics) para obtener métricas adicionales de objetos de Kubernetes.

Supervise tanto la infraestructura como las aplicaciones:
+ Configure alertas sobre el estado del clúster, el estado de los nodos y la utilización de los recursos.
+ Implemente alertas específicas de la aplicación, como las tasas de error y la latencia.

Utilice Prometheus y Alertmanager:
+ Utilice Prometheus para la recopilación de métricas y ProMQL para definir las condiciones de alerta.
+ Utilice Alertmanager para el enrutamiento y la deduplicación de alertas.

Integre con Amazon CloudWatch:
+ Usa [CloudWatchContainer Insights para obtener](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) métricas específicas de Amazon EKS.
+ Configure [CloudWatchalarmas para las](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) métricas de AWS recursos críticos.

Implemente alertas contextuales:
+ Incluya información relevante en los mensajes de alerta, como el nombre del clúster, el espacio de nombres y los detalles del pod.
+ Proporcione enlaces a los cuadros de mando o manuales relevantes en las alertas.

Utilice la detección de anomalías:
+ Implemente la detección de anomalías basada en el aprendizaje automático para patrones complejos.
+ Utilice servicios como la detección de CloudWatch anomalías o herramientas de terceros.

Implemente la supresión y el silenciamiento de alertas:
+ Permita la supresión temporal de los problemas conocidos.
+ Implemente períodos de mantenimiento para reducir el ruido durante los tiempos de inactividad planificados.

Supervise el rendimiento de las alertas:
+ Realice un seguimiento de métricas como la frecuencia de las alertas, el tiempo de resolución y las tasas de falsos positivos.
+ Revisa y refina periódicamente las reglas de alerta en función de estas métricas.

Implemente procedimientos de escalamiento:
+ Defina rutas de escalamiento claras para las alertas no resueltas.
+ Utilice herramientas como PagerDuty Opsgenie para las escalaciones automatizadas.

Pruebe los sistemas de alerta con regularidad:
+ Realice pruebas periódicas de su canal de alertas.
+ Incluya las pruebas de alerta en los simulacros de recuperación ante desastres.

Utilice plantillas para mantener la coherencia de las alertas:
+ Cree plantillas de alertas estandarizadas para escenarios comunes.
+ Garantice la coherencia del formato y la información en todas las alertas.

Implemente una limitación de velocidad:
+ Prevenga las tormentas de alertas implementando una limitación de frecuencia en las alertas que se activan con frecuencia.

Usa métricas personalizadas:
+ Implemente métricas personalizadas para el monitoreo específico de la aplicación.
+ Usa la API de métricas personalizadas de Kubernetes para realizar un escalado automático en función de estas métricas.

Implemente la integración de registros:
+ Correlaciona las alertas con los registros relevantes para una solución de problemas más rápida.
+ Utilice herramientas como Grafana Loki o ELK Stack junto con su sistema de alertas.

Considera las alertas de costos:
+ Configure alertas en caso de picos inesperados en el uso de los recursos o los costos.
+ Utilice [AWS Budgets](https://docs.aws.amazon.com/cost-management/latest/userguide/budgets-managing-costs.html)herramientas de gestión de costes de terceros.

Utilice el rastreo distribuido:
+ Integre herramientas de rastreo distribuido como Jaeger o. [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)
+ Configure alertas para detectar patrones de rastreo o latencias anormales.

Documente los manuales de alertas:
+ Cree manuales claros y procesables para cada tipo de alerta.
+ Incluya los pasos de solución de problemas y los procedimientos de escalamiento en los manuales de instrucciones.

Si sigue estas prácticas recomendadas, puede crear un sistema de alertas sólido, eficiente y eficaz para su entorno de Amazon EKS. Esto ayudará a garantizar la alta disponibilidad, la rápida resolución de problemas y el rendimiento óptimo de sus aplicaciones basadas en Kubernetes.