Alertas de referencia en la supervisión y la gestión de incidentes para Amazon EKS en AMS Accelerate - Guía del usuario de AMS Accelerate

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Alertas de referencia en la supervisión y la gestión de incidentes para Amazon EKS en AMS Accelerate

Tras verificar las alertas, AMS habilita las siguientes alertas para Amazon EKS y, a continuación, se encarga de la supervisión y la gestión de incidentes de los clústeres de Amazon EKS seleccionados. El tiempo de respuesta, los acuerdos de nivel de servicio (SLAs) y los objetivos de nivel de servicio (SLOs) dependen del nivel de servicio (Plus, Premium) de la cuenta que haya seleccionado. Para obtener más información, consulte los informes de incidentes y las solicitudes de servicio en AMS Accelerate.

Alertas y acciones

En la siguiente tabla se enumeran las alertas de Amazon EKS y las acciones respectivas que lleva a cabo AMS:

Alerta Umbrales Acción

Container OOM ha muerto

El número total de contenedores reiniciados en los últimos 10 minutos es de al menos 1 y un contenedor de Kubernetes de un pod se ha cerrado por el motivo «OOMKilled» en los últimos 10 minutos.

AMS investiga si la causa del cierre de OOM se debe a que se ha alcanzado el límite de contenedores o a que se ha sobrepasado el límite de memoria y, a continuación, te aconseja qué medidas correctivas tomar.

Error en Pod Job

No se puede completar un trabajo de Kubernetes. El error se indica mediante la presencia de al menos un estado de trabajo fallido.

AMS investiga los motivos por los que el trabajo de Kubernetes o el trabajo cron correspondiente está fallando y, a continuación, le asesora sobre las medidas correctivas.

StatefulSet Abajo

La cantidad de réplicas listas para atender el tráfico no coincide con la cantidad actual de réplicas existentes StatefulSet durante al menos 1 minuto.

AMS determina por qué los pods no están preparados revisando los mensajes de error de los eventos de los pods y los fragmentos del registro de errores de los registros de los pods y, a continuación, le recomienda las medidas correctivas.

Capacidad de escalado de HPA

El escalador automático de cápsulas horizontales (HPA) no puede escalar debido a que la condición de estado «AbleToScale» es falsa durante al menos 2 minutos.

AMS determina qué escalador automático de pods horizontales (HPA) de Kubernetes no puede escalar los pods para su recurso de carga de trabajo posterior, como una implementación o. StatefulSet

Disponibilidad métrica de HPA

El escalador automático de cápsulas horizontales (HPA) no puede recopilar métricas debido a que la condición de estado «ScalingActive» es falsa durante al menos 2 minutos.

AMS determina por qué HPA no puede recopilar métricas, como las relacionadas con problemas de configuración del servidor o problemas de autorización del RBAC.

El pod no está listo

Un pod de Kubernetes permanece en estado inactivo (como pendiente, desconocido o fallido) durante más de 15 minutos.

AMS investiga los módulos afectados para obtener más información, revisa los registros de los módulos para detectar errores y eventos relacionados y, a continuación, le aconseja sobre las medidas correctivas.

Pod Crash Looping

Un contenedor de cápsulas se reinicia al menos una vez cada 15 minutos durante un período de 1 hora.

AMS investiga los motivos por los que el pod no se inicia, como recursos insuficientes, un archivo bloqueado por otro contenedor, una base de datos bloqueada por otro contenedor, fallos en las dependencias de los servicios, problemas de DNS en los servicios externos y errores de configuración.

Daemonset está mal programado

Hay al menos un pod de Daemonset de Kubernetes mal programado durante un período de 10 minutos.

AMS determina por qué un Daemonset está programado en un nodo en el que no debería ejecutarse. Esto puede ocurrir si se ha aplicado un pod incorrecto a nodeSelector/taints/affinities los pods de Daemonset o cuando los nodos (grupos de nodos) están contaminados y no se ha programado el desalojo de los pods existentes.

Errores de la API de Kubernetes

La tasa de errores del servidor de la API de Kubernetes supera el 3% en un período de 2 minutos.

AMS analiza los registros del plano de control para determinar el volumen y los tipos de errores que están causando esta alerta e identifica cualquier problema de contención de recursos en el nodo maestro o en los grupos de escalado automático, etc.d. Si el servidor de API no se recupera, AMS contacta con el equipo de servicio de Amazon EKS.

Latencia de la API de Kubernetes

La latencia del percentil 99 de las solicitudes al servidor de la API de Kubernetes supera 1 segundo en un período de 2 minutos.

AMS analiza los registros del plano de control para determinar el volumen y los tipos de errores que causan la latencia e identifica cualquier problema de contención de recursos para el nodo maestro o los grupos de autoescalado, etcd. Si el servidor de API no se recupera, AMS contacta con el equipo de servicio de Amazon EKS.

El certificado de cliente de Kubernetes está caducando

El certificado de cliente utilizado para autenticarse en el servidor API de Kubernetes vence en menos de 24 horas.

AMS envía esta notificación para informarle de que su certificado de clúster caducará en 24 horas.

El nodo no está listo

El estado de condición del nodo «Listo» es falso durante al menos 10 minutos.

AMS investiga las condiciones y los eventos del nodo, como los problemas de red, que impiden el acceso de Kubelet al servidor API.

CPU con un nivel alto de nodos

La carga de la CPU supera el 80% en un período de 5 minutos.

El AMS determina si uno o más módulos consumen una cantidad de CPU inusualmente alta. A continuación, AMS comprueba contigo que tus solicitudes, límites y actividad de los pods son los esperados.

Se ha detectado una interrupción del OOM del nodo

El nodo ha informado de al menos una interrupción de la función OOM de un host en un período de 4 minutos.

AMS determina si la interrupción de la OOM se debe a que se ha alcanzado el límite de contenedores o a que los nodos se han sobrecomprometido. Si la actividad de la aplicación es normal, AMS le asesora sobre las solicitudes y los límites de sobreasignación y sobre la revisión de los límites de los módulos.

Límite de seguimiento de nodos

La relación entre el número actual de entradas de seguimiento de conexiones y el límite máximo supera el 80% en un período de 5 minutos.

AMS le asesora sobre el valor de seguimiento de conexiones recomendado por núcleo. Los nodos de Kubernetes establecen el valor máximo de conntrack de forma proporcional a la capacidad total de memoria del nodo. Las aplicaciones de alta carga, especialmente en los nodos más pequeños, pueden superar fácilmente el valor máximo de conntrack, lo que provoca que la conexión se restablezca y se agoten los tiempos de espera.

El reloj del nodo no está sincronizado

El estado de sincronización mínimo durante un período de 2 minutos es 0 y el error máximo en segundos es 16 o superior.

El AMS determina si el Protocolo de tiempo de red (NTP) está instalado y funciona correctamente.

CPU Pod High

El uso de la CPU de un contenedor supera el 80% en una velocidad de 3 minutos durante un período mínimo de 2 minutos.

AMS investiga los registros de los módulos para determinar las tareas del módulo que consumen una gran cantidad de CPU.

Memoria alta del pod

El uso de memoria de un contenedor supera el 80% del límite de memoria especificado durante un período de 2 minutos.

AMS investiga los registros de los módulos para determinar las tareas del módulo que consumen una gran cantidad de memoria.

CoredNS inactivo

CoredNS ha desaparecido del descubrimiento de objetivos de Prometheus durante más de 15 minutos.

Se trata de una alerta crítica que indica que se ha interrumpido la resolución de nombres de dominio para los servicios de clúster internos o externos. AMS comprueba el estado de los pods de CoreDNS, verifica la configuración de CoreDNS, verifica los puntos de enlace de DNS que apuntan a los pods de CoreDNS, verifica los límites de CoreDNS y, con su aprobación, habilita el registro de depuración de CoreDNS.

Errores de CoredNS

CoredNS devuelve errores SERVFAIL para más del 3% de las solicitudes de DNS en un período de 10 minutos.

Esta alerta puede indicar un problema con una aplicación o una configuración incorrecta. AMS comprueba el estado de los pods de CoreDNS, verifica la configuración de CoreDNS, verifica los puntos de enlace de DNS que apuntan a los pods de CoreDNS, verifica los límites de CoreDNS y, con su aprobación, habilita el registro de depuración de CoreDNS.

Latencia de CoredNS

El percentil 99 de las duraciones de las solicitudes de DNS supera los 4 segundos durante 10 minutos.

Esta alerta indica que CoredNS podría estar sobrecargado. AMS comprueba el estado de los pods de CoreDNS, verifica la configuración de CoreDNS, verifica los puntos de enlace de DNS que apuntan a los pods de CoreDNS, verifica los límites de CoreDNS y, con su aprobación, habilita el registro de depuración de CoreDNS.

Latencia de reenvío de CoredNS

El percentil 99 del tiempo de respuesta de las solicitudes de reenvío de CoredNS a kube-dns supera los 4 segundos en un período de 10 minutos.

Cuando CoreDNS no es el servidor autorizado o no tiene una entrada de caché para un nombre de dominio, CoreDNS reenvía la solicitud de DNS a un servidor DNS ascendente. Esta alerta indica que CoredNS podría estar sobrecargado o que podría haber un problema con un servidor DNS ascendente. AMS comprueba el estado de los pods de CoreDNS, verifica la configuración de CoreDNS, verifica los puntos de enlace de DNS que apuntan a los pods de CoreDNS, verifica los límites de CoreDNS y, con su aprobación, habilita el registro de depuración de CoreDNS.

Error de reenvío de CoredNS

Más del 3% de las consultas de DNS fallan en un período de 5 minutos.

Cuando CoreDNS no es el servidor autorizado o no tiene una entrada de caché para un nombre de dominio, CoreDNS reenvía la solicitud de DNS a un servidor DNS ascendente. Esta alerta indica un posible error de configuración o un problema con un servidor DNS ascendente. AMS comprueba el estado de los pods de CoreDNS, verifica la configuración de CoreDNS, verifica los puntos de enlace de DNS que apuntan a los pods de CoreDNS, verifica los límites de CoreDNS y, con su aprobación, habilita el registro de depuración de CoreDNS.