Cómo funcionan la supervisión y la gestión de incidentes para Amazon EKS en AMS Accelerate

Generación: Como parte de la supervisión de incorporación y la gestión de incidentes para EKS, AMS configura la supervisión de referencia para los clústeres de Amazon EKS que ha seleccionado en su cuenta gestionada. AMS utiliza una combinación de las reglas del administrador de alertas de Amazon Managed Service for Prometheus y las reglas de eventos de CloudWatch Amazon para configurar la supervisión de referencia. Un servidor Prometheus configurado por AMS en su clúster recopila y escribe de forma remota sus métricas de Prometheus en un servicio gestionado de Amazon para un punto final de Prometheus de la misma región. La configuración de supervisión básica genera una alerta cuando se activa una regla del administrador de alertas de Prometheus o se genera CloudWatch un evento.

Agregación: AMS envía todas las alertas que generan sus recursos al sistema de supervisión de AMS dirigiéndolas a un tema de Amazon Simple Notification Service gestionado por AMS.

Procesamiento y análisis de impacto: AMS analiza las alertas y, a continuación, las procesa en función de su posible impacto. AMS clasifica las alertas de la siguiente manera:

Alertas con un impacto conocido en los clientes: para estas alertas, AMS crea un nuevo informe de incidentes mediante el proceso de gestión de incidentes.
Alertas con un impacto incierto en los clientes: para estas alertas, AMS envía un informe de incidente. En muchos casos, estas alertas le piden que verifique el impacto antes de que AMS pueda tomar medidas. En el caso de dichas alertas, AMS envía una notificación de alerta con los detalles y comprueba si la alerta necesita una acción atenuante. AMS proporciona opciones para mitigar las acciones en la notificación. Si su respuesta confirma que la alerta es un incidente, AMS activa entonces la creación de un nuevo informe de incidente e inicia el proceso de gestión de incidentes. Cualquier notificación de servicio que reciba una respuesta que indique que «no ha afectado al cliente» o que no haya recibido respuesta alguna durante tres días se marcará como resuelta. Además, la alerta correspondiente se marca como resuelta.
Alertas que no afectan a los clientes: si, tras una evaluación, AMS determina que la alerta no afecta a los clientes, se cierra.

Matriz de responsabilidad de AMS (RACI)

La matriz responsable, responsable, consultada e informada de AMS, o RACI, asigna la responsabilidad principal al cliente o a AMS en lo que respecta a una variedad de actividades. La siguiente tabla proporciona un resumen de las responsabilidades del cliente y de AMS en relación con las actividades de una aplicación que utiliza la supervisión y la gestión de incidentes para Amazon EKS.

R significa la parte responsable que hace el trabajo para lograr la tarea.
A representa a la parte responsable.
C significa consultado; la parte cuya opinión se solicita, por lo general como expertos en la materia; y con la que existe comunicación bilateral.
I significa informado; la parte que recibe información sobre el progreso, a menudo solo una vez finalizada la tarea o el producto final.

Actividad	Cliente	AMS
Descubrimiento de los requisitos de AMS	I	R
Habilite los permisos AMS (RBAC) para el acceso al clúster	R	C
Instale el agente de Amazon EC2 Systems Manager en los nodos de trabajo si aún no está presente	R	C
Implemente componentes de AMS en el clúster, como Prometheus, Prometheus Node Exporter y en un espacio de nombres de AMS, según sea necesario kube-state-metrics.	C	R
Aprovisione Amazon Managed Service para Prometheus en el plano de control de AMS	I	R
Configurar el administrador de alertas de Prometheus en el plano de control AMS	I	R
Proporcione la plantilla de Grafana gestionada por Amazon y ayude con la configuración	C	R
Habilite la supervisión del registro de auditoría de GuardDuty EKS	C	R
Habilitar el registro del plano de control de Amazon EKS	I	R
Supervise el estado y el rendimiento del plano de control Amazon EKS	I	R
Supervise el estado y el rendimiento de su clúster de Amazon EKS (clúster, nodo, carga de trabajo, pod, servidor de API y CoredNS)	I	R
Clasifique las alertas y proporcione respuesta a incidentes para Amazon EKS	I	R
Ejecute comandos de diagnóstico durante los incidentes	I	R
Analice los registros durante los incidentes (registros del plano de control y del módulo)	I	R
Respuesta a incidentes relacionados con problemas AWS de red	I	R
Responda a los hallazgos de GuardDuty EKS Audit Log Monitoring	I	R
Siempre que sea posible, proporcione orientación al cliente sobre las medidas que deben adoptarse para subsanar los incidentes	I	R

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

¿Qué es la supervisión y la gestión de incidentes para Amazon EKS?

Alertas de referencia