

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

# Supervisión en Amazon EKS
<a name="monitoring"></a>

La supervisión en Amazon EKS proporciona una visibilidad fundamental del estado, el rendimiento y la seguridad de las cargas de trabajo de Kubernetes. Sin una supervisión adecuada, corre el riesgo de sufrir interrupciones en el servicio, brechas de seguridad y un uso ineficiente de los recursos, lo que puede afectar a las operaciones comerciales y aumentar los costos. Una supervisión eficaz le permite identificar y resolver problemas de forma proactiva, optimizar el uso de los recursos y mantener los requisitos de conformidad en todas sus aplicaciones contenerizadas. Al implementar soluciones de monitoreo integrales, puede garantizar una alta disponibilidad, detectar anomalías de manera temprana y tomar decisiones basadas en datos para escalar y mejorar su infraestructura de Amazon EKS.

En esta sección se analizan los diversos aspectos de la supervisión de Amazon EKS, incluidos los diferentes tipos de supervisión, las herramientas disponibles y las prácticas recomendadas para ayudarle a crear una estrategia de supervisión sólida para su entorno de Kubernetes.

**Topics**
+ [Tipos de monitoreo](monitoring-types.md)
+ [Tools (Herramientas)](monitoring-tools.md)
+ [Implementación de alta disponibilidad](monitoring-ha-setup.md)
+ [Prácticas recomendadas](monitoring-best-practices.md)
+ [Consideraciones avanzadas](monitoring-considerations.md)

# Tipos de supervisión en Amazon EKS
<a name="monitoring-types"></a>

La observabilidad efectiva en Amazon EKS implica actividades de supervisión de la infraestructura, las aplicaciones y la seguridad.

## Monitoreo de infraestructuras
<a name="infrastructure"></a>

La supervisión de la infraestructura es un componente fundamental de la observabilidad de Amazon EKS que proporciona información detallada sobre el estado y el rendimiento de los elementos fundamentales de su clúster de Kubernetes. En esencia, implica hacer un seguimiento de los signos vitales tanto de los componentes del plano de control como de los nodos de trabajo, y asegurarse de que la plataforma subyacente se mantenga estable y eficiente.
+ La **supervisión del plano de control** es crucial porque supervisa componentes clave como el servidor API, la base de datos etcd y el programador. Al monitorear la latencia del servidor API, puede identificar rápidamente los cuellos de botella en el rendimiento que podrían afectar a la implementación de aplicaciones o a las operaciones de escalado. La supervisión del rendimiento de Etcd valida que la base de datos de estado del clúster funciona de manera eficiente y evita problemas de coherencia de los datos que podrían afectar a todo el clúster.
+ La **supervisión a nivel de nodo** es igualmente importante porque se centra en los recursos informáticos que ejecutan las cargas de trabajo en contenedores. Esto incluye el seguimiento de la utilización de la CPU, el consumo de memoria, las E/S del disco y el rendimiento de la red en todos los nodos de trabajo. Comprender estas métricas ayuda a evitar el agotamiento de los recursos, a optimizar las decisiones de escalado de los nodos y a garantizar una planificación de la capacidad adecuada.
+ La **supervisión de la red** desempeña un papel fundamental a la hora de mantener una comunicación fiable entre los módulos, los servicios y los recursos externos. Al monitorear el rendimiento, la latencia y los estados de conexión de la red, puede identificar los problemas de conectividad de manera temprana y garantizar una comunicación fluida entre las aplicaciones. La supervisión del almacenamiento complementa la supervisión de la red mediante el seguimiento del rendimiento del volumen, la utilización de la capacidad y I/O los patrones, a fin de evitar los cuellos de botella relacionados con los datos.

La supervisión de la infraestructura sirve como un sistema de alerta temprana de posibles problemas, permite un mantenimiento proactivo y garantiza una asignación óptima de los recursos. Sin una supervisión sólida de la infraestructura, corre el riesgo de sufrir tiempos de inactividad inesperados, reducir el rendimiento y hacer un uso ineficiente de los recursos, lo que puede repercutir considerablemente en las operaciones y los costes empresariales.

## Supervisión de aplicaciones
<a name="application"></a>

La supervisión de las aplicaciones es esencial para mantener las aplicaciones en contenedores en buen estado, eficaces y fiables en su entorno Amazon EKS. Este nivel de monitoreo se centra en las cargas de trabajo reales que se ejecutan dentro de su clúster y proporciona información fundamental sobre el comportamiento, el rendimiento y la interacción de sus aplicaciones con otros servicios.

El monitoreo de aplicaciones incluye el monitoreo a nivel de contenedor, monitoreo a nivel de servicio y rastreo distribuido.
+ A **nivel de contenedor**, el monitoreo de aplicaciones rastrea métricas cruciales como el estado del contenedor, el número de reinicios y los patrones de consumo de recursos. Estas métricas le ayudan a identificar los contenedores problemáticos que podrían estar consumiendo recursos excesivos o que se reinicien con frecuencia, lo que podría indicar problemas subyacentes, como pérdidas de memoria o problemas de configuración. Al monitorear los eventos del ciclo de vida de los contenedores, puede garantizar el comportamiento correcto de las aplicaciones y solucionar rápidamente los problemas de implementación.
+ La **supervisión a nivel de servicio** proporciona visibilidad de las métricas de rendimiento y confiabilidad de las aplicaciones, como los tiempos de respuesta, las tasas de error y el rendimiento de las solicitudes. Estas métricas son fundamentales para mantener los objetivos de nivel de servicio (SLOs) y garantizar una experiencia positiva para el usuario final. Puede realizar un seguimiento de la latencia en los diferentes puntos finales del servicio, identificar los cuellos de botella en el rendimiento y supervisar los patrones de error para mantener la fiabilidad de las aplicaciones.
+ El **rastreo distribuido** es otro aspecto fundamental de la supervisión de aplicaciones, especialmente en las arquitecturas de microservicios. Al implementar el rastreo, puede hacer un seguimiento de las solicitudes a medida que pasan por los distintos servicios, comprender las dependencias e identificar los cuellos de botella en el rendimiento. Esta end-to-end visibilidad le ayuda a optimizar las interacciones de los servicios y a solucionar problemas complejos que afectan a varios componentes.

Las métricas de las aplicaciones personalizadas desempeñan un papel crucial a la hora de proporcionar información específica de la empresa. Estas pueden incluir métricas como las tasas de procesamiento de pedidos, las frecuencias de inicio de sesión de los usuarios o las tasas de éxito de las transacciones. Puede correlacionar estas métricas personalizadas con las métricas de infraestructura y contenedores para comprender mejor cómo el rendimiento de la infraestructura afecta a las operaciones empresariales y tomar decisiones basadas en datos para el escalado y la optimización.

La importancia de la supervisión de las aplicaciones reside en su capacidad de proporcionar una visión integral del estado y el rendimiento de las aplicaciones. Esta supervisión le permite mantener una alta calidad de servicio, resolver rápidamente los problemas y optimizar continuamente sus aplicaciones para cumplir los objetivos empresariales.

## Monitorización de la seguridad
<a name="security"></a>

La supervisión de la seguridad en Amazon EKS es una actividad fundamental que ayuda a las organizaciones a mantener la integridad, la confidencialidad y el cumplimiento de sus entornos de Kubernetes. Este enfoque de seguridad integral combina la vigilancia continua, la detección de amenazas y la supervisión del cumplimiento para proteger las cargas de trabajo en contenedores de los posibles riesgos de seguridad y del acceso no autorizado. Incluye la supervisión de la autenticación y la autorización, la supervisión de la seguridad de la red y la supervisión de la configuración y el cumplimiento.
+ La **supervisión de la autenticación y la autorización** constituye la primera línea de defensa, ya que rastrea todos los intentos de acceso al clúster. Esto incluye la supervisión de las solicitudes de los servidores de la API, el seguimiento de los intentos de inicio de sesión correctos y fallidos y la auditoría de los cambios en el control de acceso basado en roles (RBAC). Al mantener registros de auditoría detallados sobre quién accedió a qué recursos y cuándo, puede detectar rápidamente posibles brechas de seguridad, intentos de acceso no autorizado o actividades de escalamiento de privilegios. Esto es especialmente importante en los entornos con varios inquilinos, donde es esencial mantener controles de acceso estrictos.
+ La **supervisión de la seguridad de la red** se centra en detectar y prevenir la comunicación no autorizada entre los módulos y los servicios. Al monitorear las infracciones de las políticas de red y los patrones de tráfico inusuales, puede identificar posibles amenazas a la seguridad, como los intentos de escape de los contenedores o los movimientos laterales dentro del clúster. Esto incluye el seguimiento tanto de la comunicación interna del clúster como de los patrones de tráfico externo para garantizar que los contenedores se comuniquen solo con los puntos finales autorizados y sigan las políticas de seguridad definidas.
+ La **supervisión de la configuración y el cumplimiento** es esencial para mantener las bases de seguridad y cumplir los requisitos normativos. Implica escanear continuamente las imágenes de los contenedores para detectar vulnerabilidades, supervisar la seguridad en tiempo de ejecución y realizar un seguimiento de los cambios de configuración que puedan afectar a la postura de seguridad. Las auditorías de conformidad periódicas garantizan el cumplimiento de los estándares del sector y las políticas de seguridad de la organización, y la detección de desviaciones en la configuración ayuda a evitar cambios no autorizados que puedan suponer riesgos para la seguridad.

La supervisión de la seguridad en Amazon EKS proporciona la visibilidad y el control necesarios para ayudar a protegerse contra las amenazas de seguridad modernas y, al mismo tiempo, garantizar el cumplimiento de los requisitos reglamentarios. Al implementar una supervisión de seguridad integral, su organización puede mantener una postura de seguridad sólida, responder rápidamente a los incidentes de seguridad y demostrar el cumplimiento de diversas normas reglamentarias.

# Herramientas de supervisión para Amazon EKS
<a name="monitoring-tools"></a>

En esta sección se analizan tres categorías de herramientas de supervisión de Amazon EKS: servicios de AWS supervisión, soluciones de código abierto o patentadas y herramientas especializadas.

## AWS servicios
<a name="monitoring-services"></a>
+ [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html): servicio integral de monitoreo y registro

  CloudWatch constituye la columna vertebral de las soluciones de AWS monitoreo y proporciona amplias capacidades para los entornos de Amazon EKS. Ofrece Container Insights para obtener métricas pormenorizadas de contenedores y clústeres, de forma que pueda supervisar el rendimiento, la utilización de los recursos y el estado de las aplicaciones. El servicio destaca en la agregación y el análisis de registros, y admite el registro centralizado en contenedores y nodos. CloudWatch se integra de forma natural con Servicios de AWS. Proporciona una configuración de alarmas automatizada y admite métricas y paneles personalizados, lo que la convierte en una herramienta esencial para la supervisión de Amazon EKS.
+ [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html): Plataforma avanzada de rastreo distribuido

  X-Ray mejora la observabilidad al proporcionar sofisticadas capacidades de rastreo distribuido. Su visualización del mapa de servicios ofrece información clara sobre la arquitectura y las dependencias de las aplicaciones, y el seguimiento detallado de las solicitudes ayuda a identificar los cuellos de botella en el rendimiento de los servicios. X-Ray puede rastrear las solicitudes a través de arquitecturas de microservicios complejas, lo que lo hace inestimable para la resolución de problemas y la optimización, especialmente en sistemas distribuidos que abarcan varios. Servicios de AWS
+ [AWS Distribución para OpenTelemetry: marco](https://aws-otel.github.io/) de observabilidad unificado

  Distro for OpenTelemetry proporciona capacidades de recopilación de datos unificadas con soporte multiplataforma, lo que la hace ideal para entornos híbridos. Este servicio se integra con otros Servicios de AWS, admite instrumentación personalizada y ofrece flexibilidad a la hora de implementar soluciones de monitoreo integrales, al tiempo que mantiene la compatibilidad con los estándares de la industria.
+ [Grafana gestionada por Amazon](https://docs.aws.amazon.com/grafana/latest/userguide/what-is-Amazon-Managed-Service-Grafana.html): visualización de nivel empresarial

  Amazon Managed Grafana proporciona un servicio totalmente gestionado para la visualización y el análisis de datos. Ofrece una integración perfecta con otras Servicios de AWS funciones de seguridad integradas y una escalabilidad de nivel empresarial. El servicio simplifica la creación y la administración de los paneles y, al mismo tiempo, proporciona funciones avanzadas, como el acceso a las fuentes de datos entre cuentas y la integración con ellas. AWS IAM Identity Center
+ [Amazon Managed Service para Prometheus](https://docs.aws.amazon.com/prometheus/latest/userguide/what-is-Amazon-Managed-Service-Prometheus.html): monitorización gestionada, segura y de alta disponibilidad

  Amazon Managed Service for Prometheus es un servicio de monitorización totalmente gestionado y compatible con Prometheus. Proporciona escalado automatizado, alta disponibilidad e ingesta y consulta seguras de métricas. El servicio se integra perfectamente con Amazon EKS y elimina la sobrecarga operativa de la administración de los servidores Prometheus.

## Soluciones de código abierto o patentadas
<a name="monitoring-open-source"></a>

Las AWS herramientas descritas en la sección anterior ofrecen una integración perfecta y servicios gestionados. Las herramientas de código abierto que se enumeran en esta sección se Servicios de AWS complementan al proporcionar flexibilidad y amplias opciones de personalización. Comprender las capacidades y los casos de uso de cada herramienta le ayuda a diseñar las estrategias de monitoreo que mejor se adapten a sus requisitos específicos.
+ [Prometheus](https://docs.aws.amazon.com/eks/latest/userguide/deploy-prometheus.html): kit de herramientas de recopilación de métricas

  Prometheus es una solución de código abierto para la recopilación de métricas en entornos de Kubernetes. Su base de datos de series temporales y su lenguaje de consultas ProMQL permiten realizar análisis de métricas sofisticados. Las capacidades de detección de servicios de la plataforma se adaptan automáticamente a los entornos dinámicos de Kubernetes, y su sistema de gestión de alertas lo mantiene informado de los problemas críticos. Prometheus ofrece amplias opciones de integración, lo que lo convierte en una opción versátil para el monitoreo integral de métricas.
+ [Grafana: motor](https://grafana.com/docs/grafana-cloud/monitor-infrastructure/kubernetes-monitoring/configuration/config-other-methods/config-aws-eks/) de visualización avanzada

  Grafana transforma los datos de monitoreo complejos en información procesable a través de sus capacidades de visualización. La plataforma crea paneles personalizados que combinan datos de múltiples fuentes y proporcionan una vista unificada de las métricas de la infraestructura y las aplicaciones. Su compatibilidad con diversas fuentes de datos y sus funciones de gestión de alertas proporcionan una supervisión exhaustiva. Grafana puede ayudarlo a visualizar datos históricos y en tiempo real, para que pueda identificar tendencias y tomar decisiones informadas.
+ [Fluent Bit](https://fluentbit.io/): capa de registro unificada

  Esta solución de registro proporciona la recopilación y administración de registros para los entornos de Kubernetes. Su integración nativa con Kubernetes garantiza una recopilación de registros fluida desde contenedores y nodos, y su compatibilidad con varios destinos de salida ofrece flexibilidad en el almacenamiento y el análisis de los registros. Las funciones avanzadas, como el análisis y el filtrado de registros, le permiten procesar y enrutar los registros en función de requisitos específicos. La naturaleza liviana de Fluent Bit lo hace especialmente adecuado para entornos en contenedores.
+ [Datadog](https://www.datadoghq.com/blog/eks-monitoring-datadog/): observabilidad completa

  Datadog proporciona capacidades de monitoreo integrales con soporte nativo de Kubernetes. Ofrece monitoreo de infraestructura, monitoreo del rendimiento de las aplicaciones (APM), administración de registros y análisis en tiempo real. Puede utilizar el descubrimiento automático de servicios y el amplio catálogo de integración de la plataforma para la supervisión de Amazon EKS, así como sus capacidades de aprendizaje automático para detectar anomalías y predecir posibles problemas.
+ [New Relic](https://docs.newrelic.com/docs/infrastructure/amazon-integrations/connect/eks-add-on/): monitoreo del rendimiento de las aplicaciones

  New Relic ofrece visibilidad del rendimiento de las aplicaciones y del estado de la infraestructura. Su integración con Kubernetes proporciona información detallada sobre los contenedores, rastreo distribuido y paneles personalizados. La plataforma le ayuda a correlacionar el rendimiento de las aplicaciones con las métricas de la infraestructura, para que pueda identificar y resolver los problemas rápidamente.
+ [Elastic Stack (ELK Stack)](https://aws.amazon.com/opensearch-service/resources/the-benefits-of-the-elk-stack/): análisis y búsqueda de registros

  El ELK Stack combina Elasticsearch, Logstash y Kibana para ofrecer capacidades de análisis y administración de registros. Ofrece funciones de búsqueda avanzada, herramientas de visualización y funciones de aprendizaje automático. Puede usar la pila para gestionar grandes volúmenes de datos de registro de sus entornos de Amazon EKS.

## Herramientas especializadas
<a name="monitoring-special"></a>

Puede combinar las siguientes herramientas en función de sus requisitos de supervisión específicos, la escala de las operaciones y las preferencias de la organización. La clave es crear un conjunto de monitoreo que proporcione una visibilidad completa y, al mismo tiempo, sea manejable y rentable.
+ [kube-state-metrics (KSM)](https://github.com/kubernetes/kube-state-metrics): monitoreo del estado de Kubernetes

  Este servicio complementario escucha el servidor API de Kubernetes y genera métricas sobre el estado de los objetos. Proporciona información sobre el estado de las implementaciones, los módulos y otros recursos de Kubernetes.
+ [Kubernetes Metrics Server](https://docs.aws.amazon.com/eks/latest/userguide/metrics-server.html): métricas de recursos

  Este servidor de métricas recopila métricas de recursos de los kubelets y las expone a través de la API de métricas de Kubernetes. Proporciona escalado automático de módulos horizontales y métricas básicas de CPU y memoria.
+ [Kubecost: monitoreo de costos de](https://github.com/kubecost/cost-analyzer-helm-chart) Kubernetes

  Herramientas como Kubecost proporcionan un análisis de costes detallado y recomendaciones de optimización para los clústeres de EKS. Le ayudan a comprender y optimizar el gasto en la nube en diferentes espacios de nombres, implementaciones y servicios.

# Implementación de alta disponibilidad para las soluciones de monitoreo Amazon EKS
<a name="monitoring-ha-setup"></a>

Una estrategia sólida de alta disponibilidad (HA) para la supervisión de Amazon EKS es fundamental para garantizar una visibilidad continua de su entorno de Kubernetes. En esta sección, se describe un enfoque integral para implementar la alta disponibilidad en diferentes aspectos de su infraestructura de monitoreo.

## Redundancia y escalabilidad arquitectónicas
<a name="architecture"></a>

La creación de un sistema de monitoreo de alta disponibilidad comienza con un diseño arquitectónico adecuado. Los componentes de monitoreo deben distribuirse en varias zonas de AWS disponibilidad para protegerlos contra los errores de la zona. Esto incluye la implementación del escalado horizontal para los componentes de monitoreo críticos, como los servidores Prometheus, los recopiladores de registros y los administradores de alertas. Puede utilizar servicios AWS gestionados como Amazon Managed Service for Prometheus y Amazon Managed Grafana para reducir los gastos operativos y, al mismo tiempo, garantizar una alta disponibilidad. Configure mecanismos automáticos de conmutación por error para mantener la continuidad del servicio durante las averías de los componentes, con controles de estado y procedimientos de recuperación automatizados.

## Estrategia de almacenamiento de datos resiliente
<a name="data-storage"></a>

La resiliencia del almacenamiento de datos es fundamental para mantener la confiabilidad del sistema de monitoreo. La implementación de soluciones de almacenamiento distribuido garantiza que los registros y los datos métricos permanezcan accesibles incluso si fallan los nodos de almacenamiento individuales. Esto incluye configurar la replicación de datos adecuada en varias zonas de disponibilidad y utilizar diferentes backends de almacenamiento para garantizar la redundancia. Establezca procedimientos de respaldo periódicos para los datos históricos, con procesos de recuperación documentados para diversos escenarios de falla. Para las bases de datos de series temporales, como Prometheus, la implementación de soluciones de almacenamiento remoto ayuda a separar las preocupaciones de almacenamiento de la recopilación de datos y mejora la confiabilidad general del sistema.

## Gestión de alertas redundante
<a name="alert-mgmt"></a>

La gestión de alertas requiere una atención especial en una configuración de alta disponibilidad. La implementación de gestores de alertas redundantes garantiza que las notificaciones críticas lleguen a los destinatarios previstos incluso en caso de fallo del sistema. Configure varios canales de notificación, como el correo electrónico, los SMS o Slack, y PagerDuty proporcione vías de comunicación alternativas. Utiliza mecanismos de deduplicación de alertas para evitar una avalancha de alertas en caso de fallo parcial del sistema y utiliza métodos de notificación alternativos para garantizar que las alertas críticas no se pierdan nunca. La implementación de la correlación de alertas ayuda a mantener el contexto durante los escenarios de conmutación por error y evita que los sistemas redundantes envíen notificaciones duplicadas.

## Equilibrio de carga y descubrimiento de servicios
<a name="load-balancing"></a>

El equilibrio de carga adecuado es esencial para mantener los servicios de monitoreo estables. AWS Los balanceadores de carga de aplicaciones distribuyen el tráfico de monitoreo entrante entre varios puntos finales, y las comprobaciones de estado garantizan que el tráfico se dirija solo a las instancias en buen estado. Los mecanismos de detección de servicios ayudan a que los componentes de supervisión se adapten automáticamente a los cambios del entorno, como la adición de nuevos nodos o servicios. Implemente agentes de monitoreo de manera uniforme en todos los nodos DaemonSets para garantizar una cobertura integral a medida que el clúster se amplía.

## Consideraciones adicionales sobre alta disponibilidad
<a name="ha-considerations"></a>

Resiliencia de la red:
+ Implemente rutas de red redundantes.
+ Configure el diseño de subred adecuado en todas las zonas de disponibilidad.
+ Úselo [AWS Direct Connect](https://docs.aws.amazon.com/whitepapers/latest/aws-vpc-connectivity-options/aws-direct-connect.html)con rutas de respaldo.
+ Configure los grupos de seguridad y las listas de control de acceso a la red (red ACLs) adecuados.

Supervisión de los monitores:
+ Implemente sistemas de monitoreo secundarios.
+ Implemente el monitoreo entre regiones.
+ Configure alertas para los sistemas que no responden.
+ Pruebe los procedimientos de conmutación por error con regularidad.

Planificación de la capacidad:
+ Supervise las tendencias de uso de los recursos.
+ Implemente el escalado predictivo.
+ Pruebe el rendimiento de forma periódica.

Gestión de datos:
+ Implemente políticas de retención de datos.
+ Configure la agregación de métricas.
+ Planifique la administración del ciclo de vida de los datos.
+ Optimice el almacenamiento de forma regular.

Procedimientos de recuperación:
+ Procesos de recuperación de documentos.
+ Pruebe la recuperación ante desastres con regularidad.
+ Implemente la recuperación automática siempre que sea posible.
+ Identifique e implemente rutas de escalamiento claras.

Al implementar estas prácticas de alta disponibilidad, puede asegurarse de que su infraestructura de monitoreo de Amazon EKS siga siendo confiable y resiliente, y de que tiene una visibilidad continua de sus entornos de Kubernetes, incluso en varios escenarios de falla. Las pruebas y actualizaciones periódicas de estas configuraciones de alta disponibilidad garantizan que sigan siendo eficaces a medida que el entorno evoluciona.

# Prácticas recomendadas para la supervisión en Amazon EKS
<a name="monitoring-best-practices"></a>

## Enfoque de implementación estratégica
<a name="implementation"></a>

Una estrategia de monitoreo exitosa de Amazon EKS comienza con un enfoque de implementación gradual y bien planificado.
+ Comience por identificar y monitorear las métricas críticas que afectan directamente a las operaciones empresariales y a la confiabilidad de las aplicaciones. Esta base debe incluir las métricas de infraestructura esenciales, los indicadores clave de rendimiento de las aplicaciones y las métricas de seguridad críticas. Amplíe gradualmente la cobertura de monitoreo en función de las necesidades operativas y las lecciones aprendidas, y asegúrese de que cada incorporación aporte un valor significativo.
+ Implemente procesos de despliegue automatizados mediante el uso de herramientas de infraestructura como código (IaC), como Terraform, o CloudFormation para garantizar la coherencia y la repetibilidad.
+ Pruebe y valide los sistemas de monitoreo para ayudar a mantener la confiabilidad y la precisión.
+ Refina los parámetros de supervisión de forma continua para adaptarlos a las cambiantes necesidades empresariales.

## Gestión eficaz de los datos
<a name="data-mgmt"></a>

La gestión adecuada de los datos es fundamental para mantener una solución de supervisión eficiente y rentable.
+ Implemente políticas claras de retención de datos que equilibren las necesidades de análisis histórico con los costos de almacenamiento.
+ Configure las frecuencias de muestreo adecuadas para los diferentes tipos de métricas: una frecuencia más alta para las métricas críticas y una frecuencia más baja para las menos críticas.
+ Utilice la agregación de métricas para reducir el volumen de datos y, al mismo tiempo, conservar información significativa, especialmente para el análisis de tendencias a largo plazo.
+ Implemente procedimientos sistemáticos de conservación y archivado de registros para los sistemas de registro centralizados (como CloudWatch los registros) a fin de gestionar los costes de almacenamiento y mantener el acceso a los datos importantes de forma accesible.
**nota**  
En Amazon EKS versión 1.21 o posterior, el kubelet gestiona automáticamente la rotación de registros a nivel de contenedor.
+ Considere la posibilidad de implementar una hot-warm-cold arquitectura de almacenamiento de registros a fin de optimizar tanto la velocidad de acceso como la rentabilidad.

## Configuración y administración de alertas
<a name="alert-config"></a>

La configuración de las alertas requiere una consideración cuidadosa para mantener la eficacia sin provocar fatiga en las alertas.
+ Defina umbrales claros y procesables en función de los objetivos de nivel de servicio (SLOs) y de los patrones de rendimiento históricos.
+ Implemente un sistema de gravedad de las alertas por niveles que diferencie claramente entre los problemas críticos que requieren atención inmediata y los asuntos menos urgentes.
+ Asegúrese de que las alertas proporcionen suficiente contexto e información procesable para facilitar la resolución rápida de los problemas.
+ Establezca procedimientos de escalamiento claros con propiedad y tiempos de respuesta definidos para los diferentes niveles de gravedad de las alertas.
+ Revise y perfeccione las configuraciones de alertas con regularidad para ayudar a mantener su relevancia y eficacia.

## Optimización de recursos
<a name="resource"></a>

El monitoreo continuo de la utilización de los recursos es esencial para mantener operaciones rentables.
+ Implemente una supervisión integral de los recursos en todos los componentes del clúster, incluidos los nodos, los pods y los volúmenes persistentes.
+ Configure el escalado automático en función de los patrones de uso reales y los requisitos de rendimiento para garantizar una utilización eficiente de los recursos y, al mismo tiempo, mantener el rendimiento.
+ Utilice etiquetas de asignación de costes para realizar un seguimiento del consumo de recursos por parte de los diferentes equipos, aplicaciones o entornos.
+ Analice periódicamente las métricas de eficiencia de los recursos para identificar las oportunidades de optimización e implementar mejoras.
+ Considere la posibilidad de implementar herramientas de administración de costos para rastrear y optimizar el gasto en la nube.

## Seguridad
<a name="security"></a>

Las consideraciones de seguridad deben ser parte integral de su estrategia de monitoreo.
+ Implemente [principios de acceso con privilegios mínimos](https://docs.aws.amazon.com/wellarchitected/latest/security-pillar/sec_permissions_least_privileges.html) para todos los componentes de monitoreo para garantizar que los usuarios y los servicios solo tengan los permisos que necesitan.
+ Habilite un registro de auditoría integral para rastrear todos los accesos y cambios en los sistemas de monitoreo.
+ Realice revisiones de seguridad periódicas de las configuraciones de monitoreo y los patrones de acceso para identificar posibles vulnerabilidades.
+ Implemente el cifrado para los datos de monitoreo confidenciales, tanto en tránsito como en reposo.
+ Integre la supervisión de la seguridad con los sistemas de información de seguridad y gestión de eventos (SIEM) existentes para obtener una visibilidad completa de la seguridad.

# Consideraciones de supervisión avanzada en Amazon EKS
<a name="monitoring-considerations"></a>

Optimización del rendimiento:
+ Optimice los intervalos de recopilación de métricas.
+ Configure patrones de consulta eficientes.
+ Implemente la agregación previa de métricas.
+ Utilice las soluciones de almacenamiento adecuadas.

Cumplimiento y gobierno:
+ Mantenga los registros de auditoría.
+ Implemente la supervisión del cumplimiento.
+ Proporcione informes de cumplimiento periódicos.
+ Documente los procedimientos de supervisión.

Recuperación ante desastres:
+ Realice copias de seguridad de las configuraciones de monitoreo con regularidad.
+ Procedimientos de recuperación de documentos.
+ Pruebe los procesos de recuperación.

Mejora continua:
+ Supervise las sesiones de revisión con regularidad.
+ Optimice los ciclos de rendimiento.
+ Actualice la supervisión en función de los incidentes.
+ Incorpore los comentarios de los usuarios.

Estas prácticas recomendadas proporcionan un marco para implementar y mantener soluciones de monitoreo eficaces para los entornos de Amazon EKS. Revise y actualice periódicamente estas prácticas para que se ajusten a las necesidades de su organización y a los estándares del sector. La supervisión no se realiza una sola vez, sino que es un proceso continuo que requiere atención y perfeccionamiento periódicos.