

 **Ayude a mejorar esta página** 

Para contribuir a esta guía del usuario, elija el enlace **Edit this page on GitHub** que se encuentra en el panel derecho de cada página.

# Supervisión de datos de clústeres con Amazon CloudWatch
<a name="cloudwatch"></a>

Amazon CloudWatch es un servicio de supervisión que recopila métricas y registros de los recursos en la nube. CloudWatch proporciona algunas métricas básicas de Amazon EKS de forma gratuita cuando se utiliza un clúster nuevo de la versión `1.28` o posterior. Sin embargo, al utilizar el operador de observabilidad de CloudWatch como complemento de Amazon EKS, se obtienen características de observabilidad mejoradas.

## Métricas básicas en Amazon CloudWatch
<a name="cloudwatch-basic-metrics"></a>

En el caso de clústeres de la versión `1.28` o posterior de Kubernetes, obtendrá métricas suministradas por CloudWatch de forma gratuita en el espacio de nombres de `AWS/EKS`. En la siguiente tabla se presenta una lista de las métricas básicas disponibles para las versiones compatibles. Cada métrica que aparece en la lista tiene una frecuencia de un minuto.


| Nombre de métrica | Descripción | 
| --- | --- | 
|   `apiserver_flowcontrol_current_executing_seats`   |  El número de plazas que se utilizan actualmente para ejecutar las solicitudes de la API. La asignación de plazas se determina mediante las configuraciones priority\$1level y flow\$1schema de la [característica](https://kubernetes.io/docs/concepts/cluster-administration/flow-control/) de prioridad y equidad de la API de Kubernetes.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `scheduler_schedule_attempts_total`   |  El número total de intentos del programador para programar los pods en el clúster durante un periodo determinado. Esta métrica ayuda a supervisar la carga de trabajo del programador y puede indicar la presión de programación o los posibles problemas relacionados con la ubicación de los pods.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `scheduler_schedule_attempts_SCHEDULED`   |  El número de intentos correctos del programador para programar los pods en los nodos del clúster durante un periodo determinado.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `scheduler_schedule_attempts_UNSCHEDULABLE`   |  El número de intentos para programar pods que no se pudieron programar durante un periodo determinado debido a restricciones válidas, como la falta de CPU o memoria en un nodo.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `scheduler_schedule_attempts_ERROR`   |  El número de intentos para programar pods que no se pudieron programar durante un periodo determinado debido a un problema interno del propio programador, como problemas de conectividad con el servidor de API.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `scheduler_pending_pods`   |  El número total de pods pendientes que programará el programador en el clúster durante un periodo determinado.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `scheduler_pending_pods_ACTIVEQ`   |  El número de pods pendientes en ActiveQ que están esperando su programación en el clúster durante un periodo determinado.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `scheduler_pending_pods_UNSCHEDULABLE`   |  El número de pods pendientes que el programador intentó programar y fallaron, y que se mantienen en un estado no programable para volver a intentarlo.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `scheduler_pending_pods_BACKOFF`   |  El número de pods pendientes en `backoffQ` en estado de retroceso a la espera de que venza su periodo de retroceso.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `scheduler_pending_pods_GATED`   |  El número de pods pendientes que se encuentran actualmente en espera en un estado cerrado, ya que no se pueden programar hasta que cumplan las condiciones requeridas.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_request_total`   |  El número de solicitudes HTTP hechas en todos los servidores de API del clúster.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_request_total_4XX`   |  El número de solicitudes HTTP hechas a todos los servidores de API del clúster que generaron códigos de estado `4XX` (error del cliente).  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_request_total_429`   |  El número de solicitudes HTTP hechas a todos los servidores de API del clúster que generaron un código de estado `429`, que se produce cuando los clientes superan los límites de umbrales de frecuencia.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_request_total_5XX`   |  El número de solicitudes HTTP hechas a todos los servidores de API del clúster que generaron códigos de estado `5XX` (error del servidor).  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_request_total_LIST_PODS`   |  El número de solicitudes pods `LIST` hechas a todos los servidores de API del clúster.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_request_duration_seconds_PUT_P99`   |  El percentil 99 de latencia de las solicitudes `PUT` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `PUT`.  **Unidades:** segundos  **Estadísticas válidas:** Promedio  | 
|   `apiserver_request_duration_seconds_PATCH_P99`   |  El percentil 99 de latencia de las solicitudes `PATCH` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `PATCH`.  **Unidades:** segundos  **Estadísticas válidas:** Promedio  | 
|   `apiserver_request_duration_seconds_POST_P99`   |  El percentil 99 de latencia de las solicitudes `POST` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `POST`.  **Unidades:** segundos  **Estadísticas válidas:** Promedio  | 
|   `apiserver_request_duration_seconds_GET_P99`   |  El percentil 99 de latencia de las solicitudes `GET` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `GET`.  **Unidades:** segundos  **Estadísticas válidas:** Promedio  | 
|   `apiserver_request_duration_seconds_LIST_P99`   |  El percentil 99 de latencia de las solicitudes `LIST` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `LIST`.  **Unidades:** segundos  **Estadísticas válidas:** Promedio  | 
|   `apiserver_request_duration_seconds_DELETE_P99`   |  El percentil 99 de latencia de las solicitudes `DELETE` se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes `DELETE`.  **Unidades:** segundos  **Estadísticas válidas:** Promedio  | 
|   `apiserver_current_inflight_requests_MUTATING`   |  El número de solicitudes mutantes (`POST`, `PUT`, `DELETE`, `PATCH`) que se están procesando actualmente en todos los servidores de API del clúster. Esta métrica representa las solicitudes en tránsito y que aún no se han procesado.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_current_inflight_requests_READONLY`   |  El número de solicitudes de solo lectura (`GET`, `LIST`) que se están procesando actualmente en todos los servidores de API del clúster. Esta métrica representa las solicitudes en tránsito y que aún no se han procesado.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_admission_webhook_request_total`   |  El número de solicitudes de webhook de admisión hechas en todos los servidores de API del clúster.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_admission_webhook_request_total_ADMIT`   |  El número de solicitudes mutantes de webhook de admisión hechas en todos los servidores de API del clúster.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_admission_webhook_request_total_VALIDATING`   |  El número de solicitudes de validación de webhook de admisión hechas en todos los servidores de API del clúster.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_admission_webhook_rejection_count`   |  El número de solicitudes de webhook de admisión hechas en todos los servidores de API del clúster que se rechazaron.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_admission_webhook_rejection_count_ADMIT`   |  El número de solicitudes mutantes de webhook de admisión hechas en todos los servidores de API del clúster que se rechazaron.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_admission_webhook_rejection_count_VALIDATING`   |  El número de solicitudes de validación de webhook de admisión hechas en todos los servidores de API del clúster que se rechazaron.  **Unidades**: recuento  **Estadísticas válidas:** Sum  | 
|   `apiserver_admission_webhook_admission_duration_seconds`   |  El percentil 99 de latencia de las solicitudes de webhook de admisión de terceros se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes de webhook de admisión de terceros.  **Unidades:** segundos  **Estadísticas válidas:** Promedio  | 
|   `apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99`   |  El percentil 99 de latencia de las solicitudes mutantes de webhook de admisión de terceros se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes mutantes de webhook de admisión de terceros.  **Unidades:** segundos  **Estadísticas válidas:** Promedio  | 
|   `apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99`   |  El percentil 99 de latencia de las solicitudes de validación de webhook de admisión de terceros se calcula a partir de todas las solicitudes de todos los servidores de API del clúster. Representa el tiempo de respuesta por debajo del cual se completa el 99 % de todas las solicitudes de validación de webhook de admisión de terceros.  **Unidades:** segundos  **Estadísticas válidas:** Promedio  | 
|   `apiserver_storage_size_bytes`   |  El tamaño físico en bytes del archivo de base de datos de almacenamiento etcd utilizado por los servidores de API del clúster. Esta métrica representa el espacio real en disco asignado al almacenamiento.  **Unidades:** bytes  **Estadísticas válidas:** Máximo  | 

## Amazon CloudWatch Observability Operator
<a name="cloudwatch-operator"></a>

Observabilidad de Amazon CloudWatch recopila datos de rastreo, métricas y registros en tiempo real. Los envía a [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) y [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html). Puede instalar este complemento para habilitar tanto CloudWatch Application Signals como CloudWatch Container Insights con una observabilidad mejorada para Amazon EKS. Esto le ayuda a monitorear el estado y el rendimiento de su infraestructura y aplicaciones en contenedores. El operador de observabilidad de Amazon CloudWatch está diseñado para instalar y configurar los componentes necesarios.

Amazon EKS admite el operador de observabilidad de CloudWatch como [complemento de Amazon EKS](eks-add-ons.md). El complemento permite Información de contenedores en los nodos de trabajo de Linux y Windows del clúster. Para activar Información de contenedores en Windows, la versión del complemento de Amazon EKS debe ser `1.5.0` o posterior. Actualmente, CloudWatch Application Signals no es compatible con Amazon EKS en Windows.

Los siguientes temas describen cómo comenzar a utilizar el operador de observabilidad de CloudWatch para el clúster de Amazon EKS.
+ Para obtener instrucciones sobre la instalación de este complemento, consulte [Instalación del agente de CloudWatch con el complemento de EKS de observabilidad de Amazon CloudWatch o el gráfico de Helm](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html) en la *Guía del usuario de Amazon CloudWatch*.
+ Para obtener más información sobre CloudWatch Application Signals, consulte [Application Signals](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Application-Monitoring-Sections.html) en la *Guía del usuario de Amazon CloudWatch*.
+ Para obtener más información sobre Container Insights, consulte [Using Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html) en la *Guía del usuario de Amazon CloudWatch*.