Métricas do Amazon EKS e do Kubernetes Container Insights - Amazon CloudWatch

Métricas do Amazon EKS e do Kubernetes Container Insights

As tabelas a seguir listam as métricas e as dimensões que o Container Insights coleta para o Amazon EKS e Kubernetes. Essas métricas estão no namespace ContainerInsights. Para obter mais informações, consulte Métricas.

Se você não vir as métricas do Container Insights no seu console, certifique-se de que você tenha concluído a configuração do Container Insights. As métricas não serão exibidas até que o Container Insights tenha sido configurado completamente. Para obter mais informações, consulte Configurar o Container Insights.

Nome da métrica Dimensões Descrição

cluster_failed_node_count

ClusterName

O número de nós do operador com falha no cluster. Um nó é considerado com falha quando apresenta qualquer condição de nó. Para obter mais informações, consulte Condições na documentação do Kubernetes.

cluster_node_count

ClusterName

O número total de nós do operador no cluster.

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

O número de pods em execução por namespace no recurso especificado pelas dimensões que você está usando.

node_cpu_limit

ClusterName

O número máximo de unidades de CPU que pode ser atribuído a um único nó neste cluster.

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

A porcentagem de unidades de CPU reservadas para componentes do nó, como kubelet, kube-proxy e Docker.

Fórmula: node_cpu_request / node_cpu_limit

nota

node_cpu_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

node_cpu_usage_total

ClusterName

O número de unidades da CPU que está sendo usado nos nós do cluster.

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

A porcentagem total de unidades de CPU que está sendo usada nos nós do cluster.

Fórmula: node_cpu_usage_total / node_cpu_limit

node_gpu_limit

ClusterName

ClusterName, InstanceId, NodeName

O número total de GPUs disponíveis no nó.

node_gpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

O número de GPUs em uso pelos pods em execução no nó.

node_gpu_reserved_capacity

ClusterName

ClusterName, InstanceId, NodeName

A porcentagem de GPU atualmente em reserva no nó. A fórmula é node_gpu_request / node_gpu_limit.

nota

node_gpu_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

A porcentagem total da capacidade do sistema de arquivos que está sendo usado nos nós do cluster.

Fórmula: node_filesystem_usage / node_filesystem_capacity

nota

node_filesystem_usage e node_filesystem_capacity não são relatados diretamente como métricas, mas são campos em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

node_memory_limit

ClusterName

A quantidade máxima de memória, em bytes, que pode ser atribuída a um único nó neste cluster.

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

A porcentagem de memória que está sendo usada no momento nos nós do cluster.

Fórmula: node_memory_request / node_memory_limit

nota

node_memory_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

A porcentagem de memória que está sendo usada no momento pelo nó ou nós. É o percentual de uso de memória de nó dividido pela limitação de memória de nó.

Fórmula: node_memory_working_set / node_memory_limit.

node_memory_working_set

ClusterName

A quantidade de memória, em bytes, sendo usada no conjunto de trabalho dos nós no cluster.

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

O número total de bytes transmitidos e recebidos por segundo pela rede por nó em um cluster.

Fórmula: node_network_rx_bytes + node_network_tx_bytes

nota

node_network_rx_bytes e node_network_tx_bytes não são relatados diretamente como métricas, mas são campos em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

O número de contêineres em execução por nó em um cluster.

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

O número de pods em execução por nó em um cluster.

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

A capacidade da CPU reservada por pod em um cluster.

Fórmula: pod_cpu_request / node_cpu_limit

nota

pod_cpu_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

A porcentagem de unidades de CPU que estão sendo usadas por pods.

Fórmula: pod_cpu_usage_total / node_cpu_limit

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

O percentual das unidades de CPU que estão sendo usadas por pods com relação ao limite de pods.

Fórmula: pod_cpu_usage_total / pod_cpu_limit

pod_gpu_request

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

As solicitações de GPU para o pod. Esse valor deve ser sempre igual a pod_gpu_limit.

pod_gpu_limit

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

O número máximo de GPUs que podem ser atribuídas ao pod em um nó.

pod_gpu_usage_total

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

O número de GPUs que estão sendo alocadas no pod.

pod_gpu_reserved_capacity

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

A porcentagem de GPU atualmente em reserva para o pod. A fórmula é - pod_gpu_request / node_gpu_reserved_capacity.

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

A porcentagem de memória reservada para pods.

Fórmula: pod_memory_request / node_memory_limit

nota

pod_memory_request não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

A porcentagem de memória que está sendo usada atualmente pelo pod ou pods.

Fórmula: pod_memory_working_set / node_memory_limit

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

O percentual de memória que está sendo usada por pods com relação ao limite de pods. Se qualquer contêiner no pod não tiver um limite de memória definido, essa métrica não aparecerá.

Fórmula: pod_memory_working_set / pod_memory_limit

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

O número de bytes que estão sendo recebidos por segundo na rede pelo pod.

Fórmula: sum(pod_interface_network_rx_bytes)

nota

pod_interface_network_rx_bytes não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

O número de bytes que estão sendo transmitidos por segundo na rede pelo pod.

Fórmula: sum(pod_interface_network_tx_bytes)

nota

pod_interface_network_tx_bytes não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.

pod_number_of_container_restarts

PodName, Namespace, ClusterName

O número total de reinicializações de contêineres em um pod.

service_number_of_running_pods

Service, Namespace, ClusterName

ClusterName

O número de pods que executam o serviço ou os serviços no cluster.

Métricas do Kueue

A partir da versão v2.4.0-eksbuild.1 do complemento CloudWatch Observability EKS, o Container Insights para Amazon EKS coleta automaticamente as métricas do Kueue de clusters do Amazon EKS. Para obter mais informações sobre o complemento, consulte Instalação do agente do CloudWatch com o complemento de observabilidade do EKS do Amazon CloudWatch ou com o chart do Helm.

Para obter informações sobre como habilitar as métricas, consulte Habilitar métricas do Kueue para habilitá-las.

As métricas do Kueue que são coletadas estão listadas na tabela apresentada a seguir. Essas métricas são publicadas no namespace ContainerInsights/Prometheus do CloudWatch. Para filtrar essas métricas, use as seguintes dimensões:

  • ClusterQueue é o nome do ClusterQueue

  • Os valores possíveis de Status são active e inadmissible

  • Os valores possíveis de Reason são Preempted, PodsReadyTimeout, AdmissionCheck, ClusterQueueStopped e InactiveWorkload

  • Flavor é o qualificador referenciado.

  • Resource refere-se aos recursos do computador do cluster, como cpu, memory, gpu etc.

Nome da métrica Dimensões Descrição

kueue_pending_workloads

ClusterName, ClusterQueue, Status

ClusterName, ClusterQueue

ClusterName, Status

ClusterName

O número de workloads pendentes.

kueue_evicted_workloads_total

ClusterName, ClusterQueue, Reason

ClusterName, ClusterQueue

ClusterName, Reason

ClusterName

O número total de workloads removidas.

kueue_admitted_active_workloads

ClusterName, ClusterQueue

ClusterName

O número de workloads admitidas que estão ativas (não suspensas e não concluídas).

kueue_cluster_queue_resource_usage

ClusterName, ClusterQueue, Resource, Flavor

ClusterName, ClusterQueue, Resource

ClusterName, ClusterQueue, Flavor

ClusterName, ClusterQueue

ClusterName

Relata o uso total de recursos do ClusterQueue.

kueue_cluster_queue_nominal_quota

ClusterName, ClusterQueue, Resource, Flavor

ClusterName, ClusterQueue, Resource

ClusterName, ClusterQueue, Flavor

ClusterName, ClusterQueue

ClusterName

Relata a cota de recursos do ClusterQueue.