Métricas do Container Insights do Amazon EKS e do Kubernetes

As tabelas a seguir listam as métricas e as dimensões que o Container Insights coleta para o Amazon EKS e Kubernetes. Essas métricas estão no namespace ContainerInsights. Para obter mais informações, consulte Métricas.

Se você não vir as métricas do Container Insights no seu console, certifique-se de que você tenha concluído a configuração do Container Insights. As métricas não serão exibidas até que o Container Insights tenha sido configurado completamente. Para obter mais informações, consulte Configurar o Container Insights.

Nome da métrica	Dimensões	Descrição
`cluster_failed_node_count`	`ClusterName`	O número de nós do operador com falha no cluster. Um nó é considerado com falha quando apresenta qualquer condição de nó. Para obter mais informações, consulte Condições na documentação do Kubernetes.
`cluster_node_count`	`ClusterName`	O número total de nós do operador no cluster.
`namespace_number_of_running_pods`	`Namespace` `ClusterName` `ClusterName`	O número de pods em execução por namespace no recurso especificado pelas dimensões que você está usando.
`node_cpu_limit`	`ClusterName`	O número máximo de unidades de CPU que pode ser atribuído a um único nó neste cluster.
`node_cpu_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	A porcentagem de unidades de CPU reservadas para componentes do nó, como kubelet, kube-proxy e Docker. Fórmula: `node_cpu_request / node_cpu_limit` nota `node_cpu_request` não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.
`node_cpu_usage_total`	`ClusterName`	O número de unidades da CPU que está sendo usado nos nós do cluster.
`node_cpu_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	A porcentagem total de unidades de CPU que está sendo usada nos nós do cluster. Fórmula: `node_cpu_usage_total / node_cpu_limit`
`node_gpu_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	O número total de GPUs disponíveis no nó.
`node_gpu_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	O número de GPUs em uso pelos pods em execução no nó.
`node_gpu_reserved_capacity`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	A porcentagem de GPU atualmente em reserva no nó. A fórmula é `node_gpu_request / node_gpu_limit`. nota `node_gpu_request` não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.
`node_filesystem_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	A porcentagem total da capacidade do sistema de arquivos que está sendo usado nos nós do cluster. Fórmula: `node_filesystem_usage / node_filesystem_capacity` nota `node_filesystem_usage` e `node_filesystem_capacity` não são relatados diretamente como métricas, mas são campos em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.
`node_memory_limit`	`ClusterName`	A quantidade máxima de memória, em bytes, que pode ser atribuída a um único nó neste cluster.
`node_memory_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	A porcentagem de memória que está sendo usada no momento nos nós do cluster. Fórmula: `node_memory_request / node_memory_limit` nota `node_memory_request` não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.
`node_memory_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	A porcentagem de memória que está sendo usada no momento pelo nó ou nós. É o percentual de uso de memória de nó dividido pela limitação de memória de nó. Fórmula: `node_memory_working_set / node_memory_limit`.
`node_memory_working_set`	`ClusterName`	A quantidade de memória, em bytes, sendo usada no conjunto de trabalho dos nós no cluster.
`node_network_total_bytes`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	O número total de bytes transmitidos e recebidos por segundo pela rede por nó em um cluster. Fórmula: `node_network_rx_bytes + node_network_tx_bytes` nota `node_network_rx_bytes` e `node_network_tx_bytes` não são relatados diretamente como métricas, mas são campos em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.
`node_number_of_running_containers`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	O número de contêineres em execução por nó em um cluster.
`node_number_of_running_pods`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	O número de pods em execução por nó em um cluster.
`pod_cpu_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName`	A capacidade da CPU reservada por pod em um cluster. Fórmula: `pod_cpu_request / node_cpu_limit` nota `pod_cpu_request` não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.
`pod_cpu_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	A porcentagem de unidades de CPU que estão sendo usadas por pods. Fórmula: `pod_cpu_usage_total / node_cpu_limit`
`pod_cpu_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	O percentual das unidades de CPU que estão sendo usadas por pods com relação ao limite de pods. Fórmula: `pod_cpu_usage_total / pod_cpu_limit`
`pod_gpu_request`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`	As solicitações de GPU para o pod. Esse valor deve ser sempre igual a `pod_gpu_limit`.
`pod_gpu_limit`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`	O número máximo de GPUs que podem ser atribuídas ao pod em um nó.
`pod_gpu_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`	O número de GPUs que estão sendo alocadas no pod.
`pod_gpu_reserved_capacity`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `FullPodName`, `Namespace`, `PodName`	A porcentagem de GPU atualmente em reserva para o pod. A fórmula é - pod_gpu_request / node_gpu_reserved_capacity.
`pod_memory_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName`	A porcentagem de memória reservada para pods. Fórmula: `pod_memory_request / node_memory_limit` nota `pod_memory_request` não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.
`pod_memory_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	A porcentagem de memória que está sendo usada atualmente pelo pod ou pods. Fórmula: `pod_memory_working_set / node_memory_limit`
`pod_memory_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	O percentual de memória que está sendo usada por pods com relação ao limite de pods. Se qualquer contêiner no pod não tiver um limite de memória definido, essa métrica não aparecerá. Fórmula: `pod_memory_working_set / pod_memory_limit`
`pod_network_rx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	O número de bytes que estão sendo recebidos por segundo na rede pelo pod. Fórmula: `sum(pod_interface_network_rx_bytes)` nota `pod_interface_network_rx_bytes` não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.
`pod_network_tx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName`	O número de bytes que estão sendo transmitidos por segundo na rede pelo pod. Fórmula: `sum(pod_interface_network_tx_bytes)` nota `pod_interface_network_tx_bytes` não é relatado diretamente como uma métrica, mas é um campo em eventos de log de performance. Para obter mais informações, consulte Campos relevantes nos eventos de log de performance para Amazon EKS e Kubernetes.
`pod_number_of_container_restarts`	`PodName`, `Namespace`, `ClusterName`	O número total de reinicializações de contêineres em um pod.
`service_number_of_running_pods`	`Service`, `Namespace`, `ClusterName` `ClusterName`	O número de pods que executam o serviço ou os serviços no cluster.

Métricas do Kueue

A partir da versão v2.4.0-eksbuild.1 do complemento CloudWatch Observability EKS, o Container Insights para Amazon EKS coleta automaticamente as métricas do Kueue de clusters do Amazon EKS. Para obter mais informações sobre o complemento, consulte Instalação do agente do CloudWatch com o complemento de observabilidade do EKS do Amazon CloudWatch ou com o chart do Helm.

Para obter informações sobre como habilitar as métricas, consulte Habilitar métricas do Kueue para habilitá-las.

As métricas do Kueue que são coletadas estão listadas na tabela apresentada a seguir. Essas métricas são publicadas no namespace ContainerInsights/Prometheus do CloudWatch. Para filtrar essas métricas, use as seguintes dimensões:

ClusterQueue é o nome do ClusterQueue
Os valores possíveis de Status são active e inadmissible
Os valores possíveis de Reason são Preempted, PodsReadyTimeout, AdmissionCheck, ClusterQueueStopped e InactiveWorkload
Flavor é o qualificador referenciado.
Resource refere-se aos recursos do computador do cluster, como cpu, memory, gpu etc.

Nome da métrica	Dimensões	Descrição
`kueue_pending_workloads`	`ClusterName`, `ClusterQueue`, `Status` `ClusterName`, `ClusterQueue` `ClusterName`, `Status` `ClusterName`	O número de workloads pendentes.
`kueue_evicted_workloads_total`	`ClusterName`, `ClusterQueue`, `Reason` `ClusterName`, `ClusterQueue` `ClusterName`, `Reason` `ClusterName`	O número total de workloads removidas.
`kueue_admitted_active_workloads`	`ClusterName`, `ClusterQueue` `ClusterName`	O número de workloads admitidas que estão ativas (não suspensas e não concluídas).
`kueue_cluster_queue_resource_usage`	`ClusterName`, `ClusterQueue`, `Resource`, `Flavor` `ClusterName`, `ClusterQueue`, `Resource` `ClusterName`, `ClusterQueue`, `Flavor` `ClusterName`, `ClusterQueue` `ClusterName`	Relata o uso total de recursos do ClusterQueue.
`kueue_cluster_queue_nominal_quota`	`ClusterName`, `ClusterQueue`, `Resource`, `Flavor` `ClusterName`, `ClusterQueue`, `Resource` `ClusterName`, `ClusterQueue`, `Flavor` `ClusterName`, `ClusterQueue` `ClusterName`	Relata a cota de recursos do ClusterQueue.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Métricas do Container Insights com observabilidade aprimorada para o Amazon EKS e o Kubernetes

Referência do log de performance

Métricas do Container Insights do Amazon EKS e do Kubernetes

nota

nota

nota

nota

nota

nota

nota

nota

nota

Métricas do Kueue