Amazon EKS 和 Kubernetes Container Insights 指標 - Amazon CloudWatch

Amazon EKS 和 Kubernetes Container Insights 指標

下列資料表列出 Container Insights 為 Amazon EKS 和 Kubernetes 收集的指標和維度。這些指標會在 ContainerInsights 命名空間中。如需更多詳細資訊,請參閱 指標

如果您沒有在主控台中看到任何容器洞見指標,請確定您已完成容器洞見的設定。在完整設定容器洞見前指標都不會出現。如需更多詳細資訊,請參閱 設定 Container Insights

指標名稱 維度 描述

cluster_failed_node_count

ClusterName

叢集中失敗的工作者節點數量。如果節點受困於任何節點條件,則會將其判定為失敗。如需詳細資訊,請參閱 Kubernetes 文件中的條件

cluster_node_count

ClusterName

叢集中的工作者節點總數。

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

資源中每個命名空間執行的 pod 數量,該資源由您正在使用的維度所指定。

node_cpu_limit

ClusterName

可指派至此叢集中單一節點的 CPU 單位數量上限。

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

為節點元件 (例如 kubelet、kube-proxy 和 Docker) 預留的 CPU 單位百分比。

公式:node_cpu_request / node_cpu_limit

注意

node_cpu_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_cpu_usage_total

ClusterName

叢集中節點上正在使用的 CPU 單位數量。

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

叢集中節點上正在使用的 CPU 單位百分比總數。

公式:node_cpu_usage_total / node_cpu_limit

node_gpu_limit

ClusterName

ClusterName, InstanceId, NodeName

節點上可用的 GPU 總數。

node_gpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

節點上執行中 Pod 正在使用的 GPU 數量。

node_gpu_reserved_capacity

ClusterName

ClusterName, InstanceId, NodeName

節點上目前預留的 GPU 百分比。公式為 node_gpu_request / node_gpu_limit

注意

node_gpu_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

叢集中節點上正在使用的檔案系統容量百分比總數。

公式:node_filesystem_usage / node_filesystem_capacity

注意

node_filesystem_usagenode_filesystem_capacity 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_memory_limit

ClusterName

可指派至此叢集中單一節點的記憶體數量上限 (以位元組為單位)。

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

目前在叢集中節點上使用的記憶體百分比。

公式:node_memory_request / node_memory_limit

注意

node_memory_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

節點目前使用的記憶體百分比。這是節點記憶體使用量除以節點記憶體限制的百分比。

公式:node_memory_working_set / node_memory_limit

node_memory_working_set

ClusterName

叢集中運作中一組節點中正在使用的記憶體數量 (以位元組為單位)。

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

叢集中每個節點每秒透過網路傳輸和接收的位元組總數。

公式:node_network_rx_bytes + node_network_tx_bytes

注意

node_network_rx_bytesnode_network_tx_bytes 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

叢集中每個節點執行中的容器數。

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

叢集中每個節點執行中的 pod 數。

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

叢集中每個 pod 預留的 CPU 容量。

公式:pod_cpu_request / node_cpu_limit

注意

pod_cpu_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

Pod 使用的 CPU 單位百分比。

公式:pod_cpu_usage_total / node_cpu_limit

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

Pod 正在使用的 CPU 單位百分比,此百分比與 Pod 限制相對。

公式:pod_cpu_usage_total / pod_cpu_limit

pod_gpu_request

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

Pod 的 GPU 請求。此值必須始終等於 pod_gpu_limit

pod_gpu_limit

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

可指派給節點中 Pod 的 GPU 數量上限。

pod_gpu_usage_total

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

在 Pod 上配置的 GPU 數量。

pod_gpu_reserved_capacity

ClusterName

ClusterName, Namespace, PodName

ClusterName, FullPodName, Namespace, PodName

目前為 Pod 預留的 GPU 百分比。公式為 - pod_gpu_request / node_gpu_reserved_capacity。

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

為 Pod 保留的記憶體百分比。

公式:pod_memory_request / node_memory_limit

注意

pod_memory_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

Pod 目前使用的記憶體百分比。

公式:pod_memory_working_set / node_memory_limit

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

Pod 正在使用的記憶體百分比,此百分比與 Pod 限制相對。如果 Pod 中有任何容器未定義記憶體限制,這個指標將不會顯示。

公式:pod_memory_working_set / pod_memory_limit

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

Pod 透過網路每秒接收的位元組數。

公式:sum(pod_interface_network_rx_bytes)

注意

pod_interface_network_rx_bytes 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

Pod 透過網路每秒傳輸的位元組數。

公式:sum(pod_interface_network_tx_bytes)

注意

pod_interface_network_tx_bytes 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_number_of_container_restarts

PodName, Namespace, ClusterName

Pod 中重新啟動的容器總數。

service_number_of_running_pods

Service, Namespace, ClusterName

ClusterName

叢集中執行服務的 Pod 數量。

Kueue 指標

從 CloudWatch Observability EKS 附加元件的版本 v2.4.0-eksbuild.1 開始,適用於 Amazon EKS 的 Container Insights 支援從 Amazon EKS 叢集收集 Kueue 指標。如需有關附加元件的詳細資訊,請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式

如需有關啟用指標的資訊,請參閱啟用 Kueue 指標以啟用指標。

收集的 Kueue 指標列於下列資料表中。這些指標會發佈到 CloudWatch 的 ContainerInsights/Prometheus 命名空間中:其中一些指標會使用下列維度:

  • ClusterQueue 為 ClusterQueue 的名稱

  • Status 的可能值為 activeinadmissible

  • Reason 的可能值為 PreemptedPodsReadyTimeoutAdmissionCheckClusterQueueStoppedInactiveWorkload

  • Flavor 為參考版本。

  • Resource 是指叢集計算機資源,例如 cpumemorygpu 等。

指標名稱 維度 描述

kueue_pending_workloads

ClusterName, ClusterQueue, Status

ClusterName, ClusterQueue

ClusterName, Status

ClusterName

待處理工作負載的數量。

kueue_evicted_workloads_total

ClusterName, ClusterQueue, Reason

ClusterName, ClusterQueue

ClusterName, Reason

ClusterName

已移出的工作負載總數。

kueue_admitted_active_workloads

ClusterName, ClusterQueue

ClusterName

作用中的已確認工作負載數量 (未暫停和未完成)。

kueue_cluster_queue_resource_usage

ClusterName, ClusterQueue, Resource, Flavor

ClusterName, ClusterQueue, Resource

ClusterName, ClusterQueue, Flavor

ClusterName, ClusterQueue

ClusterName

報告 ClusterQueue 的總資源用量。

kueue_cluster_queue_nominal_quota

ClusterName, ClusterQueue, Resource, Flavor

ClusterName, ClusterQueue, Resource

ClusterName, ClusterQueue, Flavor

ClusterName, ClusterQueue

ClusterName

報告 ClusterQueue 的資源配額。