具有增強可觀測性指標的 Amazon EKS 和 Kubernetes Container Insights - Amazon CloudWatch

具有增強可觀測性指標的 Amazon EKS 和 Kubernetes Container Insights

下表列出具有增強可觀測性的 Container Insights 為 Amazon EKS 和 Kubernetes 收集的指標和維度。這些指標會在 ContainerInsights 命名空間中。如需更多詳細資訊,請參閱 指標

如果沒有在主控台中看到任何具有增強可觀測性的 Container Insights 指標,請確定您已完成具有增強可觀測性的 Container Insights 的設定。在完整設定具有增強可觀測性的 Container Insights 之前,指標都不會出現。如需更多詳細資訊,請參閱 設定 Container Insights

如果使用 1.5.0 版或更新版本的 Amazon EKS 附加元件或 1.300035.0 版的 CloudWatch 代理程式,則會針對 Linux 和 Windows 節點收集下表列出的大多數指標。請參閱資料表的指標名稱欄,查看哪些指標不是針對 Windows 收集的。

使用在叢集和服務層級提供彙總指標的舊版 Container Insights,這些指標作為自訂指標計費。使用 Container Insights 搭配 Amazon EKS 的增強可觀測性,Container Insights 指標會按觀測,而不是存放或擷取的指標計費。如需 CloudWatch 定價的詳細資訊,請參閱 Amazon CloudWatch 定價

注意

在 Windows 中,不會為主機程序容器收集網路指標,例如 pod_network_rx_bytespod_network_tx_bytes

在 RedHat OpenShift on AWS (ROSA) 叢集上,不會收集 node_diskio_io_serviced_totalnode_diskio_io_service_bytes_total 等磁碟指標。

指標名稱 維度 描述

cluster_failed_node_count

ClusterName

叢集中失敗的工作者節點數量。如果節點受困於任何節點條件,則會將其判定為失敗。如需詳細資訊,請參閱 Kubernetes 文件中的條件

cluster_node_count

ClusterName

叢集中的工作者節點總數。

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

資源中每個命名空間執行的 pod 數量,該資源由您正在使用的維度所指定。

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

可指派至此叢集中單一節點的 CPU 單位數量上限。

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

為節點元件 (例如 kubelet、kube-proxy 和 Docker) 預留的 CPU 單位百分比。

公式:node_cpu_request / node_cpu_limit

注意

node_cpu_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

叢集中節點上正在使用的 CPU 單位數量。

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

叢集中節點上正在使用的 CPU 單位百分比總數。

公式:node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

叢集中節點上正在使用的檔案系統容量百分比總數。

公式:node_filesystem_usage / node_filesystem_capacity

注意

node_filesystem_usagenode_filesystem_capacity 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

可指派至此叢集中單一節點的記憶體數量上限 (以位元組為單位)。

node_filesystem_inodes

在 Windows 中不可用。

ClusterName

ClusterName, InstanceId, NodeName

節點上的 inode 總數 (已使用和未使用)。

node_filesystem_inodes_free

在 Windows 中不可用。

ClusterName

ClusterName, InstanceId, NodeName

節點上未使用的 inode 數目。

node_gpu_limit

ClusterName

ClusterName, InstanceId, NodeName

節點上可用的 GPU 總數。

node_gpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

節點上執行中 Pod 正在使用的 GPU 數量。

node_gpu_reserved_capacity

ClusterName

ClusterName, InstanceId, NodeName

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

目前在叢集中節點上使用的記憶體百分比。

公式:node_memory_request / node_memory_limit

注意

node_memory_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

節點目前使用的記憶體百分比。這是節點記憶體使用量除以節點記憶體限制的百分比。

公式:node_memory_working_set / node_memory_limit

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

叢集中運作中一組節點中正在使用的記憶體數量 (以位元組為單位)。

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

叢集中每個節點每秒透過網路傳輸和接收的位元組總數。

公式:node_network_rx_bytes + node_network_tx_bytes

注意

node_network_rx_bytesnode_network_tx_bytes 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

叢集中每個節點執行中的容器數。

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

叢集中每個節點執行中的 pod 數。

node_status_allocatable_pods

ClusterName

ClusterName, InstanceId, NodeName

可根據節點的可配置資源指派其 Pod 數目,其定義為在計算系統常駐程式保留項目和硬式移出閾值之後節點容量的剩餘部分。

node_status_capacity_pods

ClusterName

ClusterName, InstanceId, NodeName

可根據節點容量指派給節點的 Pod 數目。

node_status_condition_ready

ClusterName

ClusterName, InstanceId, NodeName

指示 Amazon EC2 節點的節點狀態條件 Ready 是否為 True。

node_status_condition_memory_pressure

ClusterName

ClusterName, InstanceId, NodeName

表示節點狀態條件 MemoryPressure 是否為 True。

node_status_condition_pid_pressure

ClusterName

ClusterName, InstanceId, NodeName

表示節點狀態條件 PIDPressure 是否為 True。

node_status_condition_disk_pressure

ClusterName

ClusterName, InstanceId, NodeName

表示節點狀態條件 OutOfDisk 是否為 True。

node_status_condition_unknown

ClusterName

ClusterName, InstanceId, NodeName

表示是否有任何節點狀態條件為「未知」。

node_interface_network_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

節點上網路介面接收並隨後捨棄的封包數目。

node_interface_network_tx_dropped

ClusterName

ClusterName, InstanceId, NodeName

節點上的網路介面傳輸但捨棄的封包數目。

node_diskio_io_service_bytes_total

它不適用於 Windows 或 ROSA 叢集。

ClusterName

ClusterName, InstanceId, NodeName

節點上所有 I/O 操作傳送的位元組總數。

node_diskio_io_serviced_total

它不適用於 Windows 或 ROSA 叢集。

ClusterName

ClusterName, InstanceId, NodeName

節點上的 I/O 操作總數。

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

叢集中每個 pod 預留的 CPU 容量。

公式:pod_cpu_request / node_cpu_limit

注意

pod_cpu_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 使用的 CPU 單位百分比。

公式:pod_cpu_usage_total / node_cpu_limit

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 正在使用的 CPU 單位百分比,此百分比與 Pod 限制相對。

公式:pod_cpu_usage_total / pod_cpu_limit

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

為 Pod 保留的記憶體百分比。

公式:pod_memory_request / node_memory_limit

注意

pod_memory_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 目前使用的記憶體百分比。

公式:pod_memory_working_set / node_memory_limit

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 正在使用的記憶體百分比,此百分比與 Pod 限制相對。如果 Pod 中有任何容器未定義記憶體限制,這個指標將不會顯示。

公式:pod_memory_working_set / pod_memory_limit

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 透過網路每秒接收的位元組數。

公式:sum(pod_interface_network_rx_bytes)

注意

pod_interface_network_rx_bytes 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 透過網路每秒傳輸的位元組數。

公式:sum(pod_interface_network_tx_bytes)

注意

pod_interface_network_tx_bytes 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_cpu_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Pod 的 CPU 請求。

公式:sum(container_cpu_request)

注意

pod_cpu_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_memory_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Pod 的記憶體請求。

公式:sum(container_memory_request)

注意

pod_memory_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_cpu_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Pod 中的容器定義的 CPU 限制。如果 Pod 中有任何容器未定義 CPU 限制,這個指標將不會顯示。

公式:sum(container_cpu_limit)

注意

pod_cpu_limit 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_memory_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Pod 中的容器定義的記憶體限制。如果 Pod 中有任何容器未定義記憶體限制,這個指標將不會顯示。

公式:sum(container_memory_limit)

注意

pod_cpu_limit 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_status_failed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示 Pod 中的所有容器都已終止,且至少有一個容器已經以非零狀態終止,或已由系統終止。

pod_status_ready

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示 Pod 中的所有容器都已就緒,且已達到條件 ContainerReady

pod_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示 Pod 中的所有容器都在執行中。

pod_status_scheduled

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示 Pod 已排程至節點。

pod_status_unknown

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示無法取得 Pod 的狀態。

pod_status_pending

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示叢集已接受 Pod,但有一個或多個容器尚未準備就緒。

pod_status_succeeded

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示 Pod 中的所有容器都已成功終止,而且不會重新啟動。

pod_number_of_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 規格中定義的容器數目。

pod_number_of_running_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中目前處於 Running 狀態的容器數目。

pod_container_status_terminated

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中處於 Terminated 狀態的容器數目。

pod_container_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中處於 Running 狀態的容器數目。

pod_container_status_waiting

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中處於 Waiting 狀態的容器數目。

pod_container_status_waiting_reason_crash_loop_back_off

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中因 CrashLoopBackOff 錯誤而待定的容器數量,其中容器會重複無法啟動。

pod_container_status_waiting_reason_create_container_config_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中因為 CreateContainerConfigError 原因而待定的容器數目。這是因為建立容器組態時發生錯誤。

pod_container_status_waiting_reason_create_container_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中因建立容器時發生錯誤 CreateContainerError 而待定的容器數量。

pod_container_status_waiting_reason_image_pull_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中因 ErrImagePullImagePullBackOffInvalidImageName 而待定的容器數量。這些情況是因為提取容器映像時發生錯誤。

pod_container_status_waiting_reason_oom_killed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中處於 Terminated 狀態的容器數目

因為記憶體不足 (OOM 已終止)。

pod_container_status_waiting_reason_start_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中因啟動容器時發生錯誤 StartError 而待定的容器數量。

pod_container_status_terminated_reason_oom_killed

ContainerName, FullPodName, PodName, Namespace, ClusterName

ContainerName, PodName, Namespace, ClusterName

ClusterName

指示因超過記憶體限制而終止 Pod。只有在發生此問題時,才會顯示此指標。

pod_interface_network_rx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Pod 上網路介面接收並隨後捨棄的封包數目。

pod_interface_network_tx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

針對 Pod 傳輸但捨棄的封包數目。

pod_memory_working_set

ClusterName

ClusterName, Namespace, PodName

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

Pod 目前正在使用的記憶體 (以位元組為單位)。

pod_cpu_usage_total

ClusterName

ClusterName, Namespace, PodName

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

Pod 使用的 CPU 單位數。

container_cpu_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

容器使用的 CPU 單位百分比。

公式:container_cpu_usage_total / node_cpu_limit

注意

container_cpu_utilization 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

container_cpu_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

相對於容器限制,容器正在使用的 CPU 單位百分比。如果容器未定義 CPU 限制,這個指標將不會顯示。

公式:container_cpu_usage_total / container_cpu_limit

注意

container_cpu_utilization_over_container_limit 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

container_memory_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

容器使用的記憶體單位百分比。

公式:container_memory_working_set / node_memory_limit

注意

container_memory_utilization 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

container_memory_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

相對於容器限制,容器正在使用的記憶體單位百分比。如果容器未定義記憶體限制,這個指標將不會顯示。

公式:container_memory_working_set / container_memory_limit

注意

container_memory_utilization_over_container_limit 不會直接回報為指標,而是效能日誌事件中的欄位。如需更多詳細資訊,請參閱 Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

container_memory_failures_total

在 Windows 中不可用。

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

容器經歷的記憶體配置失敗次數。

pod_number_of_container_restarts

PodName、NamespaceClusterName

Pod 中重新啟動的容器總數。

service_number_of_running_pods

服務、NamespaceClusterName

ClusterName

叢集中執行服務的 Pod 數量。

replicas_desired

ClusterName

PodName, Namespace, ClusterName

工作負載規格中定義的工作負載所需 Pod 數目。

replicas_ready

ClusterName

PodName, Namespace, ClusterName

已達到就緒狀態的工作負載 Pod 數目。

status_replicas_available

ClusterName

PodName, Namespace, ClusterName

可供工作負載使用的 Pod 數目。當 Pod 準備好用於工作負載規格中定義的 minReadySeconds 時可供使用。

status_replicas_unavailable

ClusterName

PodName, Namespace, ClusterName

工作負載無法使用的 Pod 數目。當 Pod 準備好用於工作負載規格中定義的 minReadySeconds 時可供使用。如果 Pod 不符合此條件,則無法使用。

apiserver_storage_objects

ClusterName

ClusterName, resource

上次檢查時存放在 etcd 中的物件數目。

apiserver_storage_db_total_size_in_bytes

ClusterName

ClusterName, endpoint

實體配置的儲存資料庫檔案總大小 (以位元組為單位)。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

單位:位元組

有意義的統計資料:總和、平均值、最小值、最大值

apiserver_request_total

ClusterName

ClusterName, code, verb

向 Kubernetes API 伺服器發出的 API 請求總數。

apiserver_request_duration_seconds

ClusterName

ClusterName, verb

向 Kubernetes API 伺服器發出的 API 請求的回應延遲。

apiserver_admission_controller_admission_duration_seconds

ClusterName

ClusterName, operation

許可控制器延遲 (以秒為單位)。許可控制器是攔截向 Kubernetes API 伺服器發出請求的程式碼。

rest_client_request_duration_seconds

ClusterName

ClusterName, operation

用戶端呼叫 Kubernetes API 伺服器時遇到的回應延遲。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

rest_client_requests_total

ClusterName

ClusterName, code, method

用戶端向 Kubernetes API 伺服器發出的 API 請求總數。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

etcd_request_duration_seconds

ClusterName

ClusterName, operation

對 Etcd 的 API 呼叫的回應延遲。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

apiserver_storage_size_bytes

ClusterName

ClusterName, endpoint

實體配置的儲存資料庫檔案大小 (以位元組為單位)。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

apiserver_longrunning_requests

ClusterName

ClusterName, resource

向 Kubernetes API 伺服器發出的長時間執行的作用中請求數目。

apiserver_current_inflight_requests

ClusterName

ClusterName, request_kind

Kubernetes API 伺服器正在處理的請求數目。

apiserver_admission_webhook_admission_duration_seconds

ClusterName

ClusterName, name

許可 Webhook 延遲 (以秒為單位)。許可 Webhook 是接收許可請求並對其執行某些操作的 HTTP 回呼。

apiserver_admission_step_admission_duration_seconds

ClusterName

ClusterName, operation

許可子步驟延遲 (以秒為單位)。

apiserver_requested_deprecated_apis

ClusterName

ClusterName, group

在 Kubernetes API 伺服器上發出的取代 API 的請求數目。

apiserver_request_total_5xx

ClusterName

ClusterName, code, verb

向 Kubernetes API 伺服器發出的請求數目,該請求使用 5XX HTTP 回應碼做出回應。

apiserver_storage_list_duration_seconds

ClusterName

ClusterName, resource

Etc 列示物件的回應延遲。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

apiserver_flowcontrol_request_concurrency_limit

ClusterName

ClusterName, priority_level

目前在 API Priority and Fairness 子系統中執行請求所使用的執行緒數目。

apiserver_flowcontrol_rejected_requests_total

ClusterName

ClusterName, reason

API 優先順序與公平性子系統拒絕的請求數目。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

apiserver_current_inqueue_requests

ClusterName

ClusterName, request_kind

Kubernetes API 伺服器排入佇列的請求數目。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

NVIDIA GPU 指標

從 CloudWatch 代理程式的 1.300034.0 版本開始,適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 預設會從 EKS 工作負載收集 NVIDIA GPU 指標。必須使用 CloudWatch Observability EKS 附加元件版本 v1.3.0-eksbuild.1 或更新版本來安裝 CloudWatch 代理程式。如需更多詳細資訊,請參閱 使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。收集的 NVIDIA GPU 指標會列在本節的資料表中。

若要讓 Container Insights 收集 NVIDIA GPU 指標,必須滿足下列先決條件:

  • 必須搭配使用適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 與 Amazon CloudWatch Observability EKS 附加元件版本 v1.3.0-eksbuild.1 或更新版本。

  • 適用於 Kubernetes 的 NVIDIA 裝置外掛程式必須安裝在叢集中。

  • NVIDIA 容器工具組必須安裝在叢集的節點上。例如,Amazon EKS 最佳化加速 AMI 是用必要的元件建置而成。

可以選擇不收集 NVIDIA GPU 指標,方法是將 CloudWatch 代理程式組態檔案中的 accelerated_compute_metrics 選項設定為 false。如需詳細資訊和選擇退出組態範例,請參閱 (選用) 額外組態

指標名稱 維度 描述

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器之 GPU 上的影格緩衝區總大小 (以位元組為單位)。

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器之 GPU 上使用的影格緩衝區位元組數目。

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器之 GPU 上使用的影格緩衝區百分比。

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器之 GPU 的用電量 (瓦)。

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器之 GPU 的溫度 (攝氏度)。

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器之 GPU 的使用率百分比。

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點之 GPU 上的影格緩衝區總大小 (以位元組為單位)。

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點之 GPU 上使用的影格緩衝區位元組數目。

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點之 GPU 上使用的影格緩衝區百分比。

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點之 GPU 的用電量 (瓦)。

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點之 GPU 的溫度 (攝氏度)。

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點之 GPU 的使用率百分比。

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

配置給 Pod 之 GPU 上的影格緩衝區總大小 (以位元組為單位)。

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

配置給 Pod 之 GPU 上使用的影格緩衝區位元組數目。

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

配置給 Pod 之 GPU 上使用的影格緩衝區百分比。

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

配置給 Pod 之 GPU 的用電量 (瓦)。

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

配置給 Pod 之 GPU 的溫度 (攝氏度)。

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給 Pod 之 GPU 的使用率百分比。

適用於 AWS Trainium 和 AWS Inferentia 的 AWS Neuron 指標

從 CloudWatch 代理程式的 1.300036.0 版本開始,適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 預設會從 AWS Trainium 和 AWS Inferentia 加速器中收集加速運算指標。必須使用 CloudWatch Observability EKS 附加元件版本 v1.5.0-eksbuild.1 或更新版本來安裝 CloudWatch 代理程式。如需有關附加元件的詳細資訊,請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。如需有關 AWS Trainium 的詳細資訊,請參閱 AWS Trainium。如需有關 AWS Inferentia 的詳細資訊,請參閱 AWS Inferentia

若要讓 Container Insights 收集 AWS Neuron 指標,必須滿足下列先決條件:

  • 必須搭配使用適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 與 Amazon CloudWatch Observability EKS 附加元件版本 v1.5.0-eksbuild.1 或更新版本。

  • Neuron 驅動程式必須安裝在叢集的節點上。

  • Neuron 裝置外掛程式必須安裝在叢集上。例如,Amazon EKS 最佳化加速 AMI 是用必要的元件建置而成。

收集的指標會列在本節的資料表中。會針對 AWS Trainium、AWS Inferentia 和 AWS Inferentia2 收集指標。

CloudWatch 代理程式會從 Neuron 監視器收集這些指標,並執行必要的 Kubernetes 資源關聯,以在 Pod 和容器層級交付指標

指標名稱 維度 描述

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

在配置給容器的 NeuronCore 擷取期間的 NeuronCore 使用率。

單位:百分比

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

在配置給容器的 NeuronCore 訓練期間,用於常數的裝置記憶體量 (或在推論期間的權重)。

單位:位元組

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。

單位:位元組

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 所共用模型的暫存器所用的裝置記憶體量。此記憶體區域預留給模型。

單位:位元組

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。

單位:位元組

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 用於張量的裝置記憶體數量。

單位:位元組

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 所使用的記憶體總量。

單位:位元組

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

節點上 Neuron 裝置的晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。

單位:計數

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

在配置給 Pod 的 NeuronCore 擷取期間的 NeuronCore 使用率。

單位:百分比

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

在配置給 Pod 的 NeuronCore 訓練期間,用於常數的裝置記憶體量 (或在推論期間的權重)。

單位:位元組

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。

單位:位元組

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 所共用模型的暫存器所用的裝置記憶體量。此記憶體區域預留給模型。

單位:位元組

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。

單位:位元組

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 用於張量的裝置記憶體數量。

單位:位元組

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 所使用的記憶體總量。

單位:位元組

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

配置給 Pod 之 Neuron 裝置的晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。

單位:位元組

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

在配置給節點的 NeuronCore 擷取期間的 NeuronCore 使用率。

單位:百分比

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

在配置給節點的 NeuronCore 訓練期間,用於常數的裝置記憶體量 (或在推論期間的權重)。

單位:位元組

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。

單位:位元組

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 所共用模型的暫存器所用的裝置記憶體量。這是預留給模型的記憶體區域。

單位:位元組

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。

單位:位元組

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 用於張量的裝置記憶體數量。

單位:位元組

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 所使用的記憶體總量。

單位:位元組

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

節點上的執行錯誤總數。這是由 CloudWatch 代理程式透過彙總下列類型的錯誤來計算:genericnumericaltransientmodelruntimehardware

單位:計數

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

節點上以位元組為單位的 Neuron 裝置記憶體總用量。

單位:位元組

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

Neuron 執行時期測量的節點上的執行延遲 (單位為秒)。

單位:秒

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

節點上 Neuron 裝置的晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。

單位:計數

AWS Elastic Fabric Adapter (EFA) 指標

從 CloudWatch 代理程式的 1.300037.0 版本開始,適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 會從 Linux 執行個體上的 Amazon EKS 叢集中收集 AWS Elastic Fabric Adapter (EFA) 指標。必須使用 CloudWatch Observability EKS 附加元件版本 v1.5.2-eksbuild.1 或更新版本來安裝 CloudWatch 代理程式。如需有關附加元件的詳細資訊,請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。如需有關 AWS Elastic Fabric Adapter 的詳細資訊,請參閱 Elastic Fabric Adapter

若要讓 Container Insights 收集 AWS Elastic Fabric Adapter 指標,必須滿足下列先決條件:

  • 必須搭配使用適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 與 Amazon CloudWatch Observability EKS 附加元件版本 v1.5.2-eksbuild.1 或更新版本。

  • EFA 裝置外掛程式必須安裝在叢集上。如需詳細資訊,請參閱 GitHub 上的 aws-efa-k8s-device-plugin

收集的指標列於下列資料表中。

指標名稱 維度 描述

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置每秒接收的位元組數。

單位:位元組/秒

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置每秒傳輸的位元組數。

單位:位元組/秒

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置接收並捨棄的封包數。

單位:計數/秒

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒接收的位元組數。

單位:位元組/秒

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒傳輸的位元組數。

單位:位元組/秒

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置在遠端直接記憶體存取寫入操作期間每秒接收的位元組數。

單位:位元組/秒

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置每秒接收的位元組數。

單位:位元組/秒

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置每秒傳輸的位元組數。

單位:位元組/秒

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置接收並捨棄的封包數。

單位:計數/秒

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒接收的位元組數。

單位:位元組/秒

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒傳輸的位元組數。

單位:位元組/秒

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置在遠端直接記憶體存取寫入操作期間每秒接收的位元組數。

單位:位元組/秒

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置每秒接收的位元組數。

單位:位元組/秒

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置每秒傳輸的位元組數。

單位:位元組/秒

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置接收並捨棄的封包數。

單位:計數/秒

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒接收的位元組數。

單位:位元組/秒

node_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒傳輸的位元組數。

單位:位元組/秒

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置在遠端直接記憶體存取寫入操作期間每秒接收的位元組數。

單位:位元組/秒

Amazon SageMaker AI HyperPod 指標

從 CloudWatch Observability EKS 附加元件的 v2.0.1-eksbuild.1 版本開始,適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 會自動從 Amazon EKS 叢集中收集 Amazon SageMaker AI HyperPod 指標。如需有關附加元件的詳細資訊,請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。如需有關 Amazon SageMaker AI HyperPod 的詳細資訊,請參閱 Amazon SageMaker AI HyperPod

收集的指標列於下列資料表中。

指標名稱 維度 描述

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

指示 Amazon SageMaker AI HyperPod 是否將節點標記為 Unschedulable。這表示節點正在執行深度運作狀態檢查,不適用於執行中的工作負載。

單位:計數

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

指示 Amazon SageMaker AI HyperPod 是否將節點標記為 Schedulable。這表示節點已通過基本運作狀態檢查或深度運作狀態檢查,可用於執行中的工作負載。

單位:計數

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

指示 HyperPod 是否將節點標記為 UnschedulablePendingReplacement。這表示節點未通過深度運作狀態檢查或運作狀態監控代理程式檢查,且需要取代。

如果啟用了自動節點復原,Amazon SageMaker AI HyperPod 將自動取代節點。

單位:計數

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

指示 Amazon SageMaker AI HyperPod 是否將節點標記為 UnschedulablePendingReboot。這表示節點正在執行深度運作狀態檢查,且需要重新啟動。

如果啟用了自動節點復原,Amazon SageMaker AI HyperPod 會自動重新啟動節點。

單位:計數

Amazon EBS NVMe 驅動程式指標

從 CloudWatch 代理程式的 1.300056.0 版本開始,適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 會自動從 Linux 執行個體上的 Amazon EKS 叢集中收集 Amazon EBS NVMe 驅動程式指標。必須使用 CloudWatch Observability Amazon EKS 附加元件版本 4.1.0 或更新版本來安裝 CloudWatch 代理程式。如需有關附加元件的詳細資訊,請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。如需 Amazon EBS 的詳細資訊,請參閱 Amazon EBS 詳細效能統計資料

若要讓 Container Insights 收集 Amazon EBS NVMe 驅動程式指標,必須滿足下列先決條件:

  • 必須搭配使用適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 與 CloudWatch Observability Amazon EKS 附加元件版本 4.1.0 或更新版本。

  • EBS CSI 驅動程式 1.42.0 附加元件或 Helm Chart 必須安裝在已啟用指標的叢集上。

    • 若要在使用 Amazon EBS CSI 驅動程式附加元件時啟用指標,請在建立或更新附加元件時使用下列選項。--configuration-values '{ "node": { "enableMetrics": true } }'

    • 若要在使用 Helm Chart 時啟用指標,請在建立或更新附加元件時使用下列選項。--set node.enableMetrics=true

收集的指標列於下列資料表中。

指標名稱 維度 描述

node_diskio_ebs_total_read_ops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

已完成讀取操作的總數。

node_diskio_ebs_total_write_ops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

已完成寫入操作的總數。

node_diskio_ebs_total_read_bytes

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

傳輸的讀取位元組總數。

node_diskio_ebs_total_write_bytes

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

傳輸的寫入位元組總數。

node_diskio_ebs_total_read_time

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

執行所有已完成讀取操作花費的總時間,以微秒為單位。

node_diskio_ebs_total_write_time

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

執行所有已完成寫入操作花費的總時間,以微秒為單位。

node_diskio_ebs_volume_performance_exceeded_iops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

IOPS 需求超過磁碟區佈建 IOPS 效能的總時間,以微秒為單位。

node_diskio_ebs_volume_performance_exceeded_tp

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

輸送量需求超過磁碟區佈建輸送量效能的總時間,以微秒為單位。

node_diskio_ebs_ec2_instance_performance_exceeded_iops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

EBS 磁碟區超過連結之 Amazon EC2 執行個體 IOPS 效能上限的總時間,以微秒為單位。

node_diskio_ebs_ec2_instance_performance_exceeded_tp

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

EBS 磁碟區超過連結的 Amazon EC2 執行個體輸送量效能上限的總時間,以微秒為單位。

node_diskio_ebs_volume_queue_length

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

等待完成的讀取和寫入操作數目。