具有增強型可觀測性指標的 Amazon EKS 和 Kubernetes Container Insights - Amazon CloudWatch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

具有增強型可觀測性指標的 Amazon EKS 和 Kubernetes Container Insights

下表列出 Container Insights 為 Amazon EKS 和 Kubernetes 增強可觀測性收集的指標和維度。這些指標會在 ContainerInsights 命名空間中。如需詳細資訊,請參閱指標

如果您在主控台中看不到任何具有增強型可觀測性指標的 Container Insights,請確定您已完成具有增強型可觀測性的 Container Insights 設定。在完全設定具有增強可觀測性的 Container Insights 之前,不會顯示指標。如需詳細資訊,請參閱設定 Container Insights

如果您使用 1.5.0 版或更新版本的 Amazon EKS 附加元件或 1.300035.0 版的 CloudWatch 代理程式,則會針對 Linux 和 Windows 節點收集下表所列的大多數指標。請參閱資料表的指標名稱欄,以查看哪些指標未針對 Windows 收集。

透過在叢集和服務層級提供彙總指標的舊版 Container Insights,這些指標會以自訂指標計費。使用 Container Insights 搭配 Amazon EKS 的增強可觀測性,Container Insights 指標會按觀測,而不是存放或擷取的指標計費。如需 CloudWatch 定價的詳細資訊,請參閱 Amazon CloudWatch 定價

注意

在 Windows 上,pod_network_tx_bytes不會收集主機程序容器的網路指標,例如 pod_network_rx_bytes和 。

在 RedHat OpenShift on AWS (ROSA) 叢集 上,node_diskio_io_service_bytes_total不會收集 node_diskio_io_serviced_total和 等磁碟指標。

指標名稱 維度 描述

cluster_failed_node_count

ClusterName

叢集中失敗的工作者節點數量。如果節點受困於任何節點條件,則會將其判定為失敗。如需詳細資訊,請參閱 Kubernetes 文件中的條件

cluster_node_count

ClusterName

叢集中的工作者節點總數。

namespace_number_of_running_pods

Namespace ClusterName

ClusterName

資源中每個命名空間執行的 pod 數量,該資源由您正在使用的維度所指定。

node_cpu_limit

ClusterName

ClusterName, InstanceId, NodeName

可指派至此叢集中單一節點的 CPU 單位數量上限。

node_cpu_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

為節點元件 (例如 kubelet、kube-proxy 和 Docker) 預留的 CPU 單位百分比。

公式:node_cpu_request / node_cpu_limit

注意

node_cpu_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_cpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

叢集中節點上正在使用的 CPU 單位數量。

node_cpu_utilization

NodeName, ClusterName, InstanceId

ClusterName

叢集中節點上正在使用的 CPU 單位百分比總數。

公式:node_cpu_usage_total / node_cpu_limit

node_filesystem_utilization

NodeName, ClusterName, InstanceId

ClusterName

叢集中節點上正在使用的檔案系統容量百分比總數。

公式:node_filesystem_usage / node_filesystem_capacity

注意

node_filesystem_usagenode_filesystem_capacity 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_memory_limit

ClusterName

ClusterName, InstanceId, NodeName

可指派至此叢集中單一節點的記憶體數量上限 (以位元組為單位)。

node_filesystem_inodes

它不適用於 Windows。

ClusterName

ClusterName, InstanceId, NodeName

節點上的 inode 總數 (已使用和未使用)。

node_filesystem_inodes_free

它不適用於 Windows。

ClusterName

ClusterName, InstanceId, NodeName

節點上未使用的 inode 數目。

node_gpu_limit

ClusterName

ClusterName, InstanceId, NodeName

節點上可用的 GPU 總數 (s)。

node_gpu_usage_total

ClusterName

ClusterName, InstanceId, NodeName

執行中 Pod 在節點上使用的 GPU 數量 (s)。

node_gpu_reserved_capacity

ClusterName

ClusterName, InstanceId, NodeName

node_memory_reserved_capacity

NodeName, ClusterName, InstanceId

ClusterName

目前在叢集中節點上使用的記憶體百分比。

公式:node_memory_request / node_memory_limit

注意

node_memory_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_memory_utilization

NodeName, ClusterName, InstanceId

ClusterName

節點目前使用的記憶體百分比。這是節點記憶體使用量除以節點記憶體限制的百分比。

公式:node_memory_working_set / node_memory_limit

node_memory_working_set

ClusterName

ClusterName, InstanceId, NodeName

叢集中運作中一組節點中正在使用的記憶體數量 (以位元組為單位)。

node_network_total_bytes

NodeName, ClusterName, InstanceId

ClusterName

叢集中每個節點每秒透過網路傳輸和接收的位元組總數。

公式:node_network_rx_bytes + node_network_tx_bytes

注意

node_network_rx_bytesnode_network_tx_bytes 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

node_number_of_running_containers

NodeName, ClusterName, InstanceId

ClusterName

叢集中每個節點執行中的容器數。

node_number_of_running_pods

NodeName, ClusterName, InstanceId

ClusterName

叢集中每個節點執行中的 pod 數。

node_status_allocatable_pods

ClusterName

ClusterName, InstanceId, NodeName

可根據節點的可配置資源指派其 Pod 數目,其定義為在計算系統常駐程式保留項目和硬式移出閾值之後節點容量的剩餘部分。

node_status_capacity_pods

ClusterName

ClusterName, InstanceId, NodeName

可根據節點容量指派給節點的 Pod 數目。

node_status_condition_ready

ClusterName

ClusterName, InstanceId, NodeName

指出 Amazon EC2 節點的節點狀態條件是否為 Ready true。

node_status_condition_memory_pressure

ClusterName

ClusterName, InstanceId, NodeName

表示節點狀態條件 MemoryPressure 是否為 True。

node_status_condition_pid_pressure

ClusterName

ClusterName, InstanceId, NodeName

表示節點狀態條件 PIDPressure 是否為 True。

node_status_condition_disk_pressure

ClusterName

ClusterName, InstanceId, NodeName

表示節點狀態條件 OutOfDisk 是否為 True。

node_status_condition_unknown

ClusterName

ClusterName, InstanceId, NodeName

表示是否有任何節點狀態條件為「未知」。

node_interface_network_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

節點上網路介面接收並隨後捨棄的封包數目。

node_interface_network_tx_dropped

ClusterName

ClusterName, InstanceId, NodeName

節點上的網路介面傳輸但捨棄的封包數目。

node_diskio_io_service_bytes_total

它不適用於 Windows 或 ROSA 叢集。

ClusterName

ClusterName, InstanceId, NodeName

節點上所有 I/O 操作傳送的位元組總數。

node_diskio_io_serviced_total

它不適用於 Windows 或 ROSA 叢集。

ClusterName

ClusterName, InstanceId, NodeName

節點上的 I/O 操作總數。

pod_cpu_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

叢集中每個 pod 預留的 CPU 容量。

公式:pod_cpu_request / node_cpu_limit

注意

pod_cpu_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_cpu_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 使用的 CPU 單位百分比。

公式:pod_cpu_usage_total / node_cpu_limit

pod_cpu_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 正在使用的 CPU 單位百分比,此百分比與 Pod 限制相對。

公式:pod_cpu_usage_total / pod_cpu_limit

pod_memory_reserved_capacity

PodName, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, Service

為 Pod 保留的記憶體百分比。

公式:pod_memory_request / node_memory_limit

注意

pod_memory_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_memory_utilization

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 目前使用的記憶體百分比。

公式:pod_memory_working_set / node_memory_limit

pod_memory_utilization_over_pod_limit

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 正在使用的記憶體百分比,此百分比與 Pod 限制相對。如果 Pod 中有任何容器未定義記憶體限制,這個指標將不會顯示。

公式:pod_memory_working_set / pod_memory_limit

pod_network_rx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 透過網路每秒接收的位元組數。

公式:sum(pod_interface_network_rx_bytes)

注意

pod_interface_network_rx_bytes 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_network_tx_bytes

PodName, Namespace, ClusterName

Namespace, ClusterName

Service, Namespace, ClusterName

ClusterName

ClusterName, Namespace, PodName, FullPodName

Pod 透過網路每秒傳輸的位元組數。

公式:sum(pod_interface_network_tx_bytes)

注意

pod_interface_network_tx_bytes 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_cpu_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Pod 的 CPU 請求。

公式:sum(container_cpu_request)

注意

pod_cpu_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_memory_request

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Pod 的記憶體請求。

公式:sum(container_memory_request)

注意

pod_memory_request 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_cpu_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Pod 中的容器定義的 CPU 限制。如果 Pod 中有任何容器未定義 CPU 限制,這個指標將不會顯示。

公式:sum(container_cpu_limit)

注意

pod_cpu_limit 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_memory_limit

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Pod 中的容器定義的記憶體限制。如果 Pod 中有任何容器未定義記憶體限制,這個指標將不會顯示。

公式:sum(container_memory_limit)

注意

pod_cpu_limit 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

pod_status_failed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示 Pod 中的所有容器都已終止,且至少有一個容器已經以非零狀態終止,或已由系統終止。

pod_status_ready

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示 Pod 中的所有容器都已就緒,且已達到條件 ContainerReady

pod_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示 Pod 中的所有容器都在執行中。

pod_status_scheduled

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示 Pod 已排程至節點。

pod_status_unknown

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示無法取得 Pod 的狀態。

pod_status_pending

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示叢集已接受 Pod,但有一個或多個容器尚未準備就緒。

pod_status_succeeded

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

表示 Pod 中的所有容器都已成功終止,而且不會重新啟動。

pod_number_of_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 規格中定義的容器數目。

pod_number_of_running_containers

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中目前處於 Running 狀態的容器數目。

pod_container_status_terminated

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中處於 Terminated 狀態的容器數目。

pod_container_status_running

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中處於 Running 狀態的容器數目。

pod_container_status_waiting

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中處於 Waiting 狀態的容器數目。

pod_container_status_waiting_reason_crash_loop_back_off

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中因CrashLoopBackOff錯誤而待定的容器數量,其中容器會重複無法啟動。

pod_container_status_waiting_reason_create_container_config_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中待定的容器數量,原因為 CreateContainerConfigError。這是因為建立容器組態時發生錯誤。

pod_container_status_waiting_reason_create_container_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中因建立容器時發生錯誤CreateContainerError而擱置的容器數量。

pod_container_status_waiting_reason_image_pull_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中因 ErrImagePullImagePullBackOff或 而待定的容器數量InvalidImageName。這些情況是因為提取容器映像時發生錯誤。

pod_container_status_waiting_reason_oom_killed

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中處於 Terminated 狀態的容器數量

因為記憶體不足 (OOM 已終止)。

pod_container_status_waiting_reason_start_error

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

報告 Pod 中待定的容器數量,原因StartError為啟動容器時發生錯誤。

pod_container_status_terminated_reason_oom_killed

ContainerName, FullPodName, PodName, Namespace, ClusterName

ContainerName, PodName, Namespace, ClusterName

ClusterName

表示因超過記憶體限制而終止 Pod。只有在發生此問題時,才會顯示此指標。

pod_interface_network_rx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

Pod 上網路介面接收並隨後捨棄的封包數目。

pod_interface_network_tx_dropped

ClusterName

PodName, Namespace, ClusterName

Namespace, ClusterName, Service

ClusterName, Namespace, PodName, FullPodName

針對 Pod 傳輸但捨棄的封包數目。

pod_memory_working_set

ClusterName

ClusterName, Namespace, PodName

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

Pod 目前正在使用的位元組記憶體。

pod_cpu_usage_total

ClusterName

ClusterName, Namespace, PodName

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

Pod 使用的 CPU 單位數量。

container_cpu_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

容器使用的 CPU 單位百分比。

公式:container_cpu_usage_total / node_cpu_limit

注意

container_cpu_utilization 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

container_cpu_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

相對於容器限制,容器正在使用的 CPU 單位百分比。如果容器未定義 CPU 限制,這個指標將不會顯示。

公式:container_cpu_usage_total / container_cpu_limit

注意

container_cpu_utilization_over_container_limit 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

container_memory_utilization

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

容器使用的記憶體單位百分比。

公式:container_memory_working_set / node_memory_limit

注意

container_memory_utilization 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

container_memory_utilization_over_container_limit

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

相對於容器限制,容器正在使用的記憶體單位百分比。如果容器未定義記憶體限制,這個指標將不會顯示。

公式:container_memory_working_set / container_memory_limit

注意

container_memory_utilization_over_container_limit 不會直接回報為指標,而是效能日誌事件中的欄位。如需詳細資訊,請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位

container_memory_failures_total

它不適用於 Windows。

ClusterName

PodName, Namespace, ClusterName, ContainerName

PodName, Namespace, ClusterName, ContainerName, FullPodName

容器經歷的記憶體配置失敗次數。

pod_number_of_container_restarts

PodName、NamespaceClusterName

Pod 中重新啟動的容器總數。

service_number_of_running_pods

服務、NamespaceClusterName

ClusterName

叢集中執行服務的 Pod 數量。

replicas_desired

ClusterName

PodName, Namespace, ClusterName

工作負載規格中定義的工作負載所需 Pod 數目。

replicas_ready

ClusterName

PodName, Namespace, ClusterName

已達到就緒狀態的工作負載 Pod 數目。

status_replicas_available

ClusterName

PodName, Namespace, ClusterName

可供工作負載使用的 Pod 數目。當 Pod 準備好用於工作負載規格中定義的 minReadySeconds 時可供使用。

status_replicas_unavailable

ClusterName

PodName, Namespace, ClusterName

工作負載無法使用的 Pod 數目。當 Pod 準備好用於工作負載規格中定義的 minReadySeconds 時可供使用。如果 Pod 不符合此條件,則無法使用。

apiserver_storage_objects

ClusterName

ClusterName, resource

上次檢查時存放在 etcd 中的物件數目。

apiserver_storage_db_total_size_in_bytes

ClusterName

ClusterName, endpoint

實際配置的儲存資料庫檔案總大小,以位元組為單位。此指標為實驗性,未來 Kubernetes 版本可能會變更。

單位:位元組

有意義的統計資料:總和、平均值、最小值、最大值

apiserver_request_total

ClusterName

ClusterName, code, verb

向 Kubernetes API 伺服器發出的 API 請求總數。

apiserver_request_duration_seconds

ClusterName

ClusterName, verb

向 Kubernetes API 伺服器發出的 API 請求的回應延遲。

apiserver_admission_controller_admission_duration_seconds

ClusterName

ClusterName, operation

許可控制器延遲 (以秒為單位)。許可控制器是攔截向 Kubernetes API 伺服器發出請求的程式碼。

rest_client_request_duration_seconds

ClusterName

ClusterName, operation

用戶端呼叫 Kubernetes API 伺服器時遇到的回應延遲。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

rest_client_requests_total

ClusterName

ClusterName, code, method

用戶端向 Kubernetes API 伺服器發出的 API 請求總數。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

etcd_request_duration_seconds

ClusterName

ClusterName, operation

對 Etcd 的 API 呼叫的回應延遲。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

apiserver_storage_size_bytes

ClusterName

ClusterName, endpoint

實體配置的儲存資料庫檔案大小 (以位元組為單位)。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

apiserver_longrunning_requests

ClusterName

ClusterName, resource

向 Kubernetes API 伺服器發出的長時間執行的作用中請求數目。

apiserver_current_inflight_requests

ClusterName

ClusterName, request_kind

Kubernetes API 伺服器正在處理的請求數目。

apiserver_admission_webhook_admission_duration_seconds

ClusterName

ClusterName, name

許可 Webhook 延遲 (以秒為單位)。許可 Webhook 是接收許可請求並對其執行某些操作的 HTTP 回呼。

apiserver_admission_step_admission_duration_seconds

ClusterName

ClusterName, operation

許可子步驟延遲 (以秒為單位)。

apiserver_requested_deprecated_apis

ClusterName

ClusterName, group

在 Kubernetes API 伺服器上發出的取代 API 的請求數目。

apiserver_request_total_5xx

ClusterName

ClusterName, code, verb

向 Kubernetes API 伺服器發出的請求數目,該請求使用 5XX HTTP 回應碼做出回應。

apiserver_storage_list_duration_seconds

ClusterName

ClusterName, resource

從 Etc 列出物件的回應延遲。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

apiserver_flowcontrol_request_concurrency_limit

ClusterName

ClusterName, priority_level

目前在 API Priority and Fairness 子系統中執行請求所使用的執行緒數目。

apiserver_flowcontrol_rejected_requests_total

ClusterName

ClusterName, reason

API 優先順序與公平性子系統拒絕的請求數目。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

apiserver_current_inqueue_requests

ClusterName

ClusterName, request_kind

Kubernetes API 伺服器排入佇列的請求數目。此指標為實驗性質,並且可能會在 Kubernetes 的未來版本中變更。

NVIDIA GPU 指標

從 CloudWatch 代理程式1.300034.0的版本開始,具有 Amazon EKS 增強可觀測性的 Container Insights 預設會從 EKS 工作負載收集 NVIDIA GPU 指標。CloudWatch 代理程式必須使用 CloudWatch Observability EKS 附加元件版本 v1.3.0-eksbuild.1 或更新版本進行安裝。如需詳細資訊,請參閱使用 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式 Amazon CloudWatch 。這些收集的 NVIDIA GPU 指標會列在本節的表格中。

若要讓 Container Insights 收集 NVIDIA GPU 指標,您必須符合下列先決條件:

  • 您必須使用 Container Insights 搭配 Amazon EKS 的增強型可觀測性,以及 Amazon CloudWatch 可觀測性 EKS 附加元件版本 v1.3.0-eksbuild.1或更新版本。

  • 適用於 Kubernetes 的 NVIDIA 裝置外掛程式必須安裝在叢集中。

  • NVIDIA 容器工具組必須安裝在叢集的節點上。例如,Amazon EKS 最佳化加速 AMIs 是以必要的元件建置而成。

您可以選擇不收集 NVIDIA GPU 指標,方法是將入門 CloudWatch 代理程式組態檔案中accelerated_compute_metrics的選項設定為 false。如需詳細資訊和選擇退出組態範例,請參閱 (選用) 額外組態

指標名稱 維度 描述

container_gpu_memory_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器之 GPU 上的總影格緩衝區大小 (以位元組為單位)。

container_gpu_memory_used

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器的 GPU 上使用的影格緩衝區位元組 (位元組)。

container_gpu_memory_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器之 GPU 的影格緩衝區 (框架緩衝區) 百分比。

container_gpu_power_draw

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器之 GPU 的用電量 (以瓦為單位)。

container_gpu_temperature

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器之 GPU (以攝氏度為單位) 的溫度。

container_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給容器的 GPU (s) 使用率百分比。

node_gpu_memory_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點之 GPU 上的總影格緩衝區大小 (以位元組為單位)。

node_gpu_memory_used

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點的 GPU 上使用的影格緩衝區位元組 (位元組)。

node_gpu_memory_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點的 GPU 上使用的影格緩衝區百分比 (s)。

node_gpu_power_draw

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點之 GPU 的用電量 (以瓦為單位)。

node_gpu_temperature

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點之 GPU (以攝氏度為單位) 的溫度。

node_gpu_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, GpuDevice

配置給節點的 GPU (s) 使用率百分比。

pod_gpu_memory_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

配置給 Pod 之 GPU 上的總影格緩衝區大小 (以位元組為單位)。

pod_gpu_memory_used

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

配置給 Pod 的 GPU 上使用的影格緩衝區位元組 (位元組)。

pod_gpu_memory_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

配置給 Pod 之 GPU 的影格緩衝區 (框架緩衝區) 百分比。

pod_gpu_power_draw

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

分配給 Pod 之 GPU 的用電量 (以瓦為單位)。

pod_gpu_temperature

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName. GpuDevice

配置給 Pod 的 GPU (以攝氏為單位) 溫度。

pod_gpu_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, GpuDevice

配置給 Pod 的 GPU (s) 使用率百分比。

AWSAWS Trainium 和 AWS Inferentia 的 Neuron 指標

從 CloudWatch 代理程式1.300036.0的版本開始,具有 Amazon EKS 增強可觀測性的 Container Insights 預設會從 AWS Trainium 和 AWS Inferentia 加速器收集加速運算指標。CloudWatch 代理程式必須使用 CloudWatch Observability EKS 附加元件版本 v1.5.0-eksbuild.1 或更新版本進行安裝。如需附加元件的詳細資訊,請參閱 使用 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式 Amazon CloudWatch 。如需 AWS Trainium 的詳細資訊,請參閱 AWS Trainium。如需 AWS Inferentia 的詳細資訊,請參閱 AWS Inferentia

若要讓 Container Insights 收集 AWS Neuron 指標,您必須符合下列先決條件:

  • 您必須使用 Container Insights 搭配 Amazon EKS 的增強型可觀測性,以及 Amazon CloudWatch 可觀測性 EKS 附加元件版本 v1.5.0-eksbuild.1或更新版本。

  • Neuron 驅動程式必須安裝在叢集的節點上。

  • Neuron 裝置外掛程式必須安裝在叢集上。例如,Amazon EKS 最佳化加速 AMIs 是以必要的元件建置而成。

收集的指標會列在本節的表格中。系統會收集 AWS Trainium、 AWS Inferentia 和 AWS Inferentia2 的指標。

CloudWatch 代理程式會從 Neuron 監視器收集這些指標,並執行必要的 Kubernetes 資源相互關聯,以在 Pod 和容器層級交付指標

指標名稱 維度 描述

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore 使用率,在配置給容器的 NeuronCore 擷取期間。

單位:百分比

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

在 NeuronCore 訓練期間用於常數的裝置記憶體數量,配置給容器 (或在推論期間的權重)。

單位:位元組

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。

單位:位元組

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 共用模型的暫存板所用的裝置記憶體量。此記憶體區域保留給模型。

單位:位元組

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。

單位:位元組

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 用於張量的裝置記憶體數量。

單位:位元組

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

NeuronCore 配置給容器的記憶體總量。

單位:位元組

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

節點上 Neuron 裝置晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。

單位:計數

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 之 NeuronCore 擷取期間的 NeuronCore 使用率。

單位:百分比

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

在 NeuronCore 訓練期間用於常數的裝置記憶體量,配置給 Pod (或推論期間的權重)。

單位:位元組

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。

單位:位元組

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 用於模型之暫存板共用的裝置記憶體數量。此記憶體區域保留給模型。

單位:位元組

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。

單位:位元組

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 用於張量的裝置記憶體數量。

單位:位元組

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

NeuronCore 分配給 Pod 的記憶體總量。

單位:位元組

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

配置給 Pod 之 Neuron 裝置晶片上 SRAM 和裝置記憶體的已修正和未修正 ECC 事件數。

單位:位元組

node_neuroncore_utilization

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點之 NeuronCore 擷取期間的 NeuronCore 使用率。

單位:百分比

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

在 NeuronCore 訓練期間,配置給節點 (或推論期間的權重) 的常數所用的裝置記憶體量。

單位:位元組

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。

單位:位元組

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 所共用模型的暫存板所用的裝置記憶體量。這是保留給模型的記憶體區域。

單位:位元組

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。

單位:位元組

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 用於張量的裝置記憶體數量。

單位:位元組

node_neuroncore_memory_usage_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 所使用的記憶體總量。

單位:位元組

node_neuron_execution_errors_total

ClusterName

ClusterName, InstanceId, NodeName

節點上的執行錯誤總數。這是由 CloudWatch 代理程式透過彙總下列類型的錯誤來計算:genericnumericaltransientmodelruntimehardware

單位:計數

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, InstanceId, NodeName

節點上以位元組為單位的 Neuron 裝置記憶體總用量。

單位:位元組

node_neuron_execution_latency

ClusterName

ClusterName, InstanceId, NodeName

以秒為單位,以 Neuron 執行時間測量節點上執行的延遲。

單位:秒

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

節點上 Neuron 裝置晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。

單位:計數

AWS Elastic Fabric Adapter (EFA) 指標

從 CloudWatch 代理程式1.300037.0的版本開始,具有 Amazon EKS 增強可觀測性的 Container Insights 會從 Linux 執行個體上的 Amazon EKS 叢集收集 AWS Elastic Fabric Adapter (EFA) 指標。CloudWatch 代理程式必須使用 CloudWatch Observability EKS 附加元件版本 v1.5.2-eksbuild.1 或更新版本進行安裝。如需附加元件的詳細資訊,請參閱 使用 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式 Amazon CloudWatch 。如需 AWS Elastic Fabric Adapter 的詳細資訊,請參閱 Elastic Fabric Adapter

若要讓 Container Insights 收集 AWS Elastic Fabric 轉接器指標,您必須符合下列先決條件:

  • 您必須使用 Container Insights 搭配 Amazon EKS 的增強型可觀測性,以及 Amazon CloudWatch 可觀測性 EKS 附加元件版本 v1.5.2-eksbuild.1或更新版本。

  • EFA 裝置外掛程式必須安裝在叢集上。如需詳細資訊,請參閱 GitHub 上的 aws-efa-k8s-device-plugin

下表列出收集的指標。

指標名稱 維度 描述

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置每秒收到的位元組數 (每秒)。

單位:位元組/秒

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置 (每秒) 每秒傳輸的位元組數。

單位:位元組/秒

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

由配置給容器的 EFA 裝置 (EFA) 接收並捨棄的封包數量。

單位:計數/秒

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置使用遠端直接記憶體存取讀取操作 (每秒) 接收的位元組數。

單位:位元組/秒

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置使用遠端直接記憶體存取讀取操作 (EFA) 每秒傳輸的位元組數。

單位:位元組/秒

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置在遠端直接記憶體存取寫入操作期間 (EFA) 每秒收到的位元組數。

單位:位元組/秒

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置每秒收到的位元組數 (每秒)。

單位:位元組/秒

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

EFA 裝置配置給 Pod 的每秒傳輸位元組數 (位元組數)。

單位:位元組/秒

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

由配置給 Pod 的 EFA 裝置 (EFA) 接收和捨棄的封包數量。

單位:計數/秒

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作 (每秒) 接收的位元組數。

單位:位元組/秒

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作 (EFA) 傳輸的每秒位元組數。

單位:位元組/秒

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

在遠端直接記憶體存取寫入操作期間 (配置給 Pod 的 EFA 裝置) 每秒收到的位元組數。

單位:位元組/秒

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置每秒收到的位元組數 (每秒)。

單位:位元組/秒

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置 (每秒) 每秒傳輸的位元組數。

單位:位元組/秒

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

由配置給節點的 EFA 裝置 (EFA) 接收並捨棄的封包數量。

單位:計數/秒

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置使用遠端直接記憶體存取讀取操作 (EFA) 每秒收到的位元組數。

單位:位元組/秒

node_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作 (EFA) 傳輸的每秒位元組數。

單位:位元組/秒

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

在遠端直接記憶體存取寫入操作期間 (配置給節點的 EFA 裝置) 每秒收到的位元組數。

單位:位元組/秒

Amazon SageMaker AI HyperPod 指標

從 CloudWatch 可觀測性 EKS 附加元件v2.0.1-eksbuild.1的版本開始,具有 Amazon EKS 增強可觀測性的 Container Insights 會自動從 Amazon EKS 叢集收集 Amazon SageMaker AI HyperPod 指標。如需附加元件的詳細資訊,請參閱 使用 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式 Amazon CloudWatch 。如需 Amazon SageMaker AI HyperPod 的詳細資訊,請參閱 Amazon SageMaker AI HyperPod

下表列出收集的指標。

指標名稱 維度 描述

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

指出節點是否標記為 Unschedulable by Amazon SageMaker AI HyperPod。這表示節點正在執行深層運作狀態檢查,且不適用於執行中的工作負載。

單位:計數

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

指出節點是否標記為 Schedulable by Amazon SageMaker AI HyperPod。這表示節點已通過基本運作狀態檢查或深度運作狀態檢查,並可用於執行中的工作負載。

單位:計數

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

指出 UnschedulablePendingReplacement HyperPod 是否將節點標記為 。這表示節點未通過深層運作狀態檢查或運作狀態監控代理程式檢查,且需要替換。

如果啟用自動節點復原,節點將自動取代為 Amazon SageMaker AI HyperPod。

單位:計數

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

指出節點是否標記為 UnschedulablePendingReboot by Amazon SageMaker AI HyperPod。這表示節點正在執行深層運作狀態檢查,且需要重新啟動。

如果啟用自動節點復原, Amazon SageMaker AI HyperPod 會自動重新啟動節點。

單位:計數

Amazon EBS NVMe 驅動程式指標

從 CloudWatch 代理程式 1.300056.0的版本開始,具有 Amazon EKS 增強可觀測性的 Container Insights 會自動從 Linux 執行個體上的 Amazon EKS 叢集收集 Amazon EBS NVMe 驅動程式指標。CloudWatch 代理程式必須使用 CloudWatch Observability Amazon EKS 附加元件版本 4.1.0 或更新版本進行安裝。如需附加元件的詳細資訊,請參閱 使用 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式 Amazon CloudWatch 。如需 Amazon EBS 的詳細資訊,請參閱 Amazon EBS 詳細效能統計資料

若要讓 Container Insights 收集 Amazon EBS NVMe 驅動程式指標,您必須符合下列先決條件:

  • 您必須使用 Container Insights 搭配 Amazon EKS 的增強型可觀測性,以及 CloudWatch 可觀測性 Amazon EKS 附加元件版本 4.1.0或更新版本。

  • EBS CSI 驅動程式1.42.0附加元件或 Helm Chart 必須安裝在啟用指標的叢集上。

    • 若要在使用 Amazon EBS CSI 驅動程式附加元件時啟用指標,請在建立或更新附加元件時使用下列選項。 --configuration-values '{ "node": { "enableMetrics": true } }'

    • 若要在使用 Helm Chart 時啟用指標,請在建立或更新附加元件時使用下列選項。 --set node.enableMetrics=true

下表列出收集的指標。

指標名稱 維度 描述

node_diskio_ebs_total_read_ops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

已完成讀取操作的總數。

node_diskio_ebs_total_write_ops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

已完成寫入操作的總數。

node_diskio_ebs_total_read_bytes

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

傳輸的讀取位元組總數。

node_diskio_ebs_total_write_bytes

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

傳輸的寫入位元組總數。

node_diskio_ebs_total_read_time

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

所有已完成讀取操作所花費的總時間,以微秒為單位。

node_diskio_ebs_total_write_time

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

所有已完成寫入操作所花費的總時間,以微秒為單位。

node_diskio_ebs_volume_performance_exceeded_iops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

IOPS 需求超過磁碟區佈建 IOPS 效能的總時間,以微秒為單位。

node_diskio_ebs_volume_performance_exceeded_tp

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

輸送量需求超過磁碟區佈建輸送量效能的總時間,以微秒為單位。

node_diskio_ebs_ec2_instance_performance_exceeded_iops

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

EBS 磁碟區超過連接的 Amazon EC2 執行個體 IOPS 效能上限的總時間,以微秒為單位。

node_diskio_ebs_ec2_instance_performance_exceeded_tp

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

EBS 磁碟區超過連接的 Amazon EC2 執行個體最大輸送量效能的總時間,以微秒為單位。

node_diskio_ebs_volume_queue_length

ClusterName

ClusterName, NodeName, InstanceId

ClusterName, NodeName, InstanceId VolumeId

等待完成的讀取和寫入操作數目。