NVIDIA GPU 指標 AWS AWS Trainium 和 AWS Inferentia 的 Neuron 指標 AWS Elastic Fabric Adapter (EFA) 指標 Amazon SageMaker AI HyperPod 指標 Amazon EBS NVMe 驅動程式指標

具有增強可觀測性指標的 Amazon EKS 和 Kubernetes Container Insights

下表列出具有增強可觀測性的 Container Insights 為 Amazon EKS 和 Kubernetes 收集的指標和維度。這些指標會在 ContainerInsights 命名空間中。如需詳細資訊，請參閱指標。

如果沒有在主控台中看到任何具有增強可觀測性的 Container Insights 指標，請確定您已完成具有增強可觀測性的 Container Insights 的設定。在完整設定具有增強可觀測性的 Container Insights 之前，指標都不會出現。如需詳細資訊，請參閱設定 Container Insights。

如果使用 1.5.0 版或更新版本的 Amazon EKS 附加元件或 1.300035.0 版的 CloudWatch 代理程式，則會針對 Linux 和 Windows 節點收集下表列出的大多數指標。請參閱資料表的指標名稱欄，查看哪些指標不是針對 Windows 收集的。

使用在叢集和服務層級提供彙總指標的舊版 Container Insights，這些指標作為自訂指標計費。使用 Container Insights 搭配 Amazon EKS 的增強可觀測性，Container Insights 指標會按觀測，而不是存放或擷取的指標計費。如需 CloudWatch 定價的詳細資訊，請參閱 Amazon CloudWatch 定價。

注意

在 Windows 中，不會為主機程序容器收集網路指標，例如 pod_network_rx_bytes 和 pod_network_tx_bytes。

在 RedHat OpenShift on AWS (ROSA) 叢集上，node_diskio_io_service_bytes_total不會收集 node_diskio_io_serviced_total和等磁碟指標。

指標名稱	維度	說明
`cluster_failed_node_count`	`ClusterName`	叢集中失敗的工作者節點數量。如果節點受困於任何節點條件，則會將其判定為失敗。如需詳細資訊，請參閱 Kubernetes 文件中的條件。
`cluster_node_count`	`ClusterName`	叢集中的工作者節點總數。
`namespace_number_of_running_pods`	`Namespace` `ClusterName` `ClusterName`	資源中每個命名空間執行的 pod 數量，該資源由您正在使用的維度所指定。
`node_cpu_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	可指派至此叢集中單一節點的 CPU 單位數量上限。
`node_cpu_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	為節點元件 (例如 kubelet、kube-proxy 和 Docker) 預留的 CPU 單位百分比。公式：`node_cpu_request / node_cpu_limit` 注意 `node_cpu_request` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`node_cpu_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	叢集中節點上正在使用的 CPU 單位數量。
`node_cpu_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	叢集中節點上正在使用的 CPU 單位百分比總數。公式：`node_cpu_usage_total / node_cpu_limit`
`node_filesystem_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	叢集中節點上正在使用的檔案系統容量百分比總數。公式：`node_filesystem_usage / node_filesystem_capacity` 注意 `node_filesystem_usage` 和 `node_filesystem_capacity` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`node_memory_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	可指派至此叢集中單一節點的記憶體數量上限 (以位元組為單位)。
`node_filesystem_inodes` 在 Windows 中不可用。	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	節點上的 inode 總數 (已使用和未使用)。
`node_filesystem_inodes_free` 在 Windows 中不可用。	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	節點上未使用的 inode 數目。
`node_gpu_limit`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	節點上可用的 GPU 總數。
`node_gpu_usage_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	節點上執行中 Pod 正在使用的 GPU 數量。
`node_gpu_reserved_capacity`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`
`node_memory_reserved_capacity`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	目前在叢集中節點上使用的記憶體百分比。公式：`node_memory_request / node_memory_limit` 注意 `node_memory_request` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`node_memory_utilization`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	節點目前使用的記憶體百分比。這是節點記憶體使用量除以節點記憶體限制的百分比。公式：`node_memory_working_set / node_memory_limit`。
`node_memory_working_set`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	叢集中運作中一組節點中正在使用的記憶體數量 (以位元組為單位)。
`node_network_total_bytes`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	叢集中每個節點每秒透過網路傳輸和接收的位元組總數。公式：`node_network_rx_bytes + node_network_tx_bytes` 注意 `node_network_rx_bytes` 和 `node_network_tx_bytes` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`node_number_of_running_containers`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	叢集中每個節點執行中的容器數。
`node_number_of_running_pods`	`NodeName`, `ClusterName`, `InstanceId` `ClusterName`	叢集中每個節點執行中的 pod 數。
`node_status_allocatable_pods`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	可根據節點的可配置資源指派其 Pod 數目，其定義為在計算系統常駐程式保留項目和硬式移出閾值之後節點容量的剩餘部分。
`node_status_capacity_pods`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	可根據節點容量指派給節點的 Pod 數目。
`node_status_condition_ready`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	指示 Amazon EC2 節點的節點狀態條件 `Ready` 是否為 True。
`node_status_condition_memory_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	表示節點狀態條件 `MemoryPressure` 是否為 True。
`node_status_condition_pid_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	表示節點狀態條件 `PIDPressure` 是否為 True。
`node_status_condition_disk_pressure`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	表示節點狀態條件 `OutOfDisk` 是否為 True。
`node_status_condition_unknown`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	表示是否有任何節點狀態條件為「未知」。
`node_interface_network_rx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	節點上網路介面接收並隨後捨棄的封包數目。
`node_interface_network_tx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	節點上的網路介面傳輸但捨棄的封包數目。
`node_diskio_io_service_bytes_total` 它不適用於 Windows 或 ROSA 叢集。	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	節點上所有 I/O 操作傳送的位元組總數。
`node_diskio_io_serviced_total` 它不適用於 Windows 或 ROSA 叢集。	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	節點上的 I/O 操作總數。
`pod_cpu_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	叢集中每個 pod 預留的 CPU 容量。公式：`pod_cpu_request / node_cpu_limit` 注意 `pod_cpu_request` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`pod_cpu_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 使用的 CPU 單位百分比。公式：`pod_cpu_usage_total / node_cpu_limit`
`pod_cpu_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 正在使用的 CPU 單位百分比，此百分比與 Pod 限制相對。公式：`pod_cpu_usage_total / pod_cpu_limit`
`pod_memory_reserved_capacity`	`PodName`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `Service`	為 Pod 保留的記憶體百分比。公式：`pod_memory_request / node_memory_limit` 注意 `pod_memory_request` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`pod_memory_utilization`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 目前使用的記憶體百分比。公式：`pod_memory_working_set / node_memory_limit`
`pod_memory_utilization_over_pod_limit`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 正在使用的記憶體百分比，此百分比與 Pod 限制相對。如果 Pod 中有任何容器未定義記憶體限制，這個指標將不會顯示。公式：`pod_memory_working_set / pod_memory_limit`
`pod_network_rx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 透過網路每秒接收的位元組數。公式：`sum(pod_interface_network_rx_bytes)` 注意 `pod_interface_network_rx_bytes` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`pod_network_tx_bytes`	`PodName`, `Namespace`, `ClusterName` `Namespace,` `ClusterName` `Service`, `Namespace`, `ClusterName` `ClusterName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 透過網路每秒傳輸的位元組數。公式：`sum(pod_interface_network_tx_bytes)` 注意 `pod_interface_network_tx_bytes` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`pod_cpu_request`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 的 CPU 請求。公式：`sum(container_cpu_request)` 注意 `pod_cpu_request` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`pod_memory_request`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 的記憶體請求。公式：`sum(container_memory_request)` 注意 `pod_memory_request` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`pod_cpu_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 中的容器定義的 CPU 限制。如果 Pod 中有任何容器未定義 CPU 限制，這個指標將不會顯示。公式：`sum(container_cpu_limit)` 注意 `pod_cpu_limit` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`pod_memory_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 中的容器定義的記憶體限制。如果 Pod 中有任何容器未定義記憶體限制，這個指標將不會顯示。公式：`sum(container_memory_limit)` 注意 `pod_cpu_limit` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`pod_status_failed`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	表示 Pod 中的所有容器都已終止，且至少有一個容器已經以非零狀態終止，或已由系統終止。
`pod_status_ready`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	表示 Pod 中的所有容器都已就緒，且已達到條件 `ContainerReady`。
`pod_status_running`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	表示 Pod 中的所有容器都在執行中。
`pod_status_scheduled`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	表示 Pod 已排程至節點。
`pod_status_unknown`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	表示無法取得 Pod 的狀態。
`pod_status_pending`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	表示叢集已接受 Pod，但有一個或多個容器尚未準備就緒。
`pod_status_succeeded`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	表示 Pod 中的所有容器都已成功終止，而且不會重新啟動。
`pod_number_of_containers`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	報告 Pod 規格中定義的容器數目。
`pod_number_of_running_containers`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	報告 Pod 中目前處於 `Running` 狀態的容器數目。
`pod_container_status_terminated`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	報告 Pod 中處於 `Terminated` 狀態的容器數目。
`pod_container_status_running`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	報告 Pod 中處於 `Running` 狀態的容器數目。
`pod_container_status_waiting`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	報告 Pod 中處於 `Waiting` 狀態的容器數目。
`pod_container_status_waiting_reason_crash_loop_back_off`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	報告 Pod 中因 `CrashLoopBackOff` 錯誤而待定的容器數量，其中容器會重複無法啟動。
`pod_container_status_waiting_reason_create_container_config_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	報告 Pod 中因為 `CreateContainerConfigError` 原因而待定的容器數目。這是因為建立容器組態時發生錯誤。
`pod_container_status_waiting_reason_create_container_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	報告 Pod 中因建立容器時發生錯誤 `CreateContainerError` 而待定的容器數量。
`pod_container_status_waiting_reason_image_pull_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	報告 Pod 中因 `ErrImagePull`、`ImagePullBackOff` 或 `InvalidImageName` 而待定的容器數量。這些情況是因為提取容器映像時發生錯誤。
`pod_container_status_waiting_reason_start_error`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	報告 Pod 中因啟動容器時發生錯誤 `StartError` 而待定的容器數量。
`pod_container_status_terminated_reason_oom_killed`	`ContainerName`, `FullPodName`, `PodName`, `Namespace`, `ClusterName` `ContainerName`, `PodName`, `Namespace`, `ClusterName` `ClusterName`	指示因超過記憶體限制而終止 Pod。只有在發生此問題時，才會顯示此指標。
`pod_interface_network_rx_dropped`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 上網路介面接收並隨後捨棄的封包數目。
`pod_interface_network_tx_dropped`	`ClusterName` `PodName`, `Namespace`, `ClusterName` `Namespace`, `ClusterName`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	針對 Pod 傳輸但捨棄的封包數目。
`pod_memory_working_set`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 目前正在使用的記憶體 (以位元組為單位)。
`pod_cpu_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName`	Pod 使用的 CPU 單位數。
`container_cpu_utilization`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	容器使用的 CPU 單位百分比。公式：`container_cpu_usage_total / node_cpu_limit` 注意 `container_cpu_utilization` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`container_cpu_utilization_over_container_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	相對於容器限制，容器正在使用的 CPU 單位百分比。如果容器未定義 CPU 限制，這個指標將不會顯示。公式：`container_cpu_usage_total / container_cpu_limit` 注意 `container_cpu_utilization_over_container_limit` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`container_memory_utilization`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	容器使用的記憶體單位百分比。公式：`container_memory_working_set / node_memory_limit` 注意 `container_memory_utilization` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`container_memory_utilization_over_container_limit`	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	相對於容器限制，容器正在使用的記憶體單位百分比。如果容器未定義記憶體限制，這個指標將不會顯示。公式：`container_memory_working_set / container_memory_limit` 注意 `container_memory_utilization_over_container_limit` 不會直接回報為指標，而是效能日誌事件中的欄位。如需詳細資訊，請參閱Amazon EKS 和 Kubernetes 效能日誌事件中的相關欄位。
`container_memory_failures_total` 在 Windows 中不可用。	`ClusterName` `PodName`, `Namespace`, `ClusterName`, `ContainerName` `PodName`, `Namespace`, `ClusterName`, `ContainerName`, `FullPodName`	容器經歷的記憶體配置失敗次數。
`pod_number_of_container_restarts`	PodName、`Namespace`、`ClusterName`	Pod 中重新啟動的容器總數。
`service_number_of_running_pods`	服務、`Namespace`、`ClusterName` `ClusterName`	叢集中執行服務的 Pod 數量。
`replicas_desired`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	工作負載規格中定義的工作負載所需 Pod 數目。
`replicas_ready`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	已達到就緒狀態的工作負載 Pod 數目。
`status_replicas_available`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	可供工作負載使用的 Pod 數目。當 Pod 準備好用於工作負載規格中定義的 `minReadySeconds` 時可供使用。
`status_replicas_unavailable`	`ClusterName` `PodName`, `Namespace`, `ClusterName`	工作負載無法使用的 Pod 數目。當 Pod 準備好用於工作負載規格中定義的 `minReadySeconds` 時可供使用。如果 Pod 不符合此條件，則無法使用。
`apiserver_storage_objects`	`ClusterName` `ClusterName`, `resource`	上次檢查時存放在 etcd 中的物件數目。
`apiserver_storage_db_total_size_in_bytes`	`ClusterName` `ClusterName`, `endpoint`	實體配置的儲存資料庫檔案總大小 (以位元組為單位)。此指標為實驗性質，並且可能會在 Kubernetes 的未來版本中變更。單位：位元組有意義的統計資料：總和、平均值、最小值、最大值
`apiserver_request_total`	`ClusterName` `ClusterName`, `code`, `verb`	向 Kubernetes API 伺服器發出的 API 請求總數。
`apiserver_request_duration_seconds`	`ClusterName` `ClusterName`, `verb`	向 Kubernetes API 伺服器發出的 API 請求的回應延遲。
`apiserver_admission_controller_admission_duration_seconds`	`ClusterName` `ClusterName`, `operation`	許可控制器延遲 (以秒為單位)。許可控制器是攔截向 Kubernetes API 伺服器發出請求的程式碼。
`rest_client_request_duration_seconds`	`ClusterName` `ClusterName`, `operation`	用戶端呼叫 Kubernetes API 伺服器時遇到的回應延遲。此指標為實驗性質，並且可能會在 Kubernetes 的未來版本中變更。
`rest_client_requests_total`	`ClusterName` `ClusterName`, `code`, `method`	用戶端向 Kubernetes API 伺服器發出的 API 請求總數。此指標為實驗性質，並且可能會在 Kubernetes 的未來版本中變更。
`etcd_request_duration_seconds`	`ClusterName` `ClusterName`, `operation`	對 Etcd 的 API 呼叫的回應延遲。此指標為實驗性質，並且可能會在 Kubernetes 的未來版本中變更。
`apiserver_storage_size_bytes`	`ClusterName` `ClusterName`, `endpoint`	實體配置的儲存資料庫檔案大小 (以位元組為單位)。此指標為實驗性質，並且可能會在 Kubernetes 的未來版本中變更。
`apiserver_longrunning_requests`	`ClusterName` `ClusterName`, `resource`	向 Kubernetes API 伺服器發出的長時間執行的作用中請求數目。
`apiserver_current_inflight_requests`	`ClusterName` `ClusterName`, `request_kind`	Kubernetes API 伺服器正在處理的請求數目。
`apiserver_admission_webhook_admission_duration_seconds`	`ClusterName` `ClusterName`, `name`	許可 Webhook 延遲 (以秒為單位)。許可 Webhook 是接收許可請求並對其執行某些操作的 HTTP 回呼。
`apiserver_admission_step_admission_duration_seconds`	`ClusterName` `ClusterName`, `operation`	許可子步驟延遲 (以秒為單位)。
`apiserver_requested_deprecated_apis`	`ClusterName` `ClusterName`, `group`	在 Kubernetes API 伺服器上發出的取代 API 的請求數目。
`apiserver_request_total_5xx`	`ClusterName` `ClusterName`, `code`, `verb`	向 Kubernetes API 伺服器發出的請求數目，該請求使用 5XX HTTP 回應碼做出回應。
`apiserver_storage_list_duration_seconds`	`ClusterName` `ClusterName`, `resource`	Etc 列示物件的回應延遲。此指標為實驗性質，並且可能會在 Kubernetes 的未來版本中變更。
`apiserver_flowcontrol_request_concurrency_limit`	`ClusterName` `ClusterName`, `priority_level`	目前在 API Priority and Fairness 子系統中執行請求所使用的執行緒數目。
`apiserver_flowcontrol_rejected_requests_total`	`ClusterName` `ClusterName`, `reason`	API 優先順序與公平性子系統拒絕的請求數目。此指標為實驗性質，並且可能會在 Kubernetes 的未來版本中變更。
`apiserver_current_inqueue_requests`	`ClusterName` `ClusterName`, `request_kind`	Kubernetes API 伺服器排入佇列的請求數目。此指標為實驗性質，並且可能會在 Kubernetes 的未來版本中變更。

NVIDIA GPU 指標

從 CloudWatch 代理程式的 1.300034.0 版本開始，適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 預設會從 EKS 工作負載收集 NVIDIA GPU 指標。必須使用 CloudWatch Observability EKS 附加元件版本 v1.3.0-eksbuild.1 或更新版本來安裝 CloudWatch 代理程式。如需詳細資訊，請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。收集的 NVIDIA GPU 指標會列在本節的資料表中。

若要讓 Container Insights 收集 NVIDIA GPU 指標，必須滿足下列先決條件：

必須搭配使用適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 與 Amazon CloudWatch Observability EKS 附加元件版本 v1.3.0-eksbuild.1 或更新版本。
適用於 Kubernetes 的 NVIDIA 裝置外掛程式必須安裝在叢集中。
NVIDIA 容器工具組必須安裝在叢集的節點上。例如，Amazon EKS 最佳化加速 AMI 是用必要的元件建置而成。

可以選擇不收集 NVIDIA GPU 指標，方法是將 CloudWatch 代理程式組態檔案中的 accelerated_compute_metrics 選項設定為 false。如需詳細資訊和選擇退出組態範例，請參閱 (選用) 額外組態。

指標名稱	維度	說明
`container_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	配置給容器之 GPU 上的影格緩衝區總大小 (以位元組為單位)。
`container_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	配置給容器之 GPU 上使用的影格緩衝區位元組數目。
`container_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	配置給容器之 GPU 上使用的影格緩衝區百分比。
`container_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	配置給容器之 GPU 的用電量 (瓦)。
`container_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	配置給容器之 GPU 的溫度 (攝氏度)。
`container_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	配置給容器之 GPU 的使用率百分比。
`container_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	配置給容器之 GPU 上的張量核心百分比使用率（張量核心）。
`node_gpu_memory_total`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	配置給節點之 GPU 上的影格緩衝區總大小 (以位元組為單位)。
`node_gpu_memory_used`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	配置給節點之 GPU 上使用的影格緩衝區位元組數目。
`node_gpu_memory_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	配置給節點之 GPU 上使用的影格緩衝區百分比。
`node_gpu_power_draw`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	配置給節點之 GPU 的用電量 (瓦)。
`node_gpu_temperature`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	配置給節點之 GPU 的溫度 (攝氏度)。
`node_gpu_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	配置給節點之 GPU 的使用率百分比。
`node_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `GpuDevice`	配置給節點之 GPU 上張量核心的百分比使用率（張量核心）。
`pod_gpu_memory_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	配置給 Pod 之 GPU 上的影格緩衝區總大小 (以位元組為單位)。
`pod_gpu_memory_used`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	配置給 Pod 之 GPU 上使用的影格緩衝區位元組數目。
`pod_gpu_memory_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	配置給 Pod 之 GPU 上使用的影格緩衝區百分比。
`pod_gpu_power_draw`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	配置給 Pod 之 GPU 的用電量 (瓦)。
`pod_gpu_temperature`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`. `GpuDevice`	配置給 Pod 之 GPU 的溫度 (攝氏度)。
`pod_gpu_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	配置給 Pod 之 GPU 的使用率百分比。
`pod_gpu_tensor_core_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `GpuDevice`	配置給 Pod 的 GPU 上張量核心的百分比使用率（張量核心）。

詳細的 GPU 監控

從 CloudWatch 代理程式1.300062.0的版本開始，具有 Amazon EKS 增強可觀測性的 Container Insights 支援以次分鐘的收集間隔進行詳細的 GPU 監控。這可以解決短期機器學習推論工作負載的監控差距，這些工作負載可能會被標準收集間隔完全錯過。必須使用 CloudWatch Observability EKS 附加元件版本 v4.7.0-eksbuild.1 或更新版本來安裝 CloudWatch 代理程式。如需詳細資訊，請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。

根據預設，會每隔 60 秒收集和擷取 GPU 指標。啟用詳細監控後，CloudWatch 代理程式會以次分鐘的間隔（至少 1 秒）收集 GPU 指標，但指標仍會以 1 分鐘的間隔擷取至 CloudWatch。不過，您可以查詢每 1 分鐘期間內次分鐘資料點的統計彙總（例如最小值、最大值和百分位數，例如 p90)，提供準確的 GPU 使用率資料和更好的資源最佳化。

Configuration

若要啟用詳細的 GPU 監控，請更新您的 CloudWatch 代理程式組態，以在 kubernetes區段中包含 accelerated_compute_gpu_metrics_collection_interval 參數，如下列範例所示。


{  
    "logs": {  
        "metrics_collected": {  
            "kubernetes": {  
                "cluster_name": "MyCluster",  
                "enhanced_container_insights": true,  
                "accelerated_compute_metrics": true,  
                "accelerated_compute_gpu_metrics_collection_interval": 1  
            }  
        }  
    }  
}

accelerated_compute_gpu_metrics_collection_interval 參數以秒為單位接受值，最小值為 1 秒。將其設定為 1可啟用 1 秒的收集間隔。如果未指定此參數，則會使用預設的 60 秒間隔。

如需完整的組態指示，請參閱設定 CloudWatch 代理程式以收集叢集指標。

AWS AWS Trainium 和 AWS Inferentia 的 Neuron 指標

從 CloudWatch 代理程式1.300036.0的版本開始，具有 Amazon EKS 增強可觀測性的 Container Insights 預設會從 AWS Trainium 和 AWS Inferentia 加速器收集加速運算指標。必須使用 CloudWatch Observability EKS 附加元件版本 v1.5.0-eksbuild.1 或更新版本來安裝 CloudWatch 代理程式。如需有關附加元件的詳細資訊，請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。如需有關 AWS Trainium 的詳細資訊，請參閱 AWS Trainium。如需 AWS Inferentia 的詳細資訊，請參閱 AWS Inferentia。

若要讓 Container Insights 收集 AWS Neuron 指標，您必須符合下列先決條件：

必須搭配使用適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 與 Amazon CloudWatch Observability EKS 附加元件版本 v1.5.0-eksbuild.1 或更新版本。
Neuron 驅動程式必須安裝在叢集的節點上。
Neuron 裝置外掛程式必須安裝在叢集上。例如，Amazon EKS 最佳化加速 AMI 是用必要的元件建置而成。

收集的指標會列在本節的資料表中。系統會收集 AWS Trainium、 AWS Inferentia 和 AWS Inferentia2 的指標。

CloudWatch 代理程式會從 Neuron 監視器收集這些指標，並執行必要的 Kubernetes 資源關聯，以在 Pod 和容器層級交付指標

指標名稱維度說明

指標名稱	維度	說明
`container_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	在配置給容器的 NeuronCore 擷取期間的 NeuronCore 使用率。單位：百分比
`container_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	在配置給容器的 NeuronCore 訓練期間，用於常數的裝置記憶體量 (或在推論期間的權重)。單位：位元組
`container_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	配置給容器的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。單位：位元組
`container_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	配置給容器的 NeuronCore 所共用模型的暫存器所用的裝置記憶體量。此記憶體區域預留給模型。單位：位元組
`container_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	配置給容器的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。單位：位元組
`container_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	配置給容器的 NeuronCore 用於張量的裝置記憶體數量。單位：位元組
`container_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`, `NeuronCore`	配置給容器的 NeuronCore 所使用的記憶體總量。單位：位元組
`container_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NeuronDevice`	節點上 Neuron 裝置的晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。單位：計數
`pod_neuroncore_utilization`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	在配置給 Pod 的 NeuronCore 擷取期間的 NeuronCore 使用率。單位：百分比
`pod_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	在配置給 Pod 的 NeuronCore 訓練期間，用於常數的裝置記憶體量 (或在推論期間的權重)。單位：位元組
`pod_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	配置給 Pod 的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。單位：位元組
`pod_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	配置給 Pod 的 NeuronCore 所共用模型的暫存器所用的裝置記憶體量。此記憶體區域預留給模型。單位：位元組
`pod_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	配置給 Pod 的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。單位：位元組
`pod_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	配置給 Pod 的 NeuronCore 用於張量的裝置記憶體數量。單位：位元組
`pod_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`, `NeuronCore`	配置給 Pod 的 NeuronCore 所使用的記憶體總量。單位：位元組
`pod_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NeuronDevice`	配置給 Pod 之 Neuron 裝置的晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。單位：位元組
`node_neuroncore_utilization`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	在配置給節點的 NeuronCore 擷取期間的 NeuronCore 使用率。單位：百分比
`node_neuroncore_memory_usage_constants`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	在配置給節點的 NeuronCore 訓練期間，用於常數的裝置記憶體量 (或在推論期間的權重)。單位：位元組
`node_neuroncore_memory_usage_model_code`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	配置給節點的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。單位：位元組
`node_neuroncore_memory_usage_model_shared_scratchpad`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	配置給節點的 NeuronCore 所共用模型的暫存器所用的裝置記憶體量。這是預留給模型的記憶體區域。單位：位元組
`node_neuroncore_memory_usage_runtime_memory`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	配置給節點的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。單位：位元組
`node_neuroncore_memory_usage_tensors`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	配置給節點的 NeuronCore 用於張量的裝置記憶體數量。單位：位元組
`node_neuroncore_memory_usage_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceType`, `InstanceId`, `NodeName`, `NeuronDevice`, `NeuronCore`	配置給節點的 NeuronCore 所使用的記憶體總量。單位：位元組
`node_neuron_execution_errors_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	節點上的執行錯誤總數。這是由 CloudWatch 代理程式透過彙總下列類型的錯誤來計算：`generic`、`numerical`、`transient`、`model`、`runtime` 和 `hardware` 單位：計數
`node_neurondevice_runtime_memory_used_bytes`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	節點上以位元組為單位的 Neuron 裝置記憶體總用量。單位：位元組
`node_neuron_execution_latency`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName`	Neuron 執行時期測量的節點上的執行延遲 (單位為秒)。單位：秒
`node_neurondevice_hw_ecc_events_total`	`ClusterName` `ClusterName`, `UltraServer` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `NodeName`, `NeuronDevice`	節點上 Neuron 裝置的晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。單位：計數

container_neuroncore_utilization

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

在配置給容器的 NeuronCore 擷取期間的 NeuronCore 使用率。

單位：百分比

container_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

在配置給容器的 NeuronCore 訓練期間，用於常數的裝置記憶體量 (或在推論期間的權重)。

單位：位元組

container_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。

單位：位元組

container_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 所共用模型的暫存器所用的裝置記憶體量。此記憶體區域預留給模型。

單位：位元組

container_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。

單位：位元組

container_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 用於張量的裝置記憶體數量。

單位：位元組

container_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice, NeuronCore

配置給容器的 NeuronCore 所使用的記憶體總量。

單位：位元組

container_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NeuronDevice

節點上 Neuron 裝置的晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。

單位：計數

pod_neuroncore_utilization

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

在配置給 Pod 的 NeuronCore 擷取期間的 NeuronCore 使用率。

單位：百分比

pod_neuroncore_memory_usage_constants

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

在配置給 Pod 的 NeuronCore 訓練期間，用於常數的裝置記憶體量 (或在推論期間的權重)。

單位：位元組

pod_neuroncore_memory_usage_model_code

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。

單位：位元組

pod_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 所共用模型的暫存器所用的裝置記憶體量。此記憶體區域預留給模型。

單位：位元組

pod_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。

單位：位元組

pod_neuroncore_memory_usage_tensors

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 用於張量的裝置記憶體數量。

單位：位元組

pod_neuroncore_memory_usage_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice, NeuronCore

配置給 Pod 的 NeuronCore 所使用的記憶體總量。

單位：位元組

pod_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NeuronDevice

配置給 Pod 之 Neuron 裝置的晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。

單位：位元組

node_neuroncore_utilization

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

在配置給節點的 NeuronCore 擷取期間的 NeuronCore 使用率。

單位：百分比

node_neuroncore_memory_usage_constants

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

在配置給節點的 NeuronCore 訓練期間，用於常數的裝置記憶體量 (或在推論期間的權重)。

單位：位元組

node_neuroncore_memory_usage_model_code

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 用於模型可執行程式碼的裝置記憶體數量。

單位：位元組

node_neuroncore_memory_usage_model_shared_scratchpad

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 所共用模型的暫存器所用的裝置記憶體量。這是預留給模型的記憶體區域。

單位：位元組

node_neuroncore_memory_usage_runtime_memory

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 用於 Neuron 執行期的裝置記憶體數量。

單位：位元組

node_neuroncore_memory_usage_tensors

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 用於張量的裝置記憶體數量。

單位：位元組

node_neuroncore_memory_usage_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceType, InstanceId, NodeName, NeuronDevice, NeuronCore

配置給節點的 NeuronCore 所使用的記憶體總量。

單位：位元組

node_neuron_execution_errors_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

節點上的執行錯誤總數。這是由 CloudWatch 代理程式透過彙總下列類型的錯誤來計算：generic、numerical、transient、model、runtime 和 hardware

單位：計數

node_neurondevice_runtime_memory_used_bytes

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

節點上以位元組為單位的 Neuron 裝置記憶體總用量。

單位：位元組

node_neuron_execution_latency

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

Neuron 執行時期測量的節點上的執行延遲 (單位為秒)。

單位：秒

node_neurondevice_hw_ecc_events_total

ClusterName

ClusterName, UltraServer

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, NodeName, NeuronDevice

節點上 Neuron 裝置的晶片上 SRAM 和裝置記憶體的已更正和未更正 ECC 事件數。

單位：計數

AWS Elastic Fabric Adapter (EFA) 指標

從 CloudWatch 代理程式1.300037.0的版本開始，具有 Amazon EKS 增強可觀測性的 Container Insights 會從 Linux 執行個體上的 Amazon EKS 叢集收集 AWS Elastic Fabric Adapter (EFA) 指標。必須使用 CloudWatch Observability EKS 附加元件版本 v1.5.2-eksbuild.1 或更新版本來安裝 CloudWatch 代理程式。如需有關附加元件的詳細資訊，請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。如需有關 AWS Elastic Fabric Adapter 的詳細資訊，請參閱 Elastic Fabric Adapter。

若要讓 Container Insights 收集 AWS Elastic Fabric 轉接器指標，您必須符合下列先決條件：

必須搭配使用適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 與 Amazon CloudWatch Observability EKS 附加元件版本 v1.5.2-eksbuild.1 或更新版本。
EFA 裝置外掛程式必須安裝在叢集上。如需詳細資訊，請參閱 GitHub 上的 aws-efa-k8s-device-plugin。

收集的指標列於下列資料表中。

指標名稱維度說明

指標名稱	維度	說明
`container_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	配置給容器的 EFA 裝置每秒接收的位元組數。單位：位元組/秒
`container_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	配置給容器的 EFA 裝置每秒傳輸的位元組數。單位：位元組/秒
`container_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	配置給容器的 EFA 裝置接收並捨棄的封包數。單位：計數/秒
`container_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	配置給容器的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒接收的位元組數。單位：位元組/秒
`container_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	配置給容器的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒傳輸的位元組數。單位：位元組/秒
`container_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace`, `PodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `ContainerName`, `NetworkInterfaceId`	配置給容器的 EFA 裝置在遠端直接記憶體存取寫入操作期間每秒接收的位元組數。單位：位元組/秒
`pod_efa_rx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	配置給 Pod 的 EFA 裝置每秒接收的位元組數。單位：位元組/秒
`pod_efa_tx_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	配置給 Pod 的 EFA 裝置每秒傳輸的位元組數。單位：位元組/秒
`pod_efa_rx_dropped`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	配置給 Pod 的 EFA 裝置接收並捨棄的封包數。單位：計數/秒
`pod_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒接收的位元組數。單位：位元組/秒
`pod_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒傳輸的位元組數。單位：位元組/秒
`pod_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `Namespace` `ClusterName`, `Namespace`, `Service` `ClusterName`, `Namespace`, `PodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName` `ClusterName`, `Namespace`, `PodName`, `FullPodName`, `NetworkInterfaceId`	配置給 Pod 的 EFA 裝置在遠端直接記憶體存取寫入操作期間每秒接收的位元組數。單位：位元組/秒
`node_efa_rx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	配置給節點的 EFA 裝置每秒接收的位元組數。單位：位元組/秒
`node_efa_tx_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	配置給節點的 EFA 裝置每秒傳輸的位元組數。單位：位元組/秒
`node_efa_rx_dropped`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	配置給節點的 EFA 裝置接收並捨棄的封包數。單位：計數/秒
`node_efa_rdma_read_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	配置給節點的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒接收的位元組數。單位：位元組/秒
`node_efa_rdma_write_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒傳輸的位元組數。單位：位元組/秒
`node_efa_rdma_write_recv_bytes`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName` `ClusterName`, `InstanceId`, `InstanceType`, `NodeName`, `NetworkInterfaceId`	配置給節點的 EFA 裝置在遠端直接記憶體存取寫入操作期間每秒接收的位元組數。單位：位元組/秒

container_efa_rx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置每秒接收的位元組數。

單位：位元組/秒

container_efa_tx_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置每秒傳輸的位元組數。

單位：位元組/秒

container_efa_rx_dropped

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置接收並捨棄的封包數。

單位：計數/秒

container_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒接收的位元組數。

單位：位元組/秒

container_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒傳輸的位元組數。

單位：位元組/秒

container_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace, PodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName

ClusterName, Namespace, PodName, FullPodName, ContainerName, NetworkInterfaceId

配置給容器的 EFA 裝置在遠端直接記憶體存取寫入操作期間每秒接收的位元組數。

單位：位元組/秒

pod_efa_rx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置每秒接收的位元組數。

單位：位元組/秒

pod_efa_tx_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置每秒傳輸的位元組數。

單位：位元組/秒

pod_efa_rx_dropped

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置接收並捨棄的封包數。

單位：計數/秒

pod_efa_rdma_read_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒接收的位元組數。

單位：位元組/秒

pod_efa_rdma_write_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒傳輸的位元組數。

單位：位元組/秒

pod_efa_rdma_write_recv_bytes

ClusterName

ClusterName, Namespace

ClusterName, Namespace, Service

ClusterName, Namespace, PodName

ClusterName, Namespace, PodName, FullPodName

ClusterName, Namespace, PodName, FullPodName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置在遠端直接記憶體存取寫入操作期間每秒接收的位元組數。

單位：位元組/秒

node_efa_rx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置每秒接收的位元組數。

單位：位元組/秒

node_efa_tx_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置每秒傳輸的位元組數。

單位：位元組/秒

node_efa_rx_dropped

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置接收並捨棄的封包數。

單位：計數/秒

node_efa_rdma_read_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒接收的位元組數。

單位：位元組/秒

node_efa_rdma_write_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給 Pod 的 EFA 裝置使用遠端直接記憶體存取讀取操作每秒傳輸的位元組數。

單位：位元組/秒

node_efa_rdma_write_recv_bytes

ClusterName

ClusterName, InstanceId, NodeName

ClusterName, InstanceId, InstanceType, NodeName, NetworkInterfaceId

配置給節點的 EFA 裝置在遠端直接記憶體存取寫入操作期間每秒接收的位元組數。

單位：位元組/秒

Amazon SageMaker AI HyperPod 指標

從 CloudWatch Observability EKS 附加元件的 v2.0.1-eksbuild.1 版本開始，適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 會自動從 Amazon EKS 叢集中收集 Amazon SageMaker AI HyperPod 指標。如需有關附加元件的詳細資訊，請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。如需有關 Amazon SageMaker AI HyperPod 的詳細資訊，請參閱 Amazon SageMaker AI HyperPod。

收集的指標列於下列資料表中。

指標名稱維度說明

指標名稱	維度	說明
`hyperpod_node_health_status_unschedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	指示 Amazon SageMaker AI HyperPod 是否將節點標記為 `Unschedulable`。這表示節點正在執行深度運作狀態檢查，不適用於執行中的工作負載。單位：計數
`hyperpod_node_health_status_schedulable`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	指示 Amazon SageMaker AI HyperPod 是否將節點標記為 `Schedulable`。這表示節點已通過基本運作狀態檢查或深度運作狀態檢查，可用於執行中的工作負載。單位：計數
`hyperpod_node_health_status_unschedulable_pending_replacement`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	指示 HyperPod 是否將節點標記為 `UnschedulablePendingReplacement`。這表示節點未通過深度運作狀態檢查或運作狀態監控代理程式檢查，且需要取代。如果啟用自動節點復原，節點將自動取代為 Amazon SageMaker AI HyperPod。單位：計數
`hyperpod_node_health_status_unschedulable_pending_reboot`	`ClusterName` `ClusterName`, `InstanceId`, `NodeName`	指示 Amazon SageMaker AI HyperPod 是否將節點標記為 `UnschedulablePendingReboot`。這表示節點正在執行深度運作狀態檢查，且需要重新啟動。如果啟用自動節點復原， Amazon SageMaker AI HyperPod 會自動重新啟動節點。單位：計數

hyperpod_node_health_status_unschedulable

ClusterName

ClusterName, InstanceId, NodeName

指示 Amazon SageMaker AI HyperPod 是否將節點標記為 Unschedulable。這表示節點正在執行深度運作狀態檢查，不適用於執行中的工作負載。

單位：計數

hyperpod_node_health_status_schedulable

ClusterName

ClusterName, InstanceId, NodeName

指示 Amazon SageMaker AI HyperPod 是否將節點標記為 Schedulable。這表示節點已通過基本運作狀態檢查或深度運作狀態檢查，可用於執行中的工作負載。

單位：計數

hyperpod_node_health_status_unschedulable_pending_replacement

ClusterName

ClusterName, InstanceId, NodeName

指示 HyperPod 是否將節點標記為 UnschedulablePendingReplacement。這表示節點未通過深度運作狀態檢查或運作狀態監控代理程式檢查，且需要取代。

如果啟用自動節點復原，節點將自動取代為 Amazon SageMaker AI HyperPod。

單位：計數

hyperpod_node_health_status_unschedulable_pending_reboot

ClusterName

ClusterName, InstanceId, NodeName

指示 Amazon SageMaker AI HyperPod 是否將節點標記為 UnschedulablePendingReboot。這表示節點正在執行深度運作狀態檢查，且需要重新啟動。

如果啟用自動節點復原， Amazon SageMaker AI HyperPod 會自動重新啟動節點。

單位：計數

Amazon EBS NVMe 驅動程式指標

從 CloudWatch 代理程式的 1.300056.0 版本開始，適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 會自動從 Linux 執行個體上的 Amazon EKS 叢集中收集 Amazon EBS NVMe 驅動程式指標。必須使用 CloudWatch Observability Amazon EKS 附加元件版本 4.1.0 或更新版本來安裝 CloudWatch 代理程式。如需有關附加元件的詳細資訊，請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。如需 Amazon EBS 的詳細資訊，請參閱 Amazon EBS 詳細效能統計資料。

若要讓 Container Insights 收集 Amazon EBS NVMe 驅動程式指標，必須滿足下列先決條件：

必須搭配使用適用於 Amazon EKS 的具有增強可觀測性的 Container Insights 與 CloudWatch Observability Amazon EKS 附加元件版本 4.1.0 或更新版本。
EBS CSI 驅動程式 1.42.0 附加元件或 Helm Chart 必須安裝在已啟用指標的叢集上。
- 若要在使用 Amazon EBS CSI 驅動程式附加元件時啟用指標，請在建立或更新附加元件時使用下列選項。--configuration-values '{ "node": { "enableMetrics": true } }'
- 若要在使用 Helm Chart 時啟用指標，請在建立或更新附加元件時使用下列選項。--set node.enableMetrics=true

收集的指標列於下列資料表中。

指標名稱	維度	說明
`node_diskio_ebs_total_read_ops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	已完成讀取操作的總數。
`node_diskio_ebs_total_write_ops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	已完成寫入操作的總數。
`node_diskio_ebs_total_read_bytes`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	傳輸的讀取位元組總數。
`node_diskio_ebs_total_write_bytes`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	傳輸的寫入位元組總數。
`node_diskio_ebs_total_read_time`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	執行所有已完成讀取操作花費的總時間，以微秒為單位。
`node_diskio_ebs_total_write_time`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	執行所有已完成寫入操作花費的總時間，以微秒為單位。
`node_diskio_ebs_volume_performance_exceeded_iops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	IOPS 需求超過磁碟區佈建 IOPS 效能的總時間，以微秒為單位。
`node_diskio_ebs_volume_performance_exceeded_tp`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	輸送量需求超過磁碟區佈建輸送量效能的總時間，以微秒為單位。
`node_diskio_ebs_ec2_instance_performance_exceeded_iops`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	EBS 磁碟區超過連結之 Amazon EC2 執行個體 IOPS 效能上限的總時間，以微秒為單位。
`node_diskio_ebs_ec2_instance_performance_exceeded_tp`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	EBS 磁碟區超過連結的 Amazon EC2 執行個體輸送量效能上限的總時間，以微秒為單位。
`node_diskio_ebs_volume_queue_length`	`ClusterName` `ClusterName`, `NodeName`, `InstanceId` `ClusterName`, `NodeName`, `InstanceId` `VolumeId`	等待完成的讀取和寫入操作數目。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

Amazon ECS Container Insights 指標

Amazon EKS 和 Kubernetes Container Insights 指標