Amazon EKS 和 Kubernetes Container Insights 指標
下列資料表列出 Container Insights 為 Amazon EKS 和 Kubernetes 收集的指標和維度。這些指標會在 ContainerInsights 命名空間中。如需更多詳細資訊,請參閱 指標。
如果您沒有在主控台中看到任何容器洞見指標,請確定您已完成容器洞見的設定。在完整設定容器洞見前指標都不會出現。如需更多詳細資訊,請參閱 設定 Container Insights。
| 指標名稱 | 維度 | 描述 |
|---|---|---|
|
|
|
叢集中失敗的工作者節點數量。如果節點受困於任何節點條件,則會將其判定為失敗。如需詳細資訊,請參閱 Kubernetes 文件中的條件 |
|
|
|
叢集中的工作者節點總數。 |
|
|
|
資源中每個命名空間執行的 pod 數量,該資源由您正在使用的維度所指定。 |
|
|
|
可指派至此叢集中單一節點的 CPU 單位數量上限。 |
|
|
|
為節點元件 (例如 kubelet、kube-proxy 和 Docker) 預留的 CPU 單位百分比。 公式: 注意
|
|
|
|
叢集中節點上正在使用的 CPU 單位數量。 |
|
|
|
叢集中節點上正在使用的 CPU 單位百分比總數。 公式: |
|
|
|
節點上可用的 GPU 總數。 |
|
|
|
節點上執行中 Pod 正在使用的 GPU 數量。 |
|
|
|
節點上目前預留的 GPU 百分比。公式為 注意
|
|
|
|
叢集中節點上正在使用的檔案系統容量百分比總數。 公式: 注意
|
|
|
|
可指派至此叢集中單一節點的記憶體數量上限 (以位元組為單位)。 |
|
|
|
目前在叢集中節點上使用的記憶體百分比。 公式: 注意
|
|
|
|
節點目前使用的記憶體百分比。這是節點記憶體使用量除以節點記憶體限制的百分比。 公式: |
|
|
|
叢集中運作中一組節點中正在使用的記憶體數量 (以位元組為單位)。 |
|
|
|
叢集中每個節點每秒透過網路傳輸和接收的位元組總數。 公式: 注意
|
|
|
|
叢集中每個節點執行中的容器數。 |
|
|
|
叢集中每個節點執行中的 pod 數。 |
|
|
|
叢集中每個 pod 預留的 CPU 容量。 公式: 注意
|
|
|
|
Pod 使用的 CPU 單位百分比。 公式: |
|
|
|
Pod 正在使用的 CPU 單位百分比,此百分比與 Pod 限制相對。 公式: |
|
|
|
Pod 的 GPU 請求。此值必須始終等於 |
|
|
|
可指派給節點中 Pod 的 GPU 數量上限。 |
|
|
|
在 Pod 上配置的 GPU 數量。 |
|
|
|
目前為 Pod 預留的 GPU 百分比。公式為 - pod_gpu_request / node_gpu_reserved_capacity。 |
|
|
|
為 Pod 保留的記憶體百分比。 公式: 注意
|
|
|
|
Pod 目前使用的記憶體百分比。 公式: |
|
|
|
Pod 正在使用的記憶體百分比,此百分比與 Pod 限制相對。如果 Pod 中有任何容器未定義記憶體限制,這個指標將不會顯示。 公式: |
|
|
|
Pod 透過網路每秒接收的位元組數。 公式: 注意
|
|
|
|
Pod 透過網路每秒傳輸的位元組數。 公式: 注意
|
|
|
|
Pod 中重新啟動的容器總數。 |
|
|
|
叢集中執行服務的 Pod 數量。 |
Kueue 指標
從 CloudWatch Observability EKS 附加元件的版本 v2.4.0-eksbuild.1 開始,適用於 Amazon EKS 的 Container Insights 支援從 Amazon EKS 叢集收集 Kueue 指標。如需有關附加元件的詳細資訊,請參閱使用 Amazon CloudWatch Observability EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。
如需有關啟用指標的資訊,請參閱啟用 Kueue 指標以啟用指標。
收集的 Kueue 指標列於下列資料表中。這些指標會發佈到 CloudWatch 的 ContainerInsights/Prometheus 命名空間中:其中一些指標會使用下列維度:
-
ClusterQueue為 ClusterQueue 的名稱 -
Status的可能值為active和inadmissible -
Reason的可能值為Preempted、PodsReadyTimeout、AdmissionCheck、ClusterQueueStopped和InactiveWorkload -
Flavor為參考版本。 -
Resource是指叢集計算機資源,例如cpu、memory、gpu等。
| 指標名稱 | 維度 | 描述 |
|---|---|---|
|
|
|
待處理工作負載的數量。 |
|
|
|
已移出的工作負載總數。 |
|
|
|
作用中的已確認工作負載數量 (未暫停和未完成)。 |
|
|
|
報告 ClusterQueue 的總資源用量。 |
|
|
|
報告 ClusterQueue 的資源配額。 |