本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon EKS 和 Kubernetes Container Insights 指標
下表列出 Container Insights 為 Amazon EKS 和 Kubernetes 收集的指標和維度。這些指標會在 ContainerInsights
命名空間中。如需詳細資訊,請參閱指標。
如果您沒有在主控台中看到任何容器洞見指標,請確定您已完成容器洞見的設定。在完整設定容器洞見前指標都不會出現。如需詳細資訊,請參閱設定 Container Insights。
指標名稱 | 維度 | 描述 |
---|---|---|
|
|
叢集中失敗的工作者節點數量。如果節點受困於任何節點條件,則會將其判定為失敗。如需詳細資訊,請參閱 Kubernetes 文件中的條件 |
|
|
叢集中的工作者節點總數。 |
|
|
資源中每個命名空間執行的 pod 數量,該資源由您正在使用的維度所指定。 |
|
|
可指派至此叢集中單一節點的 CPU 單位數量上限。 |
|
|
為節點元件 (例如 kubelet、kube-proxy 和 Docker) 預留的 CPU 單位百分比。 公式: 注意
|
|
|
叢集中節點上正在使用的 CPU 單位數量。 |
|
|
叢集中節點上正在使用的 CPU 單位百分比總數。 公式: |
|
|
節點上可用的 GPU 總數 (s)。 |
|
|
執行中 Pod 在節點上使用的 GPU 數量 (s)。 |
|
|
節點上目前保留的 GPU 百分比。公式為 注意
|
|
|
叢集中節點上正在使用的檔案系統容量百分比總數。 公式: 注意
|
|
|
可指派至此叢集中單一節點的記憶體數量上限 (以位元組為單位)。 |
|
|
目前在叢集中節點上使用的記憶體百分比。 公式: 注意
|
|
|
節點目前使用的記憶體百分比。這是節點記憶體使用量除以節點記憶體限制的百分比。 公式: |
|
|
叢集中運作中一組節點中正在使用的記憶體數量 (以位元組為單位)。 |
|
|
叢集中每個節點每秒透過網路傳輸和接收的位元組總數。 公式: 注意
|
|
|
叢集中每個節點執行中的容器數。 |
|
|
叢集中每個節點執行中的 pod 數。 |
|
|
叢集中每個 pod 預留的 CPU 容量。 公式: 注意
|
|
|
Pod 使用的 CPU 單位百分比。 公式: |
|
|
Pod 正在使用的 CPU 單位百分比,此百分比與 Pod 限制相對。 公式: |
|
|
Pod 的 GPU 請求。此值必須一律等於 |
|
|
可指派給節點中 Pod 的 GPU 數量上限 (上限)。 |
|
|
在 Pod 上配置的 GPU 數量 (s)。 |
|
|
目前為 Pod 預留的 GPU 百分比。公式為 - pod_gpu_request / node_gpu_reserved_capacity。 |
|
|
為 Pod 保留的記憶體百分比。 公式: 注意
|
|
|
Pod 目前使用的記憶體百分比。 公式: |
|
|
Pod 正在使用的記憶體百分比,此百分比與 Pod 限制相對。如果 Pod 中有任何容器未定義記憶體限制,這個指標將不會顯示。 公式: |
|
|
Pod 透過網路每秒接收的位元組數。 公式: 注意
|
|
|
Pod 透過網路每秒傳輸的位元組數。 公式: 注意
|
|
|
Pod 中重新啟動的容器總數。 |
|
|
叢集中執行服務的 Pod 數量。 |
Kueue 指標
從 CloudWatch 可觀測性 EKS 附加元件v2.4.0-eksbuild.1
的版本開始,適用於 Amazon EKS 的 Container Insights 支援從 Amazon EKS 叢集收集 Kueue 指標。如需附加元件的詳細資訊,請參閱 使用 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式 Amazon CloudWatch 。
如需啟用指標的資訊,請參閱 啟用 Kueue 指標 以啟用指標。
下表列出收集的 Kueue 指標。這些指標會發佈至 CloudWatch 中的ContainerInsights/Prometheus
命名空間。其中一些指標使用以下維度:
ClusterQueue
是 ClusterQueue 的名稱的可能值
Status
為active
和inadmissible
的可能值
Reason
為Preempted
、PodsReadyTimeout
、ClusterQueueStopped
、AdmissionCheck
和InactiveWorkload
Flavor
是參考的口味。Resource
是指叢集電腦資源,例如cpu
、gpu
、memory
等。
指標名稱 | 維度 | 描述 |
---|---|---|
|
|
待處理工作負載的數量。 |
|
|
已移出工作負載的總數。 |
|
|
作用中的已認可工作負載數量 (未暫停和未完成)。 |
|
|
報告 ClusterQueue 的總資源用量。 |
|
|
報告 ClusterQueue 的資源配額。 |