協助改進此頁面
若要為本使用者指南貢獻內容,請點選每個頁面右側面板中的在 GitHub 上編輯此頁面連結。
使用 Amazon CloudWatch 監測叢集資料
Amazon CloudWatch 是一項監控服務,可從您的雲端資源收集指標和日誌。使用版本 1.28 及更高版本的新叢集時,CloudWatch 免費提供一些基本的 Amazon EKS 指標。然而,當使用 CloudWatch 可觀測性運算子作為 Amazon EKS 附加元件時,您可以獲得增強的可觀測性功能。
Amazon CloudWatch 中的基本指標
對於 Kubernetes 版本 1.28 及更高版本的叢集,您可以在 AWS/EKS 命名空間中免費獲得 CloudWatch 代售指標。下表列出了支援版本可用的基本指標清單。列出的每個指標的頻率均為一分鐘。
| 指標名稱 | 描述 |
|---|---|
|
|
排程器在給定期間內嘗試在叢集中排程 Pod 的總次數。此指標有助於監控排程器的工作負載,並可指示排程壓力或 Pod 放置的潛在問題。 單位:計數 有效的統計資訊:總和 |
|
|
排程器在給定期間內成功將 Pod 排程到叢集中節點的次數。 單位:計數 有效的統計資訊:總和 |
|
|
在給定期間內,由於有效限制 (例如節點上的 CPU 或記憶體不足) 而導致 Pod 無法排程的嘗試次數。 單位:計數 有效的統計資訊:總和 |
|
|
在給定期間內,由於排程器本身的內部問題 (例如 API 伺服器連線問題) 而導致 Pod 排程失敗的嘗試次數。 單位:計數 有效的統計資訊:總和 |
|
|
在給定期間內,排程器需要在叢集中排程的待處理 Pod 總數。 單位:計數 有效的統計資訊:總和 |
|
|
在給定期間內,位於 activeQ 中等待在叢集內排程的待處理 Pod 數量。 單位:計數 有效的統計資訊:總和 |
|
|
排程器嘗試排程但失敗,並保持在不可排程狀態以進行重試的待處理 Pod 數量。 單位:計數 有效的統計資訊:總和 |
|
|
處於退避狀態、位於 單位:計數 有效的統計資訊:總和 |
|
|
當前處於門控狀態等待的待處理 Pod 數量,這些 Pod 在滿足所需條件之前無法被排程。 單位:計數 有效的統計資訊:總和 |
|
|
叢集中所有 API 伺服器發出的 HTTP 請求數量。 單位:計數 有效的統計資訊:總和 |
|
|
對叢集中所有 API 伺服器發出的、導致 單位:計數 有效的統計資訊:總和 |
|
|
對叢集中所有 API 伺服器發出的、導致 單位:計數 有效的統計資訊:總和 |
|
|
對叢集中所有 API 伺服器發出的、導致 單位:計數 有效的統計資訊:總和 |
|
|
對叢集中所有 API 伺服器發出的 單位:計數 有效的統計資訊:總和 |
|
|
根據叢集中所有 API 伺服器的所有請求,計算得出的 單位:秒 有效的統計資訊:平均 |
|
|
根據叢集中所有 API 伺服器的所有請求,計算得出的 單位:秒 有效的統計資訊:平均 |
|
|
根據叢集中所有 API 伺服器的所有請求,計算得出的 單位:秒 有效的統計資訊:平均 |
|
|
根據叢集中所有 API 伺服器的所有請求,計算得出的 單位:秒 有效的統計資訊:平均 |
|
|
根據叢集中所有 API 伺服器的所有請求,計算得出的 單位:秒 有效的統計資訊:平均 |
|
|
根據叢集中所有 API 伺服器的所有請求,計算得出的 單位:秒 有效的統計資訊:平均 |
|
|
叢集中所有 API 伺服器目前正在處理的變更請求 ( 單位:計數 有效的統計資訊:總和 |
|
|
叢集中所有 API 伺服器目前正在處理的唯讀請求 ( 單位:計數 有效的統計資訊:總和 |
|
|
叢集中所有 API 伺服器發出的准入 Webhook 請求數量。 單位:計數 有效的統計資訊:總和 |
|
|
叢集中所有 API 伺服器發出的變更准入 Webhook 請求數量。 單位:計數 有效的統計資訊:總和 |
|
|
叢集中所有 API 伺服器發出的驗證准入 Webhook 請求數量。 單位:計數 有效的統計資訊:總和 |
|
|
叢集中所有 API 伺服器發出的被拒絕的准入 Webhook 請求數量。 單位:計數 有效的統計資訊:總和 |
|
|
叢集中所有 API 伺服器發出的被拒絕的變更准入 Webhook 請求數量。 單位:計數 有效的統計資訊:總和 |
|
|
叢集中所有 API 伺服器發出的被拒絕的驗證准入 Webhook 請求數量。 單位:計數 有效的統計資訊:總和 |
|
|
根據叢集中所有 API 伺服器的所有請求,計算得出的第三方准入 Webhook 請求延遲的第 99 個百分位數。表示 99% 的第三方准入 Webhook 請求在此響應時間內完成。 單位:秒 有效的統計資訊:平均 |
|
|
根據叢集中所有 API 伺服器的所有請求,計算得出的第三方變更准入 Webhook 請求延遲的第 99 個百分位數。表示 99% 的第三方變更准入 Webhook 請求在此響應時間內完成。 單位:秒 有效的統計資訊:平均 |
|
|
根據叢集中所有 API 伺服器的所有請求,計算得出的第三方驗證准入 Webhook 請求延遲的第 99 個百分位數。表示 99% 的第三方驗證准入 Webhook 請求在此響應時間內完成。 單位:秒 有效的統計資訊:平均 |
|
|
叢集中 API 伺服器使用的 etcd 儲存資料庫檔案的實體大小 (以位元組為單位)。此指標表示為儲存分配的實際磁碟空間。 單位:位元組 有效的統計資訊:上限 |
Amazon CloudWatch 可觀測性運算子
Amazon CloudWatch 可觀測性運算子會收集即時日誌、指標和追蹤資料。它會將那些資料發送到 Amazon CloudWatch 和 AWS X-Ray。您可以安裝此附加元件來啟用 CloudWatch Application Signals 和 CloudWatch Container Insights,搭配 Amazon EKS 的增強可觀測性。這有助於監控基礎設施和容器化應用程式的運作狀態與效能。Amazon CloudWatch 可觀測性運算子旨在安裝和設定必要的元件。
Amazon EKS 支援將 CloudWatch 可觀測性運算子作為 Amazon EKS 附加元件。該附加元件允許在叢集中 Linux 和 Windows 工作節點上使用容器洞見。要在 Windows 上啟用容器洞見,Amazon EKS 附加元件版本必須為 1.5.0 或更新版本。目前,CloudWatch Application Signals 在 Amazon EKS Windows 上不受支援。
以下主題描述如何開始使用 Amazon EKS 叢集的 CloudWatch 可觀測性運算子。
-
如需安裝此附加元件的說明,請參閱《Amazon CloudWatch 使用者指南》中的使用 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式。
-
如需 CloudWatch Application Signals 的詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的 Application Insights。
-
如需有關 Container Insights 的詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的使用 Container Insights。