使用 Amazon CloudWatch 監測叢集資料 - Amazon EKS

協助改進此頁面

若要為本使用者指南貢獻內容,請點選每個頁面右側面板中的在 GitHub 上編輯此頁面連結。

使用 Amazon CloudWatch 監測叢集資料

Amazon CloudWatch 是一項監控服務,可從您的雲端資源收集指標和日誌。使用版本 1.28 及更高版本的新叢集時,CloudWatch 免費提供一些基本的 Amazon EKS 指標。然而,當使用 CloudWatch 可觀測性運算子作為 Amazon EKS 附加元件時,您可以獲得增強的可觀測性功能。

Amazon CloudWatch 中的基本指標

對於 Kubernetes 版本 1.28 及更高版本的叢集,您可以在 AWS/EKS 命名空間中免費獲得 CloudWatch 代售指標。下表列出了支援版本可用的基本指標清單。列出的每個指標的頻率均為一分鐘。

指標名稱 描述

scheduler_schedule_attempts_total

排程器在給定期間內嘗試在叢集中排程 Pod 的總次數。此指標有助於監控排程器的工作負載,並可指示排程壓力或 Pod 放置的潛在問題。

單位:計數

有效的統計資訊:總和

scheduler_schedule_attempts_SCHEDULED

排程器在給定期間內成功將 Pod 排程到叢集中節點的次數。

單位:計數

有效的統計資訊:總和

scheduler_schedule_attempts_UNSCHEDULABLE

在給定期間內,由於有效限制 (例如節點上的 CPU 或記憶體不足) 而導致 Pod 無法排程的嘗試次數。

單位:計數

有效的統計資訊:總和

scheduler_schedule_attempts_ERROR

在給定期間內,由於排程器本身的內部問題 (例如 API 伺服器連線問題) 而導致 Pod 排程失敗的嘗試次數。

單位:計數

有效的統計資訊:總和

scheduler_pending_pods

在給定期間內,排程器需要在叢集中排程的待處理 Pod 總數。

單位:計數

有效的統計資訊:總和

scheduler_pending_pods_ACTIVEQ

在給定期間內,位於 activeQ 中等待在叢集內排程的待處理 Pod 數量。

單位:計數

有效的統計資訊:總和

scheduler_pending_pods_UNSCHEDULABLE

排程器嘗試排程但失敗,並保持在不可排程狀態以進行重試的待處理 Pod 數量。

單位:計數

有效的統計資訊:總和

scheduler_pending_pods_BACKOFF

處於退避狀態、位於 backoffQ 中等待其退避期到期的待處理 Pod 數量。

單位:計數

有效的統計資訊:總和

scheduler_pending_pods_GATED

當前處於門控狀態等待的待處理 Pod 數量,這些 Pod 在滿足所需條件之前無法被排程。

單位:計數

有效的統計資訊:總和

apiserver_request_total

叢集中所有 API 伺服器發出的 HTTP 請求數量。

單位:計數

有效的統計資訊:總和

apiserver_request_total_4XX

對叢集中所有 API 伺服器發出的、導致 4XX (用戶端錯誤) 狀態碼的 HTTP 請求數量。

單位:計數

有效的統計資訊:總和

apiserver_request_total_429

對叢集中所有 API 伺服器發出的、導致 429 狀態碼的 HTTP 請求數量,該狀態碼在用戶端超過速率限制閾值時發生。

單位:計數

有效的統計資訊:總和

apiserver_request_total_5XX

對叢集中所有 API 伺服器發出的、導致 5XX (伺服器錯誤) 狀態碼的 HTTP 請求數量。

單位:計數

有效的統計資訊:總和

apiserver_request_total_LIST_PODS

對叢集中所有 API 伺服器發出的 LIST Pod 請求數量。

單位:計數

有效的統計資訊:總和

apiserver_request_duration_seconds_PUT_P99

根據叢集中所有 API 伺服器的所有請求,計算得出的 PUT 請求延遲的第 99 個百分位數。表示 99% 的 PUT 請求在此響應時間內完成。

單位:

有效的統計資訊:平均

apiserver_request_duration_seconds_PATCH_P99

根據叢集中所有 API 伺服器的所有請求,計算得出的 PATCH 請求延遲的第 99 個百分位數。表示 99% 的 PATCH 請求在此響應時間內完成。

單位:

有效的統計資訊:平均

apiserver_request_duration_seconds_POST_P99

根據叢集中所有 API 伺服器的所有請求,計算得出的 POST 請求延遲的第 99 個百分位數。表示 99% 的 POST 請求在此響應時間內完成。

單位:

有效的統計資訊:平均

apiserver_request_duration_seconds_GET_P99

根據叢集中所有 API 伺服器的所有請求,計算得出的 GET 請求延遲的第 99 個百分位數。表示 99% 的 GET 請求在此響應時間內完成。

單位:

有效的統計資訊:平均

apiserver_request_duration_seconds_LIST_P99

根據叢集中所有 API 伺服器的所有請求,計算得出的 LIST 請求延遲的第 99 個百分位數。表示 99% 的 LIST 請求在此響應時間內完成。

單位:

有效的統計資訊:平均

apiserver_request_duration_seconds_DELETE_P99

根據叢集中所有 API 伺服器的所有請求,計算得出的 DELETE 請求延遲的第 99 個百分位數。表示 99% 的 DELETE 請求在此響應時間內完成。

單位:

有效的統計資訊:平均

apiserver_current_inflight_requests_MUTATING

叢集中所有 API 伺服器目前正在處理的變更請求 (POSTPUTDELETEPATCH) 數量。此指標表示正在進行且尚未完成處理的請求。

單位:計數

有效的統計資訊:總和

apiserver_current_inflight_requests_READONLY

叢集中所有 API 伺服器目前正在處理的唯讀請求 (GETLIST) 數量。此指標表示正在進行且尚未完成處理的請求。

單位:計數

有效的統計資訊:總和

apiserver_admission_webhook_request_total

叢集中所有 API 伺服器發出的准入 Webhook 請求數量。

單位:計數

有效的統計資訊:總和

apiserver_admission_webhook_request_total_ADMIT

叢集中所有 API 伺服器發出的變更准入 Webhook 請求數量。

單位:計數

有效的統計資訊:總和

apiserver_admission_webhook_request_total_VALIDATING

叢集中所有 API 伺服器發出的驗證准入 Webhook 請求數量。

單位:計數

有效的統計資訊:總和

apiserver_admission_webhook_rejection_count

叢集中所有 API 伺服器發出的被拒絕的准入 Webhook 請求數量。

單位:計數

有效的統計資訊:總和

apiserver_admission_webhook_rejection_count_ADMIT

叢集中所有 API 伺服器發出的被拒絕的變更准入 Webhook 請求數量。

單位:計數

有效的統計資訊:總和

apiserver_admission_webhook_rejection_count_VALIDATING

叢集中所有 API 伺服器發出的被拒絕的驗證准入 Webhook 請求數量。

單位:計數

有效的統計資訊:總和

apiserver_admission_webhook_admission_duration_seconds

根據叢集中所有 API 伺服器的所有請求,計算得出的第三方准入 Webhook 請求延遲的第 99 個百分位數。表示 99% 的第三方准入 Webhook 請求在此響應時間內完成。

單位:

有效的統計資訊:平均

apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99

根據叢集中所有 API 伺服器的所有請求,計算得出的第三方變更准入 Webhook 請求延遲的第 99 個百分位數。表示 99% 的第三方變更准入 Webhook 請求在此響應時間內完成。

單位:

有效的統計資訊:平均

apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99

根據叢集中所有 API 伺服器的所有請求,計算得出的第三方驗證准入 Webhook 請求延遲的第 99 個百分位數。表示 99% 的第三方驗證准入 Webhook 請求在此響應時間內完成。

單位:

有效的統計資訊:平均

apiserver_storage_size_bytes

叢集中 API 伺服器使用的 etcd 儲存資料庫檔案的實體大小 (以位元組為單位)。此指標表示為儲存分配的實際磁碟空間。

單位:位元組

有效的統計資訊:上限

Amazon CloudWatch 可觀測性運算子

Amazon CloudWatch 可觀測性運算子會收集即時日誌、指標和追蹤資料。它會將那些資料發送到 Amazon CloudWatchAWS X-Ray。您可以安裝此附加元件來啟用 CloudWatch Application Signals 和 CloudWatch Container Insights,搭配 Amazon EKS 的增強可觀測性。這有助於監控基礎設施和容器化應用程式的運作狀態與效能。Amazon CloudWatch 可觀測性運算子旨在安裝和設定必要的元件。

Amazon EKS 支援將 CloudWatch 可觀測性運算子作為 Amazon EKS 附加元件。該附加元件允許在叢集中 Linux 和 Windows 工作節點上使用容器洞見。要在 Windows 上啟用容器洞見,Amazon EKS 附加元件版本必須為 1.5.0 或更新版本。目前,CloudWatch Application Signals 在 Amazon EKS Windows 上不受支援。

以下主題描述如何開始使用 Amazon EKS 叢集的 CloudWatch 可觀測性運算子。