

 **協助改進此頁面** 

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

若要為本使用者指南貢獻內容，請點選每個頁面右側面板中的**在 GitHub 上編輯此頁面**連結。

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用 Amazon CloudWatch 監測叢集資料
<a name="cloudwatch"></a>

Amazon CloudWatch 是一項監控服務，可從您的雲端資源收集指標和日誌。使用版本 `1.28` 及更高版本的新叢集時，CloudWatch 免費提供一些基本的 Amazon EKS 指標。然而，當使用 CloudWatch 可觀測性運算子作為 Amazon EKS 附加元件時，您可以獲得增強的可觀測性功能。

## Amazon CloudWatch 中的基本指標
<a name="cloudwatch-basic-metrics"></a>

對於 Kubernetes 版本 `1.28` 及更高版本的叢集，您可以在 `AWS/EKS` 命名空間中免費獲得 CloudWatch 代售指標。下表列出了支援版本可用的基本指標清單。列出的每個指標的頻率均為一分鐘。


| 指標名稱 | Description | 
| --- | --- | 
|   `apiserver_flowcontrol_current_executing_seats`   |  目前用於執行 API 請求的座位數量。座位配置取決於 Kubernetes API Priority and Fairness [功能](https://kubernetes.io/docs/concepts/cluster-administration/flow-control/)中的 priority\$1level 和 flow\$1schema 組態。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `scheduler_schedule_attempts_total`   |  排程器在給定期間內嘗試在叢集中排程 Pod 的總次數。此指標有助於監控排程器的工作負載，並可指示排程壓力或 Pod 放置的潛在問題。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `scheduler_schedule_attempts_SCHEDULED`   |  排程器在給定期間內成功將 Pod 排程到叢集中節點的次數。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `scheduler_schedule_attempts_UNSCHEDULABLE`   |  在給定期間內，由於有效限制 (例如節點上的 CPU 或記憶體不足) 而導致 Pod 無法排程的嘗試次數。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `scheduler_schedule_attempts_ERROR`   |  在給定期間內，由於排程器本身的內部問題 (例如 API 伺服器連線問題) 而導致 Pod 排程失敗的嘗試次數。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `scheduler_pending_pods`   |  在給定期間內，排程器需要在叢集中排程的待處理 Pod 總數。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `scheduler_pending_pods_ACTIVEQ`   |  在給定期間內，位於 activeQ 中等待在叢集內排程的待處理 Pod 數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `scheduler_pending_pods_UNSCHEDULABLE`   |  排程器嘗試排程但失敗，並保持在不可排程狀態以進行重試的待處理 Pod 數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `scheduler_pending_pods_BACKOFF`   |  處於退避狀態、位於 `backoffQ` 中等待其退避期到期的待處理 Pod 數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `scheduler_pending_pods_GATED`   |  當前處於門控狀態等待的待處理 Pod 數量，這些 Pod 在滿足所需條件之前無法被排程。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_request_total`   |  叢集中所有 API 伺服器發出的 HTTP 請求數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_request_total_4XX`   |  對叢集中所有 API 伺服器發出的、導致 `4XX` (用戶端錯誤) 狀態碼的 HTTP 請求數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_request_total_429`   |  對叢集中所有 API 伺服器發出的、導致 `429` 狀態碼的 HTTP 請求數量，該狀態碼在用戶端超過速率限制閾值時發生。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_request_total_5XX`   |  對叢集中所有 API 伺服器發出的、導致 `5XX` (伺服器錯誤) 狀態碼的 HTTP 請求數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_request_total_LIST_PODS`   |  對叢集中所有 API 伺服器發出的 `LIST` Pod 請求數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_request_duration_seconds_PUT_P99`   |  根據叢集中所有 API 伺服器的所有請求，計算得出的 `PUT` 請求延遲的第 99 個百分位數。表示 99% 的 `PUT` 請求在此響應時間內完成。  **單位：**秒  **有效的統計資訊：**平均  | 
|   `apiserver_request_duration_seconds_PATCH_P99`   |  根據叢集中所有 API 伺服器的所有請求，計算得出的 `PATCH` 請求延遲的第 99 個百分位數。表示 99% 的 `PATCH` 請求在此響應時間內完成。  **單位：**秒  **有效的統計資訊：**平均  | 
|   `apiserver_request_duration_seconds_POST_P99`   |  根據叢集中所有 API 伺服器的所有請求，計算得出的 `POST` 請求延遲的第 99 個百分位數。表示 99% 的 `POST` 請求在此響應時間內完成。  **單位：**秒  **有效的統計資訊：**平均  | 
|   `apiserver_request_duration_seconds_GET_P99`   |  根據叢集中所有 API 伺服器的所有請求，計算得出的 `GET` 請求延遲的第 99 個百分位數。表示 99% 的 `GET` 請求在此響應時間內完成。  **單位：**秒  **有效的統計資訊：**平均  | 
|   `apiserver_request_duration_seconds_LIST_P99`   |  根據叢集中所有 API 伺服器的所有請求，計算得出的 `LIST` 請求延遲的第 99 個百分位數。表示 99% 的 `LIST` 請求在此響應時間內完成。  **單位：**秒  **有效的統計資訊：**平均  | 
|   `apiserver_request_duration_seconds_DELETE_P99`   |  根據叢集中所有 API 伺服器的所有請求，計算得出的 `DELETE` 請求延遲的第 99 個百分位數。表示 99% 的 `DELETE` 請求在此響應時間內完成。  **單位：**秒  **有效的統計資訊：**平均  | 
|   `apiserver_current_inflight_requests_MUTATING`   |  叢集中所有 API 伺服器目前正在處理的變更請求 (`POST`、`PUT`、`DELETE`、`PATCH`) 數量。此指標表示正在進行且尚未完成處理的請求。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_current_inflight_requests_READONLY`   |  叢集中所有 API 伺服器目前正在處理的唯讀請求 (`GET`、`LIST`) 數量。此指標表示正在進行且尚未完成處理的請求。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_admission_webhook_request_total`   |  叢集中所有 API 伺服器發出的准入 Webhook 請求數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_admission_webhook_request_total_ADMIT`   |  叢集中所有 API 伺服器發出的變更准入 Webhook 請求數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_admission_webhook_request_total_VALIDATING`   |  叢集中所有 API 伺服器發出的驗證准入 Webhook 請求數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_admission_webhook_rejection_count`   |  叢集中所有 API 伺服器發出的被拒絕的准入 Webhook 請求數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_admission_webhook_rejection_count_ADMIT`   |  叢集中所有 API 伺服器發出的被拒絕的變更准入 Webhook 請求數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_admission_webhook_rejection_count_VALIDATING`   |  叢集中所有 API 伺服器發出的被拒絕的驗證准入 Webhook 請求數量。  **單位：**計數  **有效的統計資訊：**總和  | 
|   `apiserver_admission_webhook_admission_duration_seconds`   |  根據叢集中所有 API 伺服器的所有請求，計算得出的第三方准入 Webhook 請求延遲的第 99 個百分位數。表示 99% 的第三方准入 Webhook 請求在此響應時間內完成。  **單位：**秒  **有效的統計資訊：**平均  | 
|   `apiserver_admission_webhook_admission_duration_seconds_ADMIT_P99`   |  根據叢集中所有 API 伺服器的所有請求，計算得出的第三方變更准入 Webhook 請求延遲的第 99 個百分位數。表示 99% 的第三方變更准入 Webhook 請求在此響應時間內完成。  **單位：**秒  **有效的統計資訊：**平均  | 
|   `apiserver_admission_webhook_admission_duration_seconds_VALIDATING_P99`   |  根據叢集中所有 API 伺服器的所有請求，計算得出的第三方驗證准入 Webhook 請求延遲的第 99 個百分位數。表示 99% 的第三方驗證准入 Webhook 請求在此響應時間內完成。  **單位：**秒  **有效的統計資訊：**平均  | 
|   `apiserver_storage_size_bytes`   |  叢集中 API 伺服器使用的 etcd 儲存資料庫檔案的實體大小 (以位元組為單位)。此指標表示為儲存分配的實際磁碟空間。  **單位：**位元組  **有效的統計資訊：**上限  | 

## Amazon CloudWatch 可觀測性運算子
<a name="cloudwatch-operator"></a>

Amazon CloudWatch 可觀測性運算子會收集即時日誌、指標和追蹤資料。它會將那些資料發送到 [Amazon CloudWatch](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html) 和 [AWS X-Ray](https://docs.aws.amazon.com/xray/latest/devguide/aws-xray.html)。您可以安裝此附加元件來啟用 CloudWatch Application Signals 和 CloudWatch Container Insights，搭配 Amazon EKS 的增強可觀測性。這有助於監控基礎設施和容器化應用程式的運作狀態與效能。Amazon CloudWatch 可觀測性運算子旨在安裝和設定必要的元件。

Amazon EKS 支援將 CloudWatch 可觀測性運算子作為 [Amazon EKS 附加元件](eks-add-ons.md)。該附加元件允許在叢集中 Linux 和 Windows 工作節點上使用容器洞見。要在 Windows 上啟用容器洞見，Amazon EKS 附加元件版本必須為 `1.5.0` 或更新版本。目前，CloudWatch Application Signals 在 Amazon EKS Windows 上不受支援。

以下主題描述如何開始使用 Amazon EKS 叢集的 CloudWatch 可觀測性運算子。
+ 如需安裝此附加元件的說明，請參閱《*Amazon CloudWatch 使用者指南*》中的[使用 Amazon CloudWatch 可觀測性 EKS 附加元件或 Helm Chart 安裝 CloudWatch 代理程式](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/install-CloudWatch-Observability-EKS-addon.html)。
+ 如需 CloudWatch Application Signals 的詳細資訊，請參閱《*Amazon CloudWatch 使用者指南》*中的 [Application Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch-Application-Monitoring-Sections.html)。
+ 如需有關 Container Insights 的詳細資訊，請參閱《*Amazon CloudWatch 使用者指南*》中的[使用 Container Insights](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/ContainerInsights.html)。