協助改進此頁面
若要為本使用者指南貢獻內容,請點選每個頁面右側面板中的在 GitHub 上編輯此頁面連結。
使用可觀測性儀表板監控您的叢集
Amazon EKS 主控台包括可觀測性儀表板,您可在此深入洞察叢集的效能。藉助其提供的資訊,您可進行快速偵測、故障診斷及修復問題。您可藉由在運作狀態與效能摘要中選擇一個項目,開啟可觀測性儀表板的適用區段。在多個位置均包括此摘要,包括可觀測性索引標籤。
可觀測性儀表板將索引標籤分成多個部分。
摘要
運作狀態與效能摘要會列出不同類別的項目數。每個數字都是一個指向可觀測性儀表板中某個位置的超連結,並且有該類別的清單。
叢集運作狀態
叢集運作狀態提供需要注意的重要通知,其中有些通知可能需要您盡快採取行動。您可在此清單中查看說明及受影響的資源。叢集運作狀態包括兩個資料表:運作狀態問題與組態洞察。如需重新整理運作狀態問題的狀態,可選擇重新整理按鈕 ( ↻ )。組態洞察每 24 小時會自動更新一次,且不可手動重新整理。
若要了解運作狀態問題的相關詳細資訊,請參閱 叢集運作狀態常見問答集與包含解析路徑的錯誤代碼。若要了解組態洞察的相關資訊,請參閱 利用叢集洞見為 Kubernetes 版本升級做好準備,並為錯誤組態進行故障診斷。
控制平面監控
控制平面監控索引標籤分成三個部分,每個部分都可協助您監控叢集的控制平面和進行故障診斷。
指標
若是 Kubernetes 版本 1.28 及更高版本的叢集,指標區段可顯示針對各種控制平面元件收集的多個指標圖。
您可在區段頂端做出選擇,藉此來設定每一個指標圖 X 軸所用的時段。您可透過重新整理按鈕 ( ↻ ) 來重新整理資料。針對每個單獨的指標圖,垂直三點按鈕 (⋮) 會開啟功能表,其中包含 CloudWatch 的多個選項。
這些指標及更多選項在 CloudWatch 的 AWS/EKS 命名空間項下,可自動作為基本監控指標使用。如需詳細資訊,請參閱 Amazon CloudWatch 使用者指南中的基本監控與詳細監控。如需了解更多詳細的指標、視覺化與洞察,請參閱 Amazon CloudWatch 使用者指南中的 Container Insights。或者,若您更偏好 Prometheus 型監控,請參閱 藉助 Prometheus 監控叢集指標。
下表說明了可用的指標。
| 指標 | 說明 |
|---|---|
|
APIServer 請求 |
向 API 伺服器每分鐘發出的請求。 |
|
APIServer 請求總計 4XX |
每分鐘 API 伺服器請求計數 (包含 HTTP 4XX 回應碼 (用戶端側錯誤))。 |
|
APIServer 請求總計 5XX |
每分鐘 API 伺服器請求計數 (包含 HTTP 5XX 回應碼 (伺服器側錯誤))。 |
|
APIServer 請求總計 429 |
每分鐘 API 伺服器請求計數 (包含 HTTP 429 回應碼 (太多請求))。 |
|
儲存大小 |
儲存資料庫 ( |
|
排程器嘗試 |
依結果「無法排程」、「錯誤」及「已排程」來對 Pod 排程的嘗試次數。 |
|
待處理 Pod |
依「作用中」、「退避」、「無法排程」及「閘道控制」佇列類型的待處理 Pod 數目。 |
|
API 伺服器請求延遲 |
API 伺服器請求發生延遲。 |
|
API 伺服器目前的傳輸中請求 |
API 伺服器目前發生的傳輸中請求。 |
|
Webhook 請求 |
每分鐘 Webhook 請求。 |
|
Webhook 請求拒絕 |
遭到拒絕的 Webhook 請求計數。 |
|
Webhook 請求延遲 P99 |
外部、第三方 Webhook 請求的第 99 百分位延遲。 |
CloudWatch Log Insights
CloudWatch Log Insights 區段依據控制平面稽核日誌來顯示各種清單。需要開啟 Amazon EKS 控制平面日誌,才可使用此功能,您可透過檢視 CloudWatch 中的控制平面日誌區段來執行此動作。
若收集資料的時間已足夠多,您可執行全部查詢,或者一次僅針對單一清單選擇執行查詢。在您執行查詢時,CloudWatch 會產生額外成本。在區段頂端選擇您想要檢視的結果時段。如果您想要更進一步控制任何查詢,可以選擇在 CloudWatch 中檢視。這樣一來,您可在 CloudWatch 中更新查詢,來滿足您的需求。
如需詳細資訊,請參閱《Amazon CloudWatch Logs 使用者指南》中的藉助 CloudWatch Logs Insights 分析日誌資料。
在 CloudWatch 中檢視控制平面日誌
若要更新可用的日誌類型,請選擇管理日誌記錄。您啟用日誌記錄之後,日誌顯示於 CloudWatch Logs 中需要幾分鐘時間。若過去的時間已足夠多,在此區段中選擇任何檢視連結,可導覽至適用的日誌。
如需詳細資訊,請參閱 將控制平面日誌傳送至 CloudWatch Logs。
叢集洞察
升級洞察資料表能夠顯露問題並建議修正措施,從而加速升級至新 Kubernetes 版本的驗證程序。Amazon EKS 會針對影響問題的潛在 Kubernetes 版本升級清單來自動掃描叢集。升級洞察資料表列示了 Amazon EKS 針對此叢集執行的洞察檢查,及其關聯的狀態。
Amazon EKS 可根據 Kubernetes 專案中的變更的評估,以及根據與新版本關聯的 Amazon EKS 服務變更,執行洞察檢查清單的維護和定期重新整理。Amazon EKS 主控台可自動重新整理每個洞察的狀態,在上次重新整理資料欄中可看到該資訊。
如需詳細資訊,請參閱 利用叢集洞見為 Kubernetes 版本升級做好準備,並為錯誤組態進行故障診斷。
節點運作狀態問題
Amazon EKS 節點監控代理程式會自動讀取節點日誌以偵測運作狀態問題。無論自動修復設定為何,系統都會回報所有節點運作狀態問題,以便您根據需要進行調查。如果列出的問題類型未附帶說明,您可以在其彈出元素中閱讀說明。
當您重新整理頁面時,所有已解決的問題都將從清單中消失。如果啟用自動修復,您可能會暫時看到一些運作狀態問題,這些問題將會自行解決,您無須採取任何行動。根據類型,自動維修不支援的問題可能需要您手動操作。
如需報告節點運作狀態問題,叢集必須使用 Amazon EKS 自動模式,或者擁有節點監控代理程式附加元件。如需詳細資訊,請參閱 啟用節點自動修復並調查節點運作狀態問題。