本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon EKS 中監控的最佳實務
策略實作方法
成功的 Amazon EKS 監控策略從規劃良好的分階段實作方法開始。
-
首先識別和監控直接影響業務營運和應用程式可靠性的關鍵指標。此基礎應包含基本基礎設施指標、關鍵應用程式效能指標和關鍵安全性指標。根據營運需求和經驗教訓逐漸擴展監控涵蓋範圍,並確保每個新增項目都提供有意義的價值。
-
使用基礎設施即程式碼 (IaC) 工具,例如 Terraform 或 來實作自動化部署程序 CloudFormation ,以確保一致性和可重複性。
-
測試和驗證監控系統,以協助維持可靠性和準確性。
-
持續精簡監控參數,以符合不斷變化的業務需求。
有效的資料管理
適當的資料管理對於維護高效且符合成本效益的監控解決方案至關重要。
-
實作明確的資料保留政策,在歷史分析需求與儲存成本之間取得平衡。
-
針對不同的指標類型設定適當的取樣率:關鍵指標的頻率較高,較不關鍵指標的頻率較低。
-
使用指標彙總來減少資料量,同時保持有意義的洞察,尤其是長期趨勢分析。
-
實作集中式記錄系統 (例如 CloudWatch Logs) 的系統性日誌保留和封存程序,以管理儲存成本並保持對重要資料的存取。
注意
Amazon EKS 1.21 版或更新版本中的 kubelet 會自動處理容器層級日誌輪換。
-
考慮為日誌儲存實作hot-warm-cold架構,以最佳化存取速度和成本效益。
警示組態和管理
警示組態需要仔細考慮以維持有效性,而不會造成警示疲勞。
-
根據服務水準目標 (SLOs) 和歷史效能模式,定義明確、可行的閾值。
-
實作分層警示嚴重性系統,以清楚區分需要立即關注的關鍵問題,以及較不緊急的問題。
-
確保提醒提供足夠的內容和可行的資訊,以便快速解決問題。
-
建立明確的呈報程序,並定義不同警示嚴重性的擁有權和回應時間。
-
定期檢閱和精簡警示組態,以協助維持其相關性和有效性。
資源最佳化
持續監控資源使用率對於維護具成本效益的操作至關重要。
-
在所有叢集元件中實作全面的資源監控,包括節點、Pod 和持久性磁碟區。
-
根據實際使用模式和效能需求設定自動擴展,以確保有效率的資源使用率,同時維持效能。
-
使用成本分配標籤來追蹤不同團隊、應用程式或環境的資源耗用量。
-
定期分析資源效率指標,以識別最佳化機會並實作改善。
-
考慮實作成本管理工具來追蹤和最佳化雲端支出。
安全
安全考量應該是監控策略不可或缺的一部分。
-
為所有監控元件實作最低權限存取原則,以確保使用者和服務只有他們所需的許可。
-
啟用全面的稽核記錄,以追蹤監控系統的所有存取和變更。
-
定期執行監控組態和存取模式的安全審查,以識別潛在的漏洞。
-
對傳輸中和靜態的敏感監控資料實作加密。
-
整合安全性監控與現有的安全性資訊和事件管理 (SIEM) 系統,以獲得全面的安全性可見性。