View a markdown version of this page

實作 Amazon EKS 監控解決方案的高可用性 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

實作 Amazon EKS 監控解決方案的高可用性

Amazon EKS 監控的強大高可用性 (HA) 策略對於確保 Kubernetes 環境的持續可見性至關重要。本節討論在監控基礎設施的不同層面實作 HA 的完整方法。

架構備援和可擴展性

建置高可用性的監控系統從適當的架構設計開始。監控元件應分散到多個 AWS 可用區域,以防止區域故障。這包括為 Prometheus 伺服器、日誌收集器和警示管理員等關鍵監控元件實作水平擴展。您可以使用 Amazon Managed Service for Prometheus 和 Amazon Managed Grafana 等 AWS 受管服務,協助降低營運開銷,同時確保高可用性。設定自動容錯移轉機制,以在元件故障期間維持服務連續性,並實施運作狀態檢查和自動復原程序。

彈性資料儲存策略

資料儲存彈性是維護監控系統可靠性的基礎。實作分散式儲存解決方案可確保即使個別儲存節點故障,指標資料和日誌仍可存取。這包括跨多個可用區域設定適當的資料複寫,以及使用不同的儲存後端進行備援。為歷史資料建立定期備份程序,並針對各種失敗案例記錄復原程序。對於 Prometheus 等時間序列資料庫,實作遠端儲存解決方案有助於將儲存考量與資料收集分開,並改善整體系統可靠性。

備援提醒管理

警示管理需要特別注意 HA 設定。部署備援警示管理員可確保即使在系統故障期間,重要通知仍可送達預期的收件人。設定多個通知管道,例如電子郵件、簡訊、Slack 和 PagerDuty,以提供替代通訊路徑。使用警示重複資料刪除機制,以防止在部分系統故障期間產生警示風暴,以及確保永遠不會遺漏關鍵警示的備用通知方法。實作警示相互關聯有助於在容錯移轉案例期間維護內容,並防止來自備援系統的重複通知。

負載平衡和服務探索

適當的負載平衡對於維持穩定的監控服務至關重要。 AWS Application Load Balancer 會將傳入監控流量分配到多個端點,運作狀態檢查可確保流量只會路由至運作狀態良好的執行個體。服務探索機制可協助監控元件自動適應環境中的變更,例如新增節點或服務。使用 DaemonSets 在所有節點上一致地部署監控代理程式,以確保隨著叢集擴展而全面涵蓋範圍。

其他 HA 考量事項

網路彈性:

  • 實作備援網路路徑。

  • 跨可用區域設定適當的子網路設計。

  • AWS Direct Connect 搭配備份路由使用 。

  • 設定適當的安全群組和網路存取控制清單 (網路 ACLs)。

監控監視器:

  • 部署次要監控系統。

  • 實作跨區域監控。

  • 設定無回應系統的提醒。

  • 定期測試容錯移轉程序。

容量規劃:

  • 監控資源用量趨勢。

  • 實作預測擴展。

  • 定期測試效能。

資料管理:

  • 實作資料保留政策。

  • 設定指標彙總。

  • 規劃資料生命週期管理。

  • 定期最佳化儲存體。

復原程序:

  • 文件復原程序。

  • 定期測試災難復原。

  • 盡可能實作自動化復原。

  • 識別並實作明確的呈報路徑。

透過實作這些高可用性實務,您可以確保 Amazon EKS 監控基礎設施保持可靠性和彈性,即使在各種故障情況下,也能持續了解 Kubernetes 環境。這些 HA 組態的定期測試和更新可確保它們在環境演進時保持有效。