AWS 事件偵測與回應監控與可觀測性 - AWS 事件偵測與回應使用者指南

AWS 事件偵測與回應監控與可觀測性

AWS 事件偵測與回應為您提供專家指引,協助您從應用程式層到基礎結構,定義工作負載之間的可觀測性。監控會通知您發生錯誤。可觀測性使用資料集合來通知您發生什麼錯誤,以及發生的原因。

事件偵測與回應系統利用 Amazon CloudWatch 和 Amazon EventBridge 等原生 AWS 服務來偵測可能影響工作負載的事件,以監控 AWS 工作負載是否有故障和效能降級的情形。監控會通知您即將發生、持續發生、下降或潛在故障或效能降級的情形。當您在事件偵測與回應中將帳戶上線時,您會選取要由事件偵測與回應監控系統監控帳戶中的哪些警示,並將這些警示與應用程式和事件管理期間使用的執行手冊建立關聯。

事件偵測與回應使用 Amazon CloudWatch 和其他 AWS 服務 來建置您的可觀測性解決方案。AWS 事件偵測與回應透過兩種方式協助您實現可觀測性:

  • 業務成果指標:AWS 事件偵測與回應的可觀測性是從定義關鍵指標來監控工作負載或最終使用者體驗的成果開始。AWS 專家會與您合作,以了解工作負載的目標、重要輸出或可能影響使用者體驗的因素,並定義擷取這些關鍵指標中任何降級情形的指標和警示。例如,行動通話應用程式的關鍵業務指標是通話設定成功率 (監控使用者嘗試通話的成功率),而網站的關鍵指標是頁面速度。事件參與是根據業務成果指標觸發。

  • 基礎結構層級指標:在此階段,我們會識別支援您應用程式的基礎 AWS 服務 和基礎結構,並定義指標和警示來追蹤這些基礎結構服務的效能。這些指標可能包括 Application Load Balancer 執行個體的 ApplicationLoadBalancerErrorCount。這會在工作負載上線且監控設定完成後開始。

在 AWS 事件偵測與回應上實作可觀測性

由於可觀測性是一個持續的過程,無法在一次實務或一個時段內完成,因此 AWS 事件偵測與回應會分成兩個階段來實作可觀測性:

  • 上線階段:上線期間的可觀測性著重於偵測應用程式的業務成果何時受損。為達成此目的,上線階段期間的可觀測性著重於定義應用程式層的關鍵業務成果指標,以通知 AWS 工作負載發生中斷。如此一來,AWS 就可以快速回應這些中斷情形,並協助您復原。

  • 上線後階段:AWS 事件偵測與回應根據客戶的成熟度,提供適用於可觀測性的許多主動式服務,包括定義基礎結構層級指標、調校指標,以及設定追蹤和日誌。這些服務的實作可能跨越數個月,並涉及多個團隊。AWS 事件偵測與回應提供設定可觀測性的指引,客戶必須在其工作負載環境中實作必要的變更。如需實際實作可觀測性功能的協助,請向技術客戶經理 (TAM) 提出請求。