在事件偵測與回應中定義和設定警示 - AWS 事件偵測與回應使用者指南

在事件偵測與回應中定義和設定警示

AWS 會與您一起定義指標和警示,讓您能夠檢視應用程式及其基礎 AWS 基礎結構的效能。我們要求遵循下列準則來定義和設定警示的閾值:

  • 警示只會在對監控的工作負載有重大影響 (收入損失或客戶體驗降級導致效能大幅降低) 且需要操作員立即注意時,才會進入「警示」狀態。

  • 警示也必須在與事件管理團隊互動的同時或之前,讓指定的工作負載解決人員參與。事件管理工程師會在緩解過程中與您指定的解決人員合作,而且不會作為一線回應者,再呈報給您。

  • 警示閾值必須設定為適當的閾值和持續時間,以便只要警示觸發,就必須進行調查。如果警示在「警示」和「正常」狀態之間轉換,這樣的影響就足以保證操作員回應和注意。

警示類型

  • 描述業務影響層級並傳遞相關資訊以進行簡單的故障偵測的警示。

  • Amazon CloudWatch Canary。如需詳細資訊,請參閱 Canary 和 X-Ray 追蹤X-Ray

  • 彙總警示 (監控相依性)

下表提供範例警示,這些全都是使用 CloudWatch 監控系統。

指標名稱/警示閾值 警示 ARN 或資源 ID 如果此警示觸發 若已參與,則截止這些服務的付費支援案例

API 錯誤/

10 個資料點的錯誤數 >= 10

arn:aws:cloudwatch:us-west-2:000000000000:alarm:E2MPmimLambda-Errors

票證分給資料庫管理員 (DBA) 團隊

Lambda、API Gateway

ServiceUnavailable (Http 狀態碼 503)

5 分鐘內 10 個資料點 (不同用戶端) 的錯誤數 >=3

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503

票證分給服務團隊

Lambda、API Gateway

ThrottlingException (Http 狀態碼 400)

5 分鐘內 10 個資料點 (不同用戶端) 的錯誤數 >=3

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400

票證分給服務團隊

EC2、Amazon Aurora

如需詳細資訊,請參閱AWS 事件偵測與回應監控與可觀測性

重要輸出:

  • 工作負載上警示的定義和組態。

  • 完成填寫上線問卷中的警示詳細資訊。