在事件偵測與回應中定義和設定警示
AWS 會與您一起定義指標和警示,讓您能夠檢視應用程式及其基礎 AWS 基礎結構的效能。我們要求遵循下列準則來定義和設定警示的閾值:
警示只會在對監控的工作負載有重大影響 (收入損失或客戶體驗降級導致效能大幅降低) 且需要操作員立即注意時,才會進入「警示」狀態。
警示也必須在與事件管理團隊互動的同時或之前,讓指定的工作負載解決人員參與。事件管理工程師會在緩解過程中與您指定的解決人員合作,而且不會作為一線回應者,再呈報給您。
警示閾值必須設定為適當的閾值和持續時間,以便只要警示觸發,就必須進行調查。如果警示在「警示」和「正常」狀態之間轉換,這樣的影響就足以保證操作員回應和注意。
警示類型:
描述業務影響層級並傳遞相關資訊以進行簡單的故障偵測的警示。
Amazon CloudWatch Canary。如需詳細資訊,請參閱 Canary 和 X-Ray 追蹤及 X-Ray
。 彙總警示 (監控相依性)
下表提供範例警示,這些全都是使用 CloudWatch 監控系統。
| 指標名稱/警示閾值 | 警示 ARN 或資源 ID | 如果此警示觸發 | 若已參與,則截止這些服務的付費支援案例 |
|---|---|---|---|
API 錯誤/ 10 個資料點的錯誤數 >= 10 |
arn:aws:cloudwatch:us-west-2:000000000000:alarm:E2MPmimLambda-Errors |
票證分給資料庫管理員 (DBA) 團隊 |
Lambda、API Gateway |
ServiceUnavailable (Http 狀態碼 503) 5 分鐘內 10 個資料點 (不同用戶端) 的錯誤數 >=3 |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503 |
票證分給服務團隊 |
Lambda、API Gateway |
ThrottlingException (Http 狀態碼 400) 5 分鐘內 10 個資料點 (不同用戶端) 的錯誤數 >=3 |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400 |
票證分給服務團隊 |
EC2、Amazon Aurora |
如需詳細資訊,請參閱AWS 事件偵測與回應監控與可觀測性。
重要輸出:
工作負載上警示的定義和組態。
完成填寫上線問卷中的警示詳細資訊。