事件偵測與回應中的工作負載上線和警示擷取問卷 - AWS 事件偵測與回應使用者指南

事件偵測與回應中的工作負載上線和警示擷取問卷

此頁面提供在 AWS 事件偵測與回應中將工作負載上線,以及設定警示以擷取至服務中時,需要填寫的問卷。工作負載上線問卷涵蓋有關工作負載、其架構詳細資訊和事件回應聯絡人的一般資訊。在警示擷取問卷中,您可以指定應在事件偵測與回應中針對您的工作負載觸發建立事件的關鍵警示,以及有關應聯絡哪些人員和應採取哪些動作的執行手冊資訊。正確完成這些問卷是為您的 AWS 工作負載設定監控和事件回應程序的關鍵步驟。

下載工作負載上線問卷

下載警示擷取問卷

工作負載上線問卷 - 一般問題

一般問題
問題 回應範例
企業名稱

Amazon Inc.

此工作負載的名稱 (包括任何縮寫)

Amazon Retail Operations (ARO)

此工作負載的主要最終使用者和功能。

此工作負載是電子商務應用程式,可讓最終使用者購買各種商品。此工作負載是我們業務的主要營收來源。

此工作負載適用的合規和/或監管要求,以及事件發生後 AWS 需採取的任何行動。

工作負載會處理病患的病歷記錄,其內容必須保持安全和機密。

工作負載上線問卷 - 架構問題

架構問題
問題 回應範例

用於定義屬於此工作負載之資源的 AWS 資源標籤清單。AWS 會使用這些標籤來識別此工作負載的資源,以在事件期間加速提供支援。

注意

標籤會區分大小寫。如果您提供多個標籤,此工作負載使用的所有資源都必須具有相同的標籤。

appName:Optimax

environment:生產

此工作負載所使用的 AWS 服務清單,以及這些服務所在的 AWS 帳戶和區域。

注意

為每一項服務建立新的一列。

Route 53:將網際網路流量路由到 ALB。

帳戶:123456789101

區域:US-EAST-1、US-WEST-2

此工作負載所使用的 AWS 服務清單,以及這些服務所在的 AWS 帳戶和區域。

注意

為每一項服務建立新的一列。

ALB:將傳入流量路由到 ECS 容器的目標群組。

帳戶:123456789101

區域:不適用

此工作負載所使用的 AWS 服務清單,以及這些服務所在的 AWS 帳戶和區域。

注意

為每一項服務建立新的一列。

ECS:主要商業邏輯機群的運算基礎結構。負責處理傳入的使用者請求並查詢持續性層。

帳戶:123456789101

區域:US-EAST-1

此工作負載所使用的 AWS 服務清單,以及這些服務所在的 AWS 帳戶和區域。

注意

為每一項服務建立新的一列。

RDS:Amazon Aurora 叢集會儲存 ECS 商業邏輯層存取的使用者資料。

帳戶:123456789101

區域:US-EAST-1

此工作負載所使用的 AWS 服務清單,以及這些服務所在的 AWS 帳戶和區域。

注意

為每一項服務建立新的一列。

S3:儲存網站靜態資產。

帳戶:123456789101

區域:不適用

詳細說明任何未上線的上游/下游元件,如遇到中斷情形,這些元件可能會影響此工作負載。 身分驗證微型服務:將防止使用者載入其病歷記錄,因為不會驗證使用者的身分。
此工作負載是否有任何內部部署或非 AWS 元件? 如果有,這些元件是什麼?其功能為何? 所有傳入/傳出 AWS 的網際網路流量都會透過我們的內部部署代理服務進行路由。
在可用區域和區域層級提供任何手動或自動容錯移轉/災難復原計畫的詳細資訊。 暖待命。在成功率持續下降期間自動容錯移轉至 US-WEST-2。

警示擷取問卷

執行手冊問題
問題 回應範例

AWS 將透過 支援 案例與工作負載聯絡人互動。當此工作負載的警示觸發時,誰是主要聯絡人?

指定您偏好的會議應用程式,AWS 將會在事件期間請求這些詳細資訊。

注意

如果未提供偏好的會議應用程式,則 AWS 將在事件期間與您聯絡,並提供 Chime 橋接器供您加入。

應用程式團隊

app@example.com

+61 2 3456 7890

如果在事件期間無法聯繫主要聯絡人,請依偏好的通訊順序提供呈報聯絡人和時間表。

1. 10 分鐘後,如果主要聯絡人沒有回應,則聯絡:

John Smith - 應用程式主管

john.smith@example.com

+61 2 3456 7890

2. 10 分鐘後,如果 John Smith 沒有回應,則聯絡:

Jane Smith - 營運經理

jane.smith@example.com

+61 2 3456 7890

AWS 會在整個事件過程中,定期透過支援案例傳達更新。是否還有其他聯絡人應收到這些更新?

john.smith@example.com、jane.smith@example.com

警示矩陣

提供以下資訊以識別將與 AWS 事件偵測與回應互動的一組警示,以代表您的工作負載建立事件。來自 AWS 事件偵測與回應的工程師檢閱您的警示後,就會提供其他上線步驟。

AWS 事件偵測與回應關鍵警示條件

  • AWS 事件偵測與回應警示只有在對監控的工作負載有重大業務影響 (收入損失/客戶體驗降級) 且需要操作員立即注意時,才應進入「警示」狀態。

  • AWS 事件偵測與回應警示也必須同時或在互動之前,與工作負載的解決人員互動。AWS事件管理者會在緩解過程中與您的解決人員合作,而且不會作為一線回應者,再呈報給您。

  • AWS 事件偵測與回應警示閾值必須設定為適當的閾值和持續時間,以便只要警示觸發,就必須進行調查。如果警示在「警示」和「正常」狀態之間切換,這樣的影響就足以保證操作員回應和注意。

違反條件的 AWS 事件偵測與回應政策

只有在事件發生時,才會依個別案例評估這些條件。事件管理團隊與您的技術客戶經理 (TAM) 合作調整警示,在極少數情況下才會停用監控,例如懷疑客戶警示未遵循此條件,以及定期與事件管理團隊進行不必要的互動等。

重要

在提供聯絡地址時提供群組分佈電子郵件地址,讓您可以控制收件人新增和刪除,而不需進行執行手冊更新。

如果您希望 AWS 事件偵測與回應團隊在傳送初始參與電子郵件之後致電網站可靠性工程 (SRE) 團隊,請提供該團隊的聯絡電話號碼。

警示矩陣表
指標名稱/ARN/閾值 描述 備註 請求的動作

工作負載量/

CW 警示 ARN/

5 分鐘內 5 個資料點的 CallCount < 100000,將遺失的資料視為遺失

此指標代表傳入工作負載的請求數量,於 Application Load Balancer 層級衡量。

此警示很重要,因為傳入請求大幅下降可能表示上游網路連線發生問題,或我們的 DNS 實作發生問題,導致使用者無法存取工作負載。

警示在上週進入「警示」狀態 10 次。此警示有誤報的風險。已規劃閾值檢閱。

有問題? 「否」或「是」(若否,保留空白):此警示在某一批特定任務執行期間頻繁切換。

解決人員:網站可靠性工程師

傳送電子郵件至 SRE@example.com 以通知網站可靠性工程團隊參與

針對 ELB 和 Amazon Route 53 服務建立 AWS 支援 案例。

如果需要「立即」行動:檢查 EC2 可用記憶體/磁碟空間,並透過電子郵件通知範例團隊重新啟動執行個體,或執行日誌排清。(若不需要立即行動,則保留空白)

工作負載請求延遲/

CW 警示 ARN/

5 分鐘內 5 個資料點的 p90 延遲 > 100 毫秒,將遺失的資料視為遺失

此指標代表工作負載履行的 HTTP 請求的 p90 延遲。

此警示代表延遲 (網站客戶體驗的重要量值)。

警示在上週進入「警示」狀態 0 次。

有問題? 「否」或「是」(若否,保留空白):此警示在某一批特定任務執行期間頻繁切換。

解決人員:網站可靠性工程師

傳送電子郵件至 SRE@example.com 以通知網站可靠性工程團隊參與

針對 ECW 和 RDS 服務建立 AWS 支援 案例。

如果需要「立即」行動:檢查 EC2 可用記憶體/磁碟空間,並透過電子郵件通知範例團隊重新啟動執行個體,或執行日誌排清。(若不需要立即行動,則保留空白)

工作負載請求可用性/

CW 警示 ARN/

5 分鐘內 5 個資料點的可用性 < 95%,將遺失的資料視為遺失。

此指標代表工作負載履行的 HTTP 請求的可用性 (每個期間的 HTTP 數量 200/請求數量)。

此警示代表工作負載的可用性。

警示在上週進入「警示」狀態 0 次。

有問題? 「否」或「是」(若否,保留空白):此警示在某一批特定任務執行期間頻繁切換。

解決人員:網站可靠性工程師

傳送電子郵件至 SRE@example.com 以通知網站可靠性工程團隊參與

針對 ELB 和 Amazon Route 53 服務建立 AWS 支援 案例。

如果需要「立即」行動:檢查 EC2 可用記憶體/磁碟空間,並透過電子郵件通知範例團隊重新啟動執行個體,或執行日誌排清。(若不需要立即行動,則保留空白)

 

New Relic 警示範例

端對端整合測試/

CW 警示 ARN/

3 分鐘內 1 分鐘指標的失敗率 3%,將遺失的資料視為遺失

工作負載識別碼:端對端測試工作流程,AWS 區域:US-EAST-1,AWS 帳戶 ID:012345678910

此指標會測試請求是否可周遊工作負載的每一層。如果此測試失敗,則表示處理商業交易發生嚴重失敗。

此警示代表處理工作負載商業交易的能力。

警示在上週進入「警示」狀態 0 次。

有問題? 「否」或「是」(若否,保留空白):此警示在某一批特定任務執行期間頻繁切換。

解決人員:網站可靠性工程師

傳送電子郵件至 SRE@example.com 以通知網站可靠性工程團隊參與

針對 Amazon Elastic Container Service 和 Amazon DynamoDB 服務建立 AWS 支援 案例。

如果需要「立即」行動:檢查 EC2 可用記憶體/磁碟空間,並透過電子郵件通知範例團隊重新啟動執行個體,或執行日誌排清。(若不需要立即行動,則保留空白)