

# OPS08-BP04 建立可付諸行動的警示
<a name="ops_workload_observability_create_alerts"></a>

 及時偵測並回應應用程式行為偏差的情況，是相當重要的一環。尤其重要的是，能夠辨識以關鍵績效指標 (KPI) 為基礎的成果何時存在風險，或何時出現非預期的異常狀況。以 KPI 做為警示的基礎，可確保您收到的訊號與業務或營運影響直接相關。這種可付諸行動的警示可推動主動回應，且有助於維持系統效能和可靠性。 

 **預期成果：** 接收及時、相關且可付諸行動的警示，以便迅速找出並緩解潛在問題，尤其是 KPI 成果存在風險時。 

 **常見的反模式：** 
+  設定太多非嚴重警示，導致警示疲勞。 
+  未根據 KPI 排定警示的優先順序，因此難以了解問題對業務造成的影響。 
+  忽略解決根本原因，導致一再出現相同問題的警示。 

 **建立此最佳實務的優勢：** 
+  專注於可付諸行動且相關的警示，以減少警示疲勞的情況。 
+  透過主動偵測和緩解問題，改善系統運作時間和可靠性。 
+  透過整合熱門的警示和通訊工具，強化團隊協作並加快問題解決速度。 

 **未建立此最佳實務時的曝險等級：** 高 

## 實作指引
<a name="implementation-guidance"></a>

 若要建立有效的警示機制，則務必使用指標、日誌和追蹤資料，因為這些資料會在 KPI 為基礎的成果存在風險或偵測到異常時發出訊號。 

### 實作步驟
<a name="implementation-steps"></a>

1.  **確定關鍵績效指標 (KPI)：** 識別應用程式的 KPI。警示應與這些 KPI 密切相關，才能準確反映業務影響。 

1.  **實作異常偵測：** 
   +  **使用 AWS Cost Anomaly Detection：** 設定 [AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 以自動偵測不尋常的模式，確保真正發生異常狀況時會產生警示。 
   +  **使用 X-Ray Insights：** 

     1.  設定 [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) 以偵測追蹤資料中的異常情況。 

     1.  設定 [X-Ray Insights 的通知，](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 以便在偵測到問題時收到警示。 
   +  **與 DevOps Guru 整合：** 

     1.  利用 [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) 的機器學習功能來偵測現有資料中的操作異常狀況。 

     1.  瀏覽至 [通知設定](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) (DevOps Guru 中) 以設定異常警示。 

1.  **實作可付諸行動的警示：** 設計警示，以提供足夠資訊來立即採取行動。 

1.  **減少警示疲勞：** 盡量減少非嚴重警示。產生大量不重要的警示會使團隊疲於奔命，導致疏忽嚴重的問題，而降低警示機制的整體效用。 

1.  **設定複合警報：** 使用 [Amazon CloudWatch 複合警報](https://aws.amazon.com/blogs/mt/improve-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) 來合併多個警報。 

1.  **整合警示工具：** 合併各種工具，如 [Ops Genie](https://www.atlassian.com/software/opsgenie) 和 [PagerDuty](https://www.pagerduty.com/)。 

1.  **參與 Amazon Q Developer in chat applications** 整合 [Amazon Q Developer in chat applications](https://aws.amazon.com/chatbot/)以將警示轉送至 Chime、Microsoft Teams 和 Slack。 

1.  **以日誌為基礎的警示：** 使用 [日誌指標篩選器](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) (CloudWatch 中)，以根據特定日誌事件建立警報。 

1.  **檢閱和反覆執行：** 定期重新檢視和改進警示組態。 

 **實作計劃的工作量：** 中。 

## 資源
<a name="resources"></a>

 **相關的最佳實務：** 
+  [OPS04-BP01 識別關鍵績效指標](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 實作應用程式遙測](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 實作使用者體驗遙測](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 實作相依性遙測](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 實作分散式追蹤](ops_observability_dist_trace.md) 
+  [OPS08-BP01 分析工作負載指標](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 分析工作負載日誌](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 分析工作負載追蹤](ops_workload_observability_analyze_workload_traces.md) 

 **相關文件：** 
+ [ 使用 Amazon CloudWatch 警報 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ 建立複合警報 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html)
+ [ 根據異常偵測建立 CloudWatch 警報 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html)
+ [ DevOps Guru 通知 ](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html)
+ [ X-Ray Insights 通知 ](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications)
+ [ 透過互動式 ChatOps 監控和操作您的 AWS 資源並進行疑難排解 ](https://aws.amazon.com/chatbot/)
+ [ Amazon CloudWatch 整合指南 \$1 PagerDuty ](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide)
+ [ 將 OpsGenie 與 Amazon CloudWatch 整合 ](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/)

 **相關影片：** 
+ [ 在 Amazon CloudWatch 中建立複合警報 ](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY)
+ [ Amazon Q Developer in chat applications 概觀 ](https://www.youtube.com/watch?v=0jUSEfHbTYk)
+ [AWS on Air ft.Amazon Q Developer in chat applications 中的變異命令 ](https://www.youtube.com/watch?v=u2pkw2vxrtk)

 **相關範例：** 
+ [ 雲端中使用 Amazon CloudWatch 的警報、事件管理和矯正功能 ](https://aws.amazon.com/blogs/mt/alarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/)
+ [ 教學課程：建立 Amazon EventBridge 規則將通知傳送至 Amazon Q Developer in chat applications ](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html)
+ [ One Observability 研討會 ](https://catalog.workshops.aws/observability/en-US/intro)