

# OPS08-BP04 建立可執行的提醒
<a name="ops_workload_observability_create_alerts"></a>

 及時偵測並回應您的應用程式行為中的偏差至關重要。尤其重要的是要了解基於關鍵績效指標 (KPI) 的結果何時處於危險之中，或者何時出現意外異常。以 KPI 為基礎的提醒可確保您收到的訊號直接與業務或營運影響產生關係。這種可採取動作的提醒方法可促進主動回應，並有助於維持系統效能與可靠性。

 **預期成果：**接收及時、相關且可行的提醒，以便快速識別和緩解潛在問題，尤其是在 KPI 結果面臨風險時。

 **常見的反模式：**
+  設定太多非嚴重性提醒會導致提醒疲勞。
+  不會根據 KPI 來排定提醒的優先順序，因此難以了解問題的業務影響。
+  忽視解決根本原因導致同一問題的重複提醒。

 **建立此最佳實務的優勢：**
+  透過專注於可操作且相關的提醒來減少提醒疲勞。
+  透過主動偵測和緩解問題，改善系統運作時間和可靠性。
+  透過與熱門的提醒和通訊工具整合，強化團隊協同作業並加快解決問題的速度。

 **未建立此最佳實務時的曝險等級：**高 

## 實作指引
<a name="implementation-guidance"></a>

 若要建立有效的提醒機制，使用指標、日誌和追蹤資料至關重要，其會在基於 KPI 的結果出現風險或偵測到異常時進行標記。

### 實作步驟
<a name="implementation-steps"></a>

1.  **確定關鍵績效指標 (KPI)**：確定應用程式的 KPI。提醒應與這些關鍵績效指標相關聯，以準確反映業務影響。

1.  **實作異常偵測**：
   +  **使用 Amazon CloudWatch 異常偵測**：設定 [Amazon CloudWatch 異常偵測](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html)以自動偵測異常模式，這可協助您僅針對真正的異常產生提醒。
   +  **使用 AWS X-Ray Insights**：

     1.  設定 [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) 以偵測追蹤資料中的異常。

     1.  設定 [X-Ray Insights 的通知](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications)，以便在偵測到問題時收到提醒。
   +  **與 Amazon DevOps Guru 整合**：

     1.  利用 [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) 的機器學習功能，偵測現有資料的操作異常情況。

     1.  導覽至 DevOps Guru 中的[通知設定](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings)，以設定異常提醒。

1.  **實作可執行的提醒**：設計提醒，為立即採取行動提供足夠資訊。

   1.  [使用 Amazon EventBridge 規則監控 AWS Health 事件](https://docs.aws.amazon.com/health/latest/ug/cloudwatch-events-health.html)，或以程式設計方式與 AWS Health API 整合，以便在您收到 AWS Health 事件時自動執行動作。這些動作可以是一般動作 (例如將所有規劃的生命週期事件訊息傳送至聊天介面) 或是特定動作 (例如在 IT 服務管理工具中啟動工作流程)。

1.  **減少提醒疲勞**：將非嚴重性提醒降至最低。當團隊對眾多微不足道的提醒感到不知所措時，他們可能會失去對重大問題的監督，從而降低提醒機制的整體有效性。

1.  **設定複合警示**：使用 [Amazon CloudWatch 複合警示](https://aws.amazon.com/bloprove-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/)來合併多個警示。

1.  **與提醒工具整合**：整合諸如 [Ops Genie](https://www.atlassian.com/software/opsgenie) 和 [PagerDuty](https://www.pagerduty.com/) 等工具。

1.  **採用聊天應用程式中的 Amazon Q Developer**：整合[聊天應用程式中的 Amazon Q Developer](https://aws.amazon.com/chatbot/)，以便將警示轉送至 Amazon Chime、Microsoft Teams 和 Slack。

1.  **基於日誌的提醒**：使用 CloudWatch 中的[日誌指標篩選器](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html)，根據特定的日誌事件建立警示。

1.  **審查並反覆**：定期重新檢視並調整提醒組態。

 **實作計劃的工作量：**中 

## 資源
<a name="resources"></a>

 **相關的最佳實務：**
+  [OPS04-BP01 識別關鍵績效指標](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 實作應用程式遙測](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 實作使用者體驗遙測](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 實作相依性遙測](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 實作分散式追蹤](ops_observability_dist_trace.md) 
+  [OPS08-BP01 分析工作負載指標](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 分析工作負載日誌](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 分析工作負載追蹤](ops_workload_observability_analyze_workload_traces.md) 

 **相關文件：**
+  [使用 Amazon CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html) 
+  [建立複合警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html) 
+  [根據異常偵測建立 CloudWatch 警示](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html) 
+  [DevOps Guru 通知](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html) 
+  [X-ray Insights 通知](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 
+  [透過互動式 ChatOps 監控和操作您的 AWS 資源並進行疑難排解](https://aws.amazon.com/chatbot/) 
+  [Amazon CloudWatch 整合指南 \| PagerDuty](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide) 
+  [整合 Opsgenie 與 Amazon CloudWatch](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/) 

 **相關影片：**
+  [在 Amazon CloudWatch 中建立複合警示](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY) 
+  [聊天應用程式中的 Amazon Q Developer 概觀](https://www.youtube.com/watch?v=0jUSEfHbTYk) 
+  [聊天應用程式中的 Amazon Q Developer 中的 AWS On Air ft. 可變命令](https://www.youtube.com/watch?v=u2pkw2vxrtk) 

 **相關範例：**
+  [使用 Amazon CloudWatch 在雲端進行警示、事件管理和修復](https://aws.amazon.com/bloarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/) 
+  [教學課程：建立將通知傳送至聊天應用程式中的 Amazon Q Developer 的 Amazon EventBridge 規則](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html) 
+  [一個可觀測性研討會](https://catalog.workshops.aws/observability/en-US/intro) 