

# OPS08-BP04 创建可操作的警报
<a name="ops_workload_observability_create_alerts"></a>

 及时检测和响应应用程序行为的偏差至关重要。尤其重要的是，识别基于关键绩效指标（KPI）的结果何时处于风险当中，或何时出现意外的异常情况。基于 KPI 的警报可确保您收到的信号与业务或运营影响直接相关。这种可操作警报的方法可促进主动响应，并有助于维护系统性能和可靠性。 

 **期望的结果：** 接收及时、相关且可操作的警报，以便快速找出和缓解潜在问题，尤其是在 KPI 结果面临风险时。 

 **常见反模式：** 
+  设置过多非关键警报，导致警报疲劳。 
+  不根据 KPI 对警报进行优先级排序，因此很难理解问题对业务的影响。 
+  忽视根本原因，导致针对同一问题出现重复警报。 

 **建立此最佳实践的好处：** 
+  通过关注可操作且相关的警报，减少警报疲劳。 
+  通过主动检测和缓解问题，改善系统的正常运行时间和可靠性。 
+  通过与常用的警报和通信工具集成，增进团队协作并更快解决问题。 

 **未建立这种最佳实践的情况下暴露的风险等级：** 高 

## 实施指导
<a name="implementation-guidance"></a>

 要创建有效的警报机制，必须使用指标、日志和跟踪数据来标记基于 KPI 的结果何时存在风险，或何时检测到异常情况。 

### 实施步骤
<a name="implementation-steps"></a>

1.  **定义关键绩效指标（KPI）：** 确定应用程序的 KPI。警报应与这些 KPI 相关联，以准确反映业务影响。 

1.  **实现异常检测：** 
   +  **使用 AWS Cost Anomaly Detection：** 设置 [AWS Cost Anomaly Detection](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/CloudWatch_Anomaly_Detection.html) 以自动检测异常模式，确保仅针对真正的异常情况生成警报。 
   +  **使用 X-Ray Insights：** 

     1.  设置 [X-Ray Insights](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html) 以检测跟踪数据中的异常。 

     1.  配置 [X-Ray Insights 通知](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications) 以便在检测到问题时收到提醒。 
   +  **与 DevOps Guru 集成：** 

     1.  利用 [Amazon DevOps Guru](https://aws.amazon.com/devops-guru/) 的机器学习功能，结合现有数据来检测操作异常。 

     1.  导航到 [通知设置](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html#navigate-to-notification-settings) （在 DevOps Guru 中）以设置异常警报。 

1.  **实施可操作的警报：** 设计能够提供足够信息的警报，以便立即采取行动。 

1.  **减少警报疲劳：** 尽量减少非关键警报。如果存在大量无关紧要的警报，团队将不堪重负，可能导致忽视关键问题，并降低警报机制的整体有效性。 

1.  **设置复合警报：** 使用 [Amazon CloudWatch 复合警报](https://aws.amazon.com/blogs/mt/improve-monitoring-efficiency-using-amazon-cloudwatch-composite-alarms-2/) 来整合多个警报。 

1.  **与警报工具集成：** 纳入多个工具，例如 [Ops Genie](https://www.atlassian.com/software/opsgenie) 和 [PagerDuty](https://www.pagerduty.com/)。 

1.  **利用 Amazon Q Developer in chat applications** 集成 [Amazon Q Developer in chat applications](https://aws.amazon.com/chatbot/)以便将警报转发到 Chime、Microsoft Teams 和 Slack。 

1.  **基于日志的警报：** 使用 [日志指标筛选器](https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/MonitoringLogData.html) （在 CloudWatch 中）来根据特定的日志事件创建警报。 

1.  **查看并迭代：** 定期重新审视和完善警报配置。 

 **实施计划的工作量级别：** 中。 

## 资源
<a name="resources"></a>

 **相关最佳实践：** 
+  [OPS04-BP01 识别关键绩效指标](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 实施应用程序遥测](ops_observability_application_telemetry.md) 
+  [OPS04-BP03 实施用户体验遥测](ops_observability_customer_telemetry.md) 
+  [OPS04-BP04 实施依赖项遥测](ops_observability_dependency_telemetry.md) 
+  [OPS04-BP05 实施分布式跟踪](ops_observability_dist_trace.md) 
+  [OPS08-BP01 分析工作负载指标](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS08-BP02 分析工作负载日志](ops_workload_observability_analyze_workload_logs.md) 
+  [OPS08-BP03 分析工作负载跟踪数据](ops_workload_observability_analyze_workload_traces.md) 

 **相关文档：** 
+ [ 使用 Amazon CloudWatch 警报 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html)
+ [ 创建复合警报 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Composite_Alarm.html)
+ [ 基于异常检测创建 CloudWatch 警报 ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Create_Anomaly_Detection_Alarm.html)
+ [ DevOps Guru 通知 ](https://docs.aws.amazon.com/devops-guru/latest/userguide/update-notifications.html)
+ [ X-Ray Insights 通知 ](https://docs.aws.amazon.com/xray/latest/devguide/xray-console-insights.html#xray-console-insight-notifications)
+ [ 使用交互式 ChatOps 对 AWS 资源进行监控、操作和故障排除 ](https://aws.amazon.com/chatbot/)
+ [ Amazon CloudWatch 集成指南 \$1 PagerDuty ](https://support.pagerduty.com/docs/amazon-cloudwatch-integration-guide)
+ [ 将 OpsGenie 与 Amazon CloudWatch 集成 ](https://support.atlassian.com/opsgenie/docs/integrate-opsgenie-with-amazon-cloudwatch/)

 **相关视频：** 
+ [ Create Composite Alarms in Amazon CloudWatch ](https://www.youtube.com/watch?v=0LMQ-Mu-ZCY)
+ [ Amazon Q Developer in chat applications Overview ](https://www.youtube.com/watch?v=0jUSEfHbTYk)
+ [AWS on Air ft.Mutative Commands in Amazon Q Developer in chat applications ](https://www.youtube.com/watch?v=u2pkw2vxrtk)

 **相关示例：** 
+ [ Alarms, incident management, and remediation in the cloud with Amazon CloudWatch ](https://aws.amazon.com/blogs/mt/alarms-incident-management-and-remediation-in-the-cloud-with-amazon-cloudwatch/)
+ [ Tutorial: Creating an Amazon EventBridge rule that sends notifications to Amazon Q Developer in chat applications ](https://docs.aws.amazon.com/chatbot/latest/adminguide/create-eventbridge-rule.html)
+ [ One Observability Workshop ](https://catalog.workshops.aws/observability/en-US/intro)