在事件检测及响应服务中定义和配置警报 - AWS 事件检测及响应服务用户指南

在事件检测及响应服务中定义和配置警报

AWS 将与您协作,一起定义指标和警报,让您能够了解应用程序及其底层 AWS 基础设施的性能。我们要求警报在定义和配置阈值时符合以下标准:

  • 警报只在受监控的工作负载遭受重大影响(收入损失/客户体验降级导致性能显著下降)且需要运维人员立即给予关注时才进入“警报”状态。

  • 警报还必须在与事件管理团队联系的同时或联系之前,与您工作负载的指定事件解决人员联系。事件管理工程师会在风险缓解流程中与您指定的事件解决人员协作,而非充当第一响应者然后再上报给您。

  • 警报阈值必须设置为适当的阈值和持续时间,以便每当警报触发时,都会介入调查。如果警报在“警报”和“正常”状态之间摇摆,会产生足够的影响以确保得到运维人员的响应和关注。

警报类型

  • 可描述业务影响程度并传递相关信息以进行简单故障检测的警报。

  • Amazon CloudWatch 金丝雀警报。有关更多信息,请参阅金丝雀和 X-Ray 跟踪以及 X-Ray

  • 聚合警报(监控依赖关系)

下表提供了警报示例,所有警报均使用 CloudWatch 监控系统。

指标名称/警报阈值 警报 ARN 或资源 ID 如果此警报触发 如果已联系,请为这些服务提出高级支持案例

API 错误/

10 个数据点的错误数 >= 10

arn:aws:cloudwatch:us-west-2:000000000000:alarm:E2MPmimLambda-Errors

工单转给数据库管理员(DBA)团队

Lambda、API Gateway

ServiceUnavailable(HTTP 状态代码 503)

5 分钟窗口内 10 个数据点(不同客户端)的错误数 >=3

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503

工单转给服务团队

Lambda、API Gateway

ThrottlingException(Http 状态码 400)

5 分钟窗口内 10 个数据点(不同客户端)的错误数 >=3

arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400

工单转给服务团队

EC2、Amazon Aurora

有关更多详细信息,请参阅 AWS 事件检测及响应服务的监控和可观测性

主要输出:

  • 工作负载警报的定义和配置。

  • 加入问卷上填写警报详情。