在事件检测及响应服务中定义和配置警报
AWS 将与您协作,一起定义指标和警报,让您能够了解应用程序及其底层 AWS 基础设施的性能。我们要求警报在定义和配置阈值时符合以下标准:
警报只在受监控的工作负载遭受重大影响(收入损失/客户体验降级导致性能显著下降)且需要运维人员立即给予关注时才进入“警报”状态。
警报还必须在与事件管理团队联系的同时或联系之前,与您工作负载的指定事件解决人员联系。事件管理工程师会在风险缓解流程中与您指定的事件解决人员协作,而非充当第一响应者然后再上报给您。
警报阈值必须设置为适当的阈值和持续时间,以便每当警报触发时,都会介入调查。如果警报在“警报”和“正常”状态之间摇摆,会产生足够的影响以确保得到运维人员的响应和关注。
警报类型:
可描述业务影响程度并传递相关信息以进行简单故障检测的警报。
Amazon CloudWatch 金丝雀警报。有关更多信息,请参阅金丝雀和 X-Ray 跟踪以及 X-Ray
。 聚合警报(监控依赖关系)
下表提供了警报示例,所有警报均使用 CloudWatch 监控系统。
| 指标名称/警报阈值 | 警报 ARN 或资源 ID | 如果此警报触发 | 如果已联系,请为这些服务提出高级支持案例 |
|---|---|---|---|
API 错误/ 10 个数据点的错误数 >= 10 |
arn:aws:cloudwatch:us-west-2:000000000000:alarm:E2MPmimLambda-Errors |
工单转给数据库管理员(DBA)团队 |
Lambda、API Gateway |
ServiceUnavailable(HTTP 状态代码 503) 5 分钟窗口内 10 个数据点(不同客户端)的错误数 >=3 |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode503 |
工单转给服务团队 |
Lambda、API Gateway |
ThrottlingException(Http 状态码 400) 5 分钟窗口内 10 个数据点(不同客户端)的错误数 >=3 |
arn:aws:cloudwatch:us-west-2:xxxxx:alarm:httperrorcode400 |
工单转给服务团队 |
EC2、Amazon Aurora |
有关更多详细信息,请参阅 AWS 事件检测及响应服务的监控和可观测性。
主要输出:
工作负载警报的定义和配置。
加入问卷上填写警报详情。