AWS 事件检测及响应服务的监控和可观测性 - AWS 事件检测及响应服务用户指南

AWS 事件检测及响应服务的监控和可观测性

AWS 事件检测及响应服务可为您提供专家级指导,协助您定义从应用程序层到底层基础设施的所有工作负载的可观测性。监控能够让您知晓工作负载存在问题。可观测性利用数据收集来告诉您问题出在哪里以及问题发生的原因。

事件检测及响应系统通过利用 Amazon CloudWatch 和 Amazon EventBridge 等原生 AWS 服务来检测可能影响您工作负载的事件,从而监控您的 AWS 工作负载是否面临故障和性能下降的问题。监控将针对即将出现的、正在进行的、即将消退的或潜在的故障或性能下降向您提供通知。将账户加入事件检测及响应服务时,您可以选择账户中的哪些警报应由事件检测及响应监控系统进行监控,并将这些警报与事件管理期间使用的应用程序和运行手册相关联。

事件检测及响应服务使用 Amazon CloudWatch 和其它 AWS 服务工具来为您构建可观测性解决方案。AWS 事件检测及响应服务通过两种方式协助您实施可观测性:

  • 业务结果指标:AWS 事件检测及响应服务的可观测性首先要定义用于监控工作负载结果或最终用户体验的关键指标。AWS 专家将与您协作,了解您的工作负载目标、可能影响用户体验的主要输出或因素,并定义用于捕捉这些关键指标中的任何降级情况的指标和警报。例如,移动呼叫应用程序的关键业务指标是呼叫建立成功率(监控用户呼叫尝试的成功率),而网站的关键指标是页面速度。事件参与是基于业务结果指标触发的。

  • 基础设施级别指标:在此阶段,我们会确定支持您的应用程序的底层 AWS 服务和基础设施,并定义指标和警报来跟踪这些基础设施服务的性能。其中可能包括诸如应用程序负载均衡器实例的 ApplicationLoadBalancerErrorCount 之类的指标。该指标将在加入工作负载并设置监控后开始运行。

基于 AWS 事件检测及响应服务实施可观测性

由于可观测性是一个持续的过程,可能无法在一次演练或单个时间范围内完成,因此 AWS 事件检测及响应服务分两个阶段实施可观测性:

  • 加入阶段:加入期间的可观测性侧重于检测应用程序的业务结果何时受到损害。为此,加入阶段的可观测性侧重于定义应用程序层的关键业务结果指标,以将您的工作负载中断情况通知给 AWS。这样,AWS 就能迅速应对这些中断,并协助您进行恢复。

  • 加入后阶段:AWS 事件检测及响应服务针对可观测性提供了诸多主动服务,包括基础设施级别指标的定义、指标调整以及根据客户的成熟度设置跟踪和日志等。这些服务的实施可能需要几个月,涉及多个团队。AWS 事件检测及响应服务提供有关可观测性设置的指导,客户需要在其工作负载环境中实施所需的更改。如需亲自实施可观测性功能的协助,请向您的技术客户经理(TAM)提出请求。