什么是 AWS 事件检测及响应服务? - AWS 事件检测及响应服务用户指南

什么是 AWS 事件检测及响应服务?

AWS 事件检测及响应服务支持符合条件的 AWS Enterprise Support 客户主动参与事件,以降低发生故障的可能性,并加速恢复出现中断的关键工作负载。事件检测及响应服务有助于您与 AWS 协作,一同针对加入该服务的每项工作负载定制相应的运行手册和响应计划。

事件检测及响应服务具备以下关键特性:

  • 提升可观测性:AWS 专家将为您提供指导,协助您在工作负载的应用程序层和基础设施层之间定义并关联指标和警报,从而尽早检测到中断行为。

  • 5 分钟响应时间:事件管理工程师(IME)将全天候对您加入该服务的工作负载进行监控,全面检测严重事件。IME 会在警报触发后的 5 分钟内做出响应,或者对您向事件检测及响应服务团队提出的关键业务支持案例做出响应。

  • 加快事件解决速度:IME 使用专为您的工作负载创建的预定义和自定义运行手册,在 5 分钟内做出响应,代表您创建 Support 案例,以及管理您工作负载的事件。IME 为事件提供单线程所有权,确保您与合适的 AWS 专家接洽,直到事件得到解决。

  • 降低发生故障的可能性:事件得到解决后,IME 会应您的要求提供事后审查。而且,AWS 专家将会与您协作,运用相关的经验教训来完善事件响应计划和运行手册。您还可以利用 AWS Resilience Hub对您的工作负载进行持续的韧性跟踪。