PERF07-BP06 主动监控和警报 - AWS Well-Architected Framework

PERF07-BP06 主动监控和警报

使用关键性能指标 (KPI) 并结合监控和警报系统,主动解决与性能相关的问题。使用警报触发自动操作,以便在可能的情况下修复问题。如果无法实现自动响应,则将警报上报给能够响应的人员。例如,您的系统在关键性能指标 (KPI) 超出特定阈值时,能够预测预期 KPI 值并发出警报;或者您的工具在 KPI 超出预期值时,能够自动停止或回滚部署。

实施相应流程,让您在工作负载运行期间了解其性能。构建监控控制面板并确定预期性能基准,以确定工作负载的性能是否达到最佳。

常见反模式:

  • 您可以只允许运营人员对工作负载进行运营更改。

  • 您可以通过设置筛选器将所有没有主动修复行为的警报发送给运营团队。

建立此最佳实践的好处: 主动修复警报行为使支持人员能够集中精力处理那些无法自动完成的工作。这可确保运营人员不需要花费精力处理所有警报,而是能够集中精力处理重要警报。

未建立此最佳实践暴露的风险等级:

实施指导

在运维期间监控性能:实施相应流程,让您在工作负载运行期间了解其性能。构建监控控制面板并建立性能预期基准。

资源

相关文档:

相关视频:

相关示例: