REL12-BP02 在意外事件发生后执行分析 - AWS Well-Architected Framework

REL12-BP02 在意外事件发生后执行分析

审核影响客户的事件,确定这些事件的成因和预防措施。利用这些信息来制定缓解措施,以限制或防止再次发生同类事件。制定程序以迅速有效地做出响应。根据目标受众,适当传达事件成因和纠正措施。如果需要,可将这些原因告知他人。

评估为什么现有测试找不到问题。如果还没有,增设测试。

常见反模式:

  • 查找事件成因,但不继续深入探究其他潜在问题和缓解问题的方法。

  • 只找出人为错误原因,但不提供任何培训或可防止人为错误的自动化功能。

建立此最佳实践的好处: 如果其他工作负载实施了相同的故障因素,那么在意外事件发生后执行分析并共享分析结果可帮助缓解这些工作负载的故障风险,并使它们能够在意外事件发生之前实施缓解或自动恢复措施。

未建立这种最佳实践的情况下暴露的风险等级:

实施指导

  • 制定事后分析标准。有效的事后分析让您有机会针对系统中其他地方使用的架构模式存在的问题提出常见的解决方案。

    • 确保在提出事件成因时秉承诚实原则并且不苛责。

    • 如果您不记录问题,就无法予以纠正。

      • 确保事后分析不带苛责,这样您便可以冷静地看待建议的纠正措施,并在您的应用程序团队中促进诚实的自我评估和协作。

  • 通过流程来确定事件成因。设置流程来确定和记录事件成因,以便制定缓解措施来限制或阻止事件再次发生,并且您还可以据此制定及时有效的应对措施。根据目标受众,适当传达成因。

资源

相关文档: