持续改进
韧性是一个持续的过程
您应该通过混沌工程
您还应该通过团队回顾来评估自己执行分析的表现。在分析过程中,是否每个人都了解自己的工作内容? 您通过韧性分析发现的故障模式数量是否符合团队的预期? 是否能为发现的所有故障模式找到缓解措施? 团队是否认为该过程有用? 您是否认为它将提升工作负载的韧性?
当发生影响工作负载可用性的实际故障事件时,请记录具体故障模式、故障中包含的组件以及使用的缓解模式。在事件后分析工具中将此元数据设置为可搜索,这样便可确定未来要重点关注哪些故障模式和组件。在整个过程中,您可以与 AWS 客户团队和解决方案架构师保持沟通。