OPS11-BP02 在意外事件发生后执行分析
审核影响客户的事件,确定导致这些事件的因素和预防措施。利用这些信息来制定缓解措施,以限制或防止再次发生同类事件。制定程序以迅速有效地做出响应。根据目标受众,适当传达事件成因和纠正措施。
常见反模式:
-
您管理应用程序服务器。大约每 23 小时 55 分钟,所有活动会话都会终止。您已尝试找出应用程序服务器上出现的问题。您怀疑可能是网络问题,但由于网络团队工作繁忙无法为您提供支持,因此无法与他们合作。由于缺乏可遵循的预定义流程,因此难以获取支持并收集必要的信息来确定发生了什么情况。
-
您的工作负载中出现了数据丢失的情况。这是第一次发生,原因不明。您认为它不重要,因为可以重新创建数据。数据丢失对客户的影响开始变得愈发频繁。还原丢失的数据时,这也会增加您的操作负担。
建立此最佳实践的好处: 设置预定义的流程,以确定导致意外事件发生的要素、条件、操作和事件,从而帮助您找到改进机会。
未建立这种最佳实践的情况下暴露的风险等级: 高
实施指导
-
通过流程来确定事件成因:审查所有影响客户的意外事件。设置流程来确定和记录导致意外事件的因素,以便制定缓解措施来限制或防止事件再次发生,并且您还可以据此制定及时有效的应对措施。在适当的情况下向目标受众说明根本原因。