# 事件后活动
事件后活动

 威胁形势在不断变化，您的组织必须具备同样的动态性，才能有效保护自己的环境。持续改进的关键在于对事件和模拟的结果进行迭代，以提高有效检测、响应和调查潜在安全事件的能力，从而减少潜在漏洞，缩短响应时间，最终恢复安全运营。以下机制有助于验证您的组织是否已经准备就绪，可以利用最新的功能和知识有效应对任何情形。

# 建立从事件中吸取经验教训的框架
建立从事件中吸取经验教训的框架

 实施*经验教训总结*框架和方法不仅有助于提高事件响应能力，还有助于防止事件再次发生。通过从每次事件中吸取教训，您可以避免重复同样的错误、泄露或错误配置，这不仅可以改善您的安全态势，还可以最大限度地减少因可预防的情况而损失的时间。

 重要的是要实现一个经验教训总结框架，大体上确立并实现以下几点：
+  何时总结经验教训？ 
+  总结经验教训的过程涉及什么？ 
+  如何总结经验教训？ 
+  谁参与了这个过程，具体情况如何？ 
+  如何确定需要改进的领域？ 
+  如何确保有效跟踪和实施改进措施？ 

 除了这些列出的大体上的成果外，重要的是要确保提出正确的问题，以便从流程中获得最大价值（可以带来切实可行的改进的信息）。请考虑以下问题，以便于您启动经验教训讨论：
+  发生了什么事件？ 
+  何时首次发现该事件？ 
+  是如何发现的？ 
+  哪些系统针对该活动发出了警报？ 
+  涉及哪些系统、服务和数据？ 
+  具体发生了什么？ 
+  哪些地方做得好？ 
+  哪些地方做得不好？ 
+  哪些流程或程序出现问题或未能扩展以应对事件？ 
+  以下方面有哪些地方有待改进：
  +  **人员** 
    +  需要联系的人是否真的可以联系上，联系名单是否是最新名单？ 
    +  相应人员是否缺少有效应对和调查事件所需的培训或能力？ 
    +  相应的资源是否已就绪并随时可用？ 
  +  **流程** 
    +  是否遵循了流程和程序？ 
    +  是否针对这种事件记录并提供了流程和程序？ 
    +  是否缺少必要的流程和程序？ 
    +  响应人员是否能够及时获得所需的信息来处理问题？ 
  +  **技术** 
    +  现有警报系统是否能有效识别活动并发出警报？ 
    +  现有警报是否需要改进，或者是否需要针对这种事件设置新的警报？ 
    +  现有工具是否允许对事件进行有效调查（搜索/分析）？ 
+  怎样才能更快地识别这种事件？ 
+  如何防止这种事件再次发生？ 
+  谁是改进计划的负责人，如何检验改进计划的执行情况？ 
+  实施和测试额外监控/预防性控制机制/流程的时间表是怎样的？ 

 此列表并非详尽无遗；旨在作为一个起点，确定组织和业务需求是什么，以及如何分析这些需求，以便最有效地从事件中吸取经验教训，并不断改进您的安全态势。最重要的是，该列表开始将经验教训作为事件响应流程、文档和利益相关方期望的标准组成部分。

# 设立成功指标
设立成功指标

 指标对于有效衡量、评估和提高事件响应能力至关重要。没有指标，就没有参考，无法准确衡量甚至确定组织表现的好坏。事件响应有几个常见指标，对于希望建立卓越运营期望和相关基准的组织而言，是很好的入手点。

# 平均检测时间
平均检测时间

 *平均检测时间*是指发现潜在安全事件所需的平均时间。具体而言，这是从首次出现漏洞指标，到初步识别或生成警报之间的时间。

 您可以使用此指标来跟踪检测和警报系统的有效性。有效的检测和警报机制是确保潜在安全事件不会在环境中持续存在的关键。

 平均检测时间越长，就越需要建立更多或更有效的警报和机制来识别和发现潜在安全事件。平均检测时间越短，表明检测和警报机制运行得越好。

# 平均确认时间
平均确认时间

 *平均确认时间*是指确认潜在安全事件并确定其处理优先级所需的平均时间。具体而言，这是从生成警报，到 SOC 成员或事件响应人员识别警报并确定其优先级以进行处理之间的时间。

 您可以使用此指标来跟踪团队处理警报和确定其优先级的效率。如果团队无法有效识别警报并确定其优先级，响应将会延迟甚至无效。

 平均确认时间越长，就越需要确保团队拥有充足资源并且接受了适当培训，能够快速确认潜在安全事件并确定其优先级以进行响应。平均确认时间越短，表明团队的安全警报响应能力越强，因为这说明他们准备充分且能有效确定警报优先级。

# 平均响应时间
平均响应时间

 平均响应时间是指开始对潜在安全事件做出初始响应所需的平均时间。具体而言，这是从首次发出警报或发现潜在安全事件，到采取首个响应行动之间的时间。这与平均确认时间类似，不同之处在于其衡量的是具体的响应行动（例如，获取系统数据、遏制系统），而不仅仅是对情况的简单识别或确认。

 您可以使用此指标来跟踪您在响应安全事件方面的准备情况。如前所述，充分准备是有效响应的关键。请参阅本文档的[准备](preparation.md)一节。

 平均响应时间越长，就越需要确保团队接受过充分的响应培训，从而使响应流程得到有效记录和运用。平均响应时间越短，表明团队越擅长针对已识别的警报确定适当的响应措施，并执行必要的响应行动以启动恢复安全运营的进程。

# 平均遏制时间
平均遏制时间

 *平均遏制时间*是指遏制潜在安全事件所需的平均时间。具体而言，这是从首次发出警报或发现潜在安全事件，到完成有效阻止攻击者或受损系统造成进一步危害的响应行动之间的时间。

 您可以使用此指标来跟踪团队在缓解或遏制潜在安全事件方面的能力。如果无法快速有效地遏制潜在安全事件，将增加其影响范围，并可能导致进一步危害。

 平均遏制时间越长，就越需要积累知识和提升能力，以便快速有效地缓解和遏制遇到的安全事件。平均遏制时间越短，表明团队越擅长理解和采取必要措施来缓解和遏制已确定的威胁，从而减少其影响范围，并降低业务风险。

# 平均恢复时间
平均恢复时间

 *平均恢复时间*是指从潜在安全事件完全恢复安全运营所需的平均时间。具体而言，这是从首次发出警报或发现潜在安全事件，到业务恢复正常、安全运营且不再受事件影响之间的时间。

 您可以使用此指标来跟踪团队在安全事件发生后使系统、账户和环境恢复安全运营的有效性。无法迅速或有效地恢复安全运营，不仅会影响安全性，还会增加对业务及其运营造成的影响及相关成本。

 平均恢复时间越长，就越需要让团队和环境做好准备，建立适当的机制（例如，失效转移流程以及用于重新部署安全纯净系统的 CI/CD 管道），以最大限度地减少安全事件对运营和业务的影响。平均恢复时间越短，表明团队在最大限度减少安全事件对运营和业务影响方面越有效。

# 攻击者驻留时间
攻击者驻留时间

 *攻击者驻留时间*是指未经授权的用户访问系统或环境的平均时间。这与平均遏制时间类似，不同之处在于其时间范围始于攻击者首次获得系统或环境访问权限的时间，该时间可能早于首次发出警报或发现潜在安全事件的时间。

 您可以使用此指标来跟踪多个系统与机制的协同工作情况，以缩短攻击者或威胁影响环境的时间、访问权限及机会。缩短攻击者驻留时间应是团队和业务的首要任务。

 攻击者驻留时间越长，就越需要确定事件响应流程中哪些部分需要改进，以确保团队能够最大限度地减少威胁或攻击对环境的影响范围。攻击者驻留时间越短，表明团队在最大限度减少威胁或攻击者在环境中的时间和机会方面做得越好，最终降低了运营风险和对业务的影响。

# 指标汇总
指标汇总

 通过建立和跟踪事件响应指标，您可以有效地衡量、评估和提高事件响应能力。为此，本节重点介绍了一些常见的事件响应指标。表 5 将这些指标进行了汇总。

*表 5 – 事件响应指标*


|  指标  |  说明  | 
| --- | --- | 
|  平均检测时间  |  发现潜在安全事件所需的平均时间  | 
|  平均确认时间  |  确认潜在安全事件（并确定其优先级）所需的平均时间  | 
|  平均响应时间  |  开始对潜在安全事件做出初始响应所需的平均时间  | 
|  平均遏制时间  |  遏制潜在安全事件所需的平均时间  | 
|  平均恢复时间  |  从潜在安全事件完全恢复安全运营所需的平均时间  | 
|  攻击者驻留时间  |  攻击者访问系统或环境的平均时间  | 

# 使用漏洞指标（IOC）
使用漏洞指标

 *漏洞指标*（IOC）是在网络、系统或环境中观察到的一种构件，它可以（以高置信度）识别恶意活动或安全事件。IOC 能够以多种形式存在，包括 IP 地址、域、网络级构件（例如 TCP 标志或有效载荷）、系统或主机级构件（例如可执行文件、文件名和哈希值、日志文件条目或注册表条目等）。IOC 也可以是项目或活动的组合，例如系统中存在的特定项目或构件（某个文件或一组文件及注册表项）、按特定顺序执行的操作（从特定 IP 登录系统后执行特定异常命令）、或网络活动（进出特定域的异常入站或出站流量），这些组合能够指示特定的威胁、攻击或攻击者手法。

 在迭代改进事件响应计划的过程中，应实施一个框架来收集、管理和利用 IOC，以此作为持续构建和改进检测与警报的机制，同时提高调查速度和有效性。首先，您可以将收集与管理 IOC 纳入事件响应流程的分析和调查阶段。通过主动识别、收集和存储 IOC，并将其作为流程的标准部分，您可以构建数据存储库（作为更全面的威胁情报计划的一部分），该存储库反过来又可以用于改进现有的检测和警报、构建额外的检测和警报、识别某个构件之前出现的位置和时间、构建和参考涉及匹配 IOC 的既往调查方式的文档等等。

# 继续教育和培训
继续教育和培训

 教育和培训是不断发展、持续改进的，应当有目的地规划并坚持。有多种机制可用于确认团队是否保持着与不断发展的技术状态以及威胁形势相称的认知、知识和能力。

 一种机制是将继续教育作为团队目标和运营的标准组成部分。如“准备”一节所述，必须对事件响应人员和利益相关者进行有效培训，使其掌握在 AWS 中检测、响应和调查事件的能力。然而，教育不是一个可以“一蹴而就”的工程。必须持续开展教育，以确认团队始终了解新的技术进步、更新和改进（这些信息可用于提高响应的有效性和效率），以及可用于改进调查和分析的数据新增或更新内容。

 另一种机制是确保定期进行模拟（例如每季度一次），并侧重于实现特定的业务成果。请参阅本文档的[定期进行模拟](run-regular-simulations.md)一节。

 尽管进行初始桌面演练是建立改进初始基准的好办法，但是对于实现持续改进以及确保得到对当前运营状态最新的精确反映而言，持续测试才是关键。针对最新、最关键的安全情况以及最重要或最新的响应能力进行测试，并将总结的经验教训重新纳入教育、运营和流程/程序中，将确保您能够持续改进整个响应流程和计划。