

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 韧性分析框架
<a name="introduction"></a>

*John Formento、Bruno Emer、Steven Hooper、Jason Barto 和 Michael Haken，Amazon Web Services（AWS）*

*2023 年 9 月*（[文档历史记录](doc-history.md)）

一致且可重复的标准和流程是持续改进的重要组成部分。这对于分布式系统的韧性同样适用。本指南的目的是引入一个韧性分析框架，该框架提供一种一致的方法来分析故障模式及其可能对工作负载造成的影响。在工作负载的整个生命周期（从设计到运行）中使用此框架，可以帮助您以一致且可重复的方式持续提高工作负载的韧性，以应对更广泛的潜在故障模式。这有助于确保您实现韧性目标，并保持工作负载所需的韧性特性。

该框架基于 AWS 解决方案架构现场团队与各行各业客户合作的经验开发。其面向可能拥有多种职务的构建者，包括产品经理、软件开发人员、系统工程师、运营团队和架构师。这些人员最了解进行分析的系统、服务或产品。持续使用该框架进行练习，可以帮助您稳步推进，并实现长期的韧性目标。

该框架的重点是确定潜在的故障模式，以及可用于减轻其影响的预防性和纠正性控制措施。即使发生的故障未在您直接控制的组件中，例如依赖项中的错误率上升，您仍需考虑这些故障可能对工作负载造成的影响，以及如何设计该工作负载以应对这些故障。归根结底，应专注于通过自身可控缓解措施*可应对的故障*。

本指南概述了该框架，然后讨论了如何识别和记录工作负载、如何将框架应用到该工作负载，以及如何评估您发现的任何潜在故障的缓解策略。

**目录**
+ [框架概述](overview.md)
+ [了解工作负载](reviewing-workload.md)
+ [应用框架](applying-framework.md)
+ [缓解潜在故障](mitigating-failures.md)
+ [结论和资源](resources.md)