# 故障管理
<a name="rel-failmgmt"></a>

 在任何具备一定复杂度的系统中，发生故障在意料之中。可靠性要求您的工作负载知晓故障的发生，并采取相应行动以避免对可用性产生影响。工作负载必须既能承受故障，又能自动解决问题。

 您可以使用 AWS，发挥自动化优势对监控数据做出响应。例如，当特定指标超过阈值时，您可以启动自动操作来解决问题。此外，与其尝试诊断并修复作为生产环境一部分的失败资源，您可以将其替换为新的资源，并对被替换的失败资源进行分析。由于云让您能够以低成本构建整个系统的临时版本，您可以使用自动化测试来验证完整的恢复流程。

 以下问题主要针对可靠性的注意事项。


| REL 9：如何备份数据？ | 
| --- | 
| 备份数据、应用程序和配置，以满足您对恢复时间目标 (RTO) 和恢复点目标 (RPO) 的要求。 | 


| REL 10：如何使用故障隔离来保护工作负载？ | 
| --- | 
| 故障隔离可将组件或系统故障的影响限制在定义的界限内。通过适当的隔离，界限之外的组件不受故障影响。跨多个故障隔离界限运行工作负载，可以提高工作负载对故障的韧性。 | 


| REL 11：如何将工作负载设计为可承受组件故障的影响？ | 
| --- | 
| 在构建具有高可用性和较短平均恢复时间（MTTR）要求的工作负载时必须考虑到韧性。 | 


| REL 12：如何测试可靠性？ | 
| --- | 
| 在为工作负载采用韧性设计以应对生产压力以后，测试是确保其按设计预期运行，并且提供所预期韧性的唯一方式。 | 


| REL 13：如何规划灾难恢复（DR）？ | 
| --- | 
| 拥有适当的备份和冗余工作负载组件是灾难恢复策略的开始。[RTO 和 RPO 是您恢复工作负载的目标](https://docs.aws.amazon.com/wellarchitected/latest/reliability-pillar/disaster-recovery-dr-objectives.html)。根据业务需求设置这些目标。通过实施策略来实现这些目标，同时考虑工作负载资源和数据的位置和功能。中断概率和恢复成本也是关键因素，有助于了解为工作负载提供灾难恢复的业务价值。 | 

 请定期备份数据并测试备份文件，确保您可以从逻辑和物理错误中恢复。管理故障的关键在于自动且频繁地测试工作负载以致其出现故障，然后观察它们如何恢复。请定期执行此操作，并确保在工作负载发生重大变更后也会启动此测试。主动跟踪 KPI 及恢复时间目标（RTO）和恢复点目标（RPO）以评测工作负载的韧性（特别是在故障测试场景中）。跟踪 KPI 将有助于您发现和减少单点故障。目标是充分测试工作负载恢复流程，确保可以恢复所有数据并继续为客户提供服务，即使面对持续存在的问题也是如此。恢复流程应该与标准生产流程一样完备而有效。