# 故障管理
<a name="failure-management"></a>

****  
 故障是一定會發生的，一切最終都會隨著時間出現故障：從路由器到硬碟、從作業系統到毀損 TCP 封包的記憶體單位、從暫時性錯誤到永久故障，囊括方方面面。這是一定會發生的，無論您使用的是最高品質的硬體，還是成本最低的元件 – [https://www.allthingsdistributed.com/2016/03/10-lessons-from-10-years-of-aws.html](https://www.allthingsdistributed.com/2016/03/10-lessons-from-10-years-of-aws.html) 

 低階硬體元件故障需每天在內部部署資料中心處理。不過，在雲端，您會受到保護，避免這類大多數的故障。例如，Amazon EBS 磁碟區放置在特定的可用區域中，會在該區域自動複寫，以保護您不受單一元件故障的影響。所有 EBS 磁碟區的設計都提供 99.999% 的可用性。Amazon S3 物件會跨至少三個可用區域存放，並在指定年度提供 99.999999999% 的物件耐久性。無論您的雲端供應商為何者，故障都有可能影響您的工作負載。因此，如果您需要工作負載擁有可靠性，則必須採取步驟來實作彈性。

 套用此處所討論的最佳實務的先決條件是，您必須確保設計、實作和操作工作負載的人員清楚業務目標，以及實現這些目標的可靠性目標。這些人員必須了解這些可靠性要求並接受這些要求方面的培訓。

 下列各節說明管理故障以避免對工作負載造成影響的最佳實務。

**Topics**
+ [備份資料](back-up-data.md)
+ [使用故障隔離來保護您的工作負載](use-fault-isolation-to-protect-your-workload.md)
+ [設計工作負載以承受元件失敗](design-your-workload-to-withstand-component-failures.md)
+ [測試可靠性](test-reliability.md)
+ [災難復原 (DR) 計畫](plan-for-disaster-recovery-dr.md)