故障管理
故障是一定會發生的,一切最終都會隨著時間出現故障:從路由器到硬碟、從作業系統到毀損 TCP 封包的記憶體單位、從暫時性錯誤到永久故障,囊括方方面面。這是一定會發生的,無論您使用的是最高品質的硬體,還是成本最低的元件 – Werner Vogels,Amazon.com 技術長
低階硬體元件故障需每天在內部部署資料中心處理。不過,在雲端,您會受到保護,避免這類大多數的故障。例如,Amazon EBS 磁碟區放置在特定的可用區域中,會在該區域自動複寫,以保護您不受單一元件故障的影響。所有 EBS 磁碟區的設計都提供 99.999% 的可用性。Amazon S3 物件會跨至少三個可用區域存放,並在指定年度提供 99.999999999% 的物件耐久性。無論您的雲端供應商為何者,故障都有可能影響您的工作負載。因此,如果您需要工作負載擁有可靠性,則必須採取步驟來實作彈性。
套用此處所討論的最佳實務的先決條件是,您必須確保設計、實作和操作工作負載的人員清楚業務目標,以及實現這些目標的可靠性目標。這些人員必須了解這些可靠性要求並接受這些要求方面的培訓。
下列各節說明管理故障以避免對工作負載造成影響的最佳實務。