REL13-BP01 定義停機和資料遺失的復原目標 - AWS Well-Architected 架構

REL13-BP01 定義停機和資料遺失的復原目標

工作負載具有復原時間目標 (RTO) 和復原點目標 (RPO)。

復原時間目標 (RTO) 是服務中斷與恢復服務之間的最大可接受延遲。這會決定可接受的服務無法使用之時間長度。

復原點目標 (RPO)  是自上次資料復原點之後的最大可接受時間長度。這會決定最後一個復原點與服務中斷之間可接受的資料遺失。

在為您的工作負載選取適用的災難復原 (DR) 策略時,RTO 和 RPO 值是重要的考慮因素。這些目標是由企業決定,然後由技術團隊用來選取和實作 DR 策略。

預期成果: 

每個工作負載都獲指派一個 RTO 和 RPO,其是根據業務影響來定義的。工作負載會指派給預先定義的層級,定義服務可用性和可接受的資料遺失,以及相關聯的 RTO 和 RPO。如果這類分層不可行,則可以根據工作負載以定制方式指派此分層,旨在稍後建立層級。RTO 和 RPO 會在選取工作負載的災難復原策略實作時的主要考量之一。挑選 DR 策略的其他考量是成本限制、工作負載相依性和營運要求。

對於 RTO,了解基於中斷持續時間的影響。它是線性的,還是有非線性的影響?(例如,四個小時後,您關閉了一條生產線,直到下一個輪班開始)。

如下的災難復原方法可以協助您了解工作負載關鍵性與復原目標之間的關係。(請注意,X 軸和 Y 軸的實際值應根據您的組織需求加以自訂)。

圖表:顯示災難復原方法

圖 16:災難復原方法

常用的反模式:

  • 沒有已定義的復原目標。

  • 選擇任意復原目標。

  • 選擇過於寬鬆且不符合業務目標的復原目標。

  • 不了解關機時間和資料遺失的影響。

  • 選取不切實際的復原目標,例如零時間復原和零資料遺失,這對於您的工作負載組態可能無法實現。

  • 選擇比實際業務目標更嚴格的復原目標。這會被迫進行比工作負載所需更昂貴和更複雜的 DR 實作。

  • 選取的復原目標與工作負載的復原目標不相容。

  • 您的復原目標未考慮法規合規性要求。

  • 已定義工作負載的 RTO 和 RPO,但從未進行測試。

建立此最佳實務的優勢: 需以時間和資料損失的復原目標來引導 DR 實作。

若未建立此最佳實務,暴露的風險等級:

實作指引

對於給定的工作負載,您必須了解停機時間和資料遺失對您業務的影響。隨著停機時間或資料遺失的增加,影響會大幅地增長,但這種增長形式可能會根據工作負載類型而有所不同。例如,您可以容忍長達一小時的停機時間而影響不大,但在此之後影響會迅速加大。對業務的影響會以多種形式顯現,包括貨幣成本 (例如收益損失)、客戶信任 (以及對信譽的影響)、營運問題 (例如發不出薪資或生產力下降),以及監管風險。使用下列步驟來了解這些影響,並為您的工作負載設定 RTO 和 RPO。

實作步驟

  1. 確定此工作負載的業務利害關係人,並與他們一起實作這些步驟。工作負載的復原目標是業務決策。然後,技術團隊與業務利害關係人合作,使用這些目標來選取 DR 策略。

    注意

    針對步驟 2 和 3,您可以使用 實作工作表

  2. 收集必要資訊,藉由回答下列問題來做出決策。

  3. 對於組織中的工作負載影響,您是否具有關鍵性的類別或層級?

    1. 若是,請將此工作負載指派給類別。

    2. 若否,請建立這些類別。建立五個或更少的類別,然後縮小每個類別的復原時間目標範圍。範例類別包括:重大、高、中、低。若要了解工作負載如何對應至類別,請考慮工作負載是任務為主、業務為主,還是非業務推動。

    3. 根據類別設定工作負載 RTO 和 RPO。一律選擇比進入此步驟所計算的原始值更嚴格的類別 (更低的 RTO 和 RPO)。如果這導致值發生不適當的大變更,則考慮建立一個新類別。

  4. 根據這些答案,將 RTO 和 RPO 指派給工作負載。這可以直接完成,也可以透過將工作負載指派給預先定義的服務層來完成。

  5. 在工作負載團隊和利害關係人可存取的位置記錄此工作負載的 災難復原計劃 (DRP),這是貴組織業務持續性計劃 (BCP) 的一部分。

    1. 記錄 RTO 和 RPO,以及用來決定這些值的資訊。包括用於評估對業務之工作負載影響的策略。

    2. 記錄除 RTO 和 RPO 之外的其他指標,您是否正在追蹤或規劃追踨災難復原目標。

    3. 建立 DR 策略和執行手冊的詳細資訊時,會將這些資訊新增至此計劃。

  6. 藉由在如圖 15 所示的矩陣中查看工作負載的關鍵性,您可以開始建立針對組織定義的預先定義服務層。

  7. 在您根據 實作了 DR 策略 (或 DR 策略的概念證明) 之後REL13-BP02 使用定義的復原策略來滿足復原目標,請測試此策略以判定工作負載的實際 RTC (復原時間能力) 和 RPC (復原點能力)。如果這些不符合目標復原目標,則可與您的業務利害關係人合作,一起調整這些目標,或可對 DR 策略進行變更以符合目標。

主要問題

  1. 在對業務產生嚴重影響之前,工作負載可以關閉的時間上限

    1. 如果工作負載中斷,請判定每分鐘對業務造成的貨幣成本 (直接財務影響)。

    2. 考慮到影響並非總是線性的。一開始影響可能會受到限制,然後在超過關鍵時間點後迅速增加。

  2. 在對業務產生嚴重影響之前,可以遺失的資料量上限

    1. 考慮將此值用於您最關鍵的資料存放區。識別其他資料存放區的各自關鍵性。

    2. 如果遺失工作負載資料,可以重建嗎? 如果在操作上這樣做比備份和還原更容易,則根據用來重建工作負載資料之來源資料的關鍵性來選擇 RPO。

  3. 依賴下游游相依性的工作負載或依賴上游相依性的工作負載,其復原目標和可用性期望是什麼?

    1. 選擇可讓此工作負載符合上游相依性要求的復原目標

    2. 鑑於下游相依性的復原能力,選擇可實現的復原目標。可以執行非關鍵的下游相依性 (您可以「解決」的相依性)。或者,使用關鍵的下游相依性,在必要時改善其復原能力。

其他問題

考慮這些問題,以及它們如何套用至這個工作負載:

  1. 您是否有不同的 RTO 和 RPO,取決於中斷的類型 (區域與可用區域等)?

  2. 您的 RTO/RPO 是否會在特定時間 (季節性、銷售活動、產品發佈) 發生變化? 若是,有什麼不同的測量和時間界限?

  3. 如果工作負載中斷,有多少客戶會受到影響?

  4. 如果工作負載中斷,對信譽有何影響?

  5. 如果工作負載中斷,可能會發生哪些其他營運影響? 例如,如果電子郵件系統無法使用,或如果薪資系統無法提交交易,則會影響員工的生產力。

  6. 工作負載 RTO 和 RPO 如何與業務線和組織 DR 策略保持一致?

  7. 是否有提供服務的內部合約義務? 未符合它們時會受到處罰嗎?

  8. 資料的法規或合規限制是什麼?

實作工作表

您可以將此工作表用於實作步驟 2 和 3。您可以調整此工作表以滿足您的特定需求,例如新增其他問題。

工作表

工作表

實作計劃的工作量: 

資源

相關的最佳實務:

相關文件:

相關影片: