可靠性支柱 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

可靠性支柱

AWS Well-Architected Framework 的可靠性支柱可解決系統在其整個生命週期的預期操作期間維持其預期功能和效能等級的情況。它提供在 上建置和維護可靠系統的完整指導方針 AWS,包括跨工作負載生命週期所有階段進行測試和驗證的策略。

將此支柱套用至 WorkSpaces 應用程式串流環境的主要重點領域:

  • 機群管理和擴展

  • 工作階段可靠性

  • 應用程式可用性

  • 復原程序

從失敗中自動復原

監控業務價值KPIs,以觸發自動化回應,在故障影響操作之前預測、防止或復原故障。

  • 請確定您的 IP 子網路配置考慮了擴展和可用性。

  • 監控關鍵 CloudWatch 指標以確保服務可用性和效能,包括機群容量指標,例如 AvailableCapacityInUseCapacity,以及串流品質指標,例如 StreamingSessionLatency

  • 設定容量閾值、工作階段運作狀態指標、效能降級和機群運作狀態變更的提醒。

  • 使用內建的 WorkSpaces 應用程式自動擴展功能來:

    • 設定最小和最大機群容量。

    • 根據容量使用率設定擴展政策。

    • 根據使用者體驗指標和業務需求來定義向外擴展和向內擴展閾值,而不只是技術指標。

  • 為您的 WorkSpaces 應用程式環境建置災難復原環境。如需詳細資訊,請參閱 AWS 部落格文章 Amazon WorkSpaces 應用程式災難復原考量事項。

測試復原程序

雲端環境可自動測試故障案例和復原程序。這些功能可協助您在實際故障發生之前識別和修正漏洞。

  • 機群復原測試。在多個案例中實作全面的機群復原測試:

    • 模擬執行個體終止以驗證自動擴展回應。

    • 驗證機群最小容量維護。

    • 測試執行個體替換時機和使用者重新導向。

    • 驗證擴展政策有效性。

    • 測試機群容量限制和溢位處理。

  • 工作階段復原測試。實作工作階段復原驗證程序:

    • 測試中斷連線和重新連線案例。

    • 驗證應用程式狀態保留。

    • 測試各種網路中斷案例。

    • 驗證工作階段逾時行為。

    • 驗證使用者身分驗證持續性。

    • 驗證暫時儲存處理。

水平擴展以增加彙總工作負載可用性

將工作負載分散到多個較小的資源,將個別故障的影響降至最低,並消除單一故障點。

  • 跨多個可用區域部署機群執行個體。

  • 設定適當的最小機群容量。

  • 設定機群的自動擴展,並設定適當的擴展閾值。

  • 監控整個機群的容量使用率。

  • 跨多個區域部署 WorkSpaces 應用程式堆疊。如需詳細資訊,請參閱 AWS 部落格文章 最佳化 Amazon WorkSpaces 應用程式的延遲型路由使用者體驗

停止猜測容量

使用雲端的自動擴展功能,根據需求動態調整資源。這有助於防止資源飽和,同時保持最佳效率。

  • 監控 CapacityUtilizationAvailableCapacity和 等關鍵指標InUseCapacity,以了解容量需求。

  • 追蹤不同時段的機群使用率趨勢。監控每日模式、每週變化、每月趨勢和季節性峰值。

  • 設定擴展政策並設定擴展閾值。

  • 確保目前配額與最大用量之間存在足夠的間隙,以適應容錯移轉。

  • 透過架構因應固定的服務配額和限制。

透過自動化管理變更

透過自動化實作基礎設施變更,包括自動化程式碼本身的版本控制變更。

  • 使用 IaC 進行機群組態。

  • 實作一致的擴展政策。

  • 使用影像助理 CLI 建立一致的影像。