卓越營運支柱 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

卓越營運支柱

卓越營運 (OE) 代表致力於打造持續符合並超越使用者期望的高品質軟體解決方案。 AWS Well-Architected Framework 的卓越營運支柱包含經過驗證的有效團隊組織策略、強大的工作負載設計、高效的大規模操作,以及隨著時間的推移無縫適應不斷變化的需求。透過遵守這些原則,組織可以確保其系統保持彈性、高效能,並符合不斷變化的業務需求。

將此支柱套用至 WorkSpaces 應用程式串流環境的主要重點領域:

  • 監控與可觀測性

  • 自動化和 DevOps

  • 操作程序和文件

  • 支援和事件管理

根據業務成果組織團隊

建立具有強大領導承諾的雲端一致營運模式,其中業務目標和關鍵績效指標 (KPIs) 透過最佳化的人員、流程和技術推動組織轉型。

  • 團隊結構。建立符合應用程式串流結果的專用團隊。例如:

    • 映像管理團隊負責應用程式封裝和映像最佳化。

    • 機群營運團隊管理容量、效能和擴展。

    • 使用者體驗團隊會處理最終使用者支援和滿意度。

  • KPIs和指標。定義和追蹤符合業務的指標,例如:

    • 應用程式可用性費率

    • 部署新應用程式的時間

    • 每個應用程式串流小時的成本

  • 操作模型。為下列項目建立明確的程序:

    • 應用程式加入和更新

    • 機群容量管理

    • 使用者存取佈建

    • 事件回應和解決方案

實作可觀測性以取得可行的洞見

實作全面的監控和可觀測性,以追蹤 KPIs和工作負載運作狀態。此原則可啟用資料驅動型決策,並主動改善效能、可靠性和成本。

盡可能安全地自動化

將基礎設施套用為程式碼 (IaC) 原則,以自動化工作負載操作的所有層面。使用護欄協助確保安全且一致的執行,同時減少手動介入。

  • 使用映像助理 CLI 自動化 WorkSpaces 應用程式映像的建立和組態。如需詳細資訊,請參閱 Amazon WorkSpaces 應用程式文件中的映像助理 CLI 操作,以程式設計方式建立 Amazon WorkSpaces 應用程式映像。

    • 應用程式安裝:使用映像助理 CLI 在映像建立期間自動安裝應用程式。

    • 映像建立:使用映像助理 CLI 命令,以程式設計方式建立 WorkSpaces 應用程式映像。

    • 組態管理:自動化預設應用程式設定和啟動參數的組態。

  • 自動化 WorkSpaces 應用程式映像的自訂。如需詳細資訊,請參閱 AWS 部落格文章自動建立自訂的 WorkSpaces 應用程式 Windows 映像

  • 套用 IaC 來部署 WorkSpaces 應用程式的基礎設施和應用程式元件。如需詳細資訊,請參閱 AWS 部落格文章使用 Terraform 自動化 Amazon WorkSpaces 應用程式的基礎設施和應用程式部署

  • 實作機群管理的自動化程序,包括:

    • 機群會根據需求進行擴展。設定自動擴展政策,根據使用率指標自動調整機群容量。如需詳細資訊,請參閱 AWS 部落格文章使用 AWS Lambda 來調整 Amazon WorkSpaces 應用程式的擴展步驟和閾值

    • 基礎映像更新。受益於 提供的 WorkSpaces 應用程式基礎映像的自動更新 AWS。

    • 容量最佳化。設定自動擴展閾值,根據需求模式最佳化資源用量。

  • 設定護欄以自動化安全控制:

    • 機群大小上限。設定機群容量的上限,以防止過度佈建。

    • 擴展政策組態。使用適當的閾值實作步驟擴展或目標追蹤擴展政策。

    • 服務配額。使用 AWS 服務配額做為內建限制,以防止資源配置過多。

    • 縮減保護。設定縮減保護,以防止在擴展事件期間移除作用中的執行個體。

  • 執行測試和驗證,包括映像建置器、機群和整合測試。

    • 映像建置器測試:

      • 直接在映像建置器界面中測試應用程式。

      • 驗證應用程式啟動和功能。

      • 測試使用者設定和組態。

      • 驗證應用程式相容性。

    • 機群測試:

      • 測試來自不同用戶端裝置的串流工作階段。

      • 驗證使用者權利和存取權。

      • 驗證應用程式效能。

      • 測試使用者體驗的元素和操作,例如剪貼簿、檔案傳輸和列印。

    • 整合測試:

      • 測試 Active Directory 或 SAML 2.0 型身分驗證。

      • 測試主資料夾和持久性儲存。

      • 測試應用程式權利。

      • 測試 USB 裝置重新導向 (如果已設定)。

  • 使用 WorkSpaces 應用程式管理員來自動化應用程式封裝和部署。如需詳細資訊,請參閱 AWS 部落格文章 Amazon WorkSpaces 應用程式的應用程式管理員簡化應用程式加入

  • 使用持續整合和持續交付 (CI/CD) 管道,自動化新應用程式版本的部署。如需詳細資訊,請參閱 AWS 部落格文章篩選精靈:最佳化 CI/CD 和 Amazon WorkSpaces 應用程式中的最終使用者體驗。 Amazon WorkSpaces

進行頻繁、小型、可逆的變更

建置鬆散耦合、可擴展的工作負載,以最小風險和輕鬆復原功能啟用頻繁的小型自動化部署。

  • 對於映像更新,請使用版本控制的映像建立和增量更新。

    • 版本化映像建立:

      • 使用映像建置器為每組變更建立新的映像。

      • 維護多個映像版本以支援回復案例。

      • 使用AWS 標記策略來追蹤映像版本和屬性。

    • 增量更新:

      • 對應用程式或組態進行小型的增量變更。

      • 在建立新映像之前,在映像建置器中徹底測試更新。

      • 記錄您在每個新映像版本中所做的所有變更。

  • 對於控制機群更新:

    • 使用更新的映像建立新機群進行測試。

    • 修改現有的機群屬性,而不會中斷作用中的工作階段。

  • 建立文件、測試通訊協定、核准工作流程和監控程序的變更管理程序。

    • 文件:

      • 維護所有映像和機群更新的詳細變更日誌。

      • 記錄每個變更的測試程序和結果。

      • 使用 AWS CloudTrail 追蹤和稽核組態變更。

    • 測試通訊協定:

      • 為所有變更建立全面的測試程序。

      • 包括應用程式功能、效能和使用者體驗測試。

      • 在建立新映像之前,在映像建置器中進行測試。

      • 在完全部署之前,對非生產機群執行其他測試。

    • 核准工作流程:

      • 實作生產環境變更的核准程序。

      • 定義需要核准與標準更新之變更的條件。

      • 為變更核准建立角色和責任。

    • 監控和驗證:

      • 使用 Amazon CloudWatch 在變更後監控機群和應用程式效能。

      • 設定關鍵指標的提醒,以在更新後快速識別問題。

      • 執行實作後審查,以驗證變革成功並收集學習成果。

經常精簡操作程序

透過定期審查、更新和團隊參與持續改善營運程序,讓所有利益相關者隨時掌握最新情況並符合最佳實務。

  • 文件管理。在中央位置維護 WorkSpaces 應用程式程序的目前版本控制文件,以確保團隊之間的操作一致性和知識共享。

    • 必要文件:維護關鍵 WorkSpaces 應用程式操作up-to-date文件,以進行映像建立和管理、機群操作和故障診斷。

    • 營運審查:監控和審查關鍵營運層面,包括效能指標和事件管理。

  • 持續改進。透過將 AWS 服務 更新、操作指標和學到的最佳實務整合到標準程序中,系統性地增強 WorkSpaces 應用程式操作。

    • 服務更新:監控 WorkSpaces 應用程式的新功能、服務改進、安全性更新和區域可用性的版本備註。

    • 最佳實務:檢閱並整合 AWS Well-Architected Framework 更新、WorkSpaces 應用程式最佳實務、 AWS 參考架構和安全性 AWS 建議。

    • 知識管理:維護和更新標準操作程序、執行手冊、故障診斷指南和使用者支援文件。

預期失敗

定期執行失敗案例測試,以了解風險、驗證回應程序,並改善團隊處理真實事件的準備程度。

  • 失敗測試。定期模擬和測試故障,例如機群容量耗盡、應用程式啟動失敗和網路連線問題。

    • 機群容量耗盡:

      • 在接近容量限制時監控和測試機群擴展行為。

      • 設定 CapacityUtilizationAvailableCapacity指標的 CloudWatch 警示。

      • 實作在尖峰用量期間處理容量限制的程序。

    • 應用程式啟動失敗:

      • 在串流執行個體上測試應用程式啟動行為。

      • 驗證不同機群組態的應用程式存取和效能。

    • 網路連線問題:

      • 測試不同網路條件下的串流工作階段效能。

      • 監控StreamingSessionLatency連線品質問題。

      • 確保 VPC 設定和安全群組的正確組態。

  • 復原程序。開發和測試下列程序:

    • 介於兩者之間的機群容錯移轉 AWS 可用區域。此外,用於擴展機群容量、管理機群更新以及回應執行個體運作狀態問題的文件程序。

    • 使用者資料管理:

      • 在 Amazon Simple Storage Service (Amazon S3) 中為 Windows 機群的主資料夾設定和測試應用程式設定持續性和儲存解決方案,並在 Amazon Elastic File System (Amazon EFS) 中為 Linux 機群設定和測試共用檔案系統。

      • 驗證工作階段之間的資料同步。

    • 服務持續性。維護建立新機群執行個體、管理映像更新和處理工作階段中斷連線的程序。

  • 風險管理。識別和緩解:

    • 透過設定適當的機群最小容量、根據需求模式設定自動擴展政策,以及使用 CapacityUtilizationInUseCapacity和 等 CloudWatch 指標來監控機群使用率趨勢,來限制容量AvailableCapacity

    • 透過追蹤關鍵指標,例如StreamingSessionLatency並設定適當的 CloudWatch 警示,來產生效能瓶頸。

從所有操作事件和指標中學習

透過在整個組織中分享從營運事件和故障中學到的經驗,培養持續改進的文化。強調它們對業務成果的影響。

  • 事件分析。記錄和分析服務中斷、效能降級、使用者投訴和容量問題。

  • 指標檢閱。定期分析用量模式、效能趨勢、成本指標和使用者滿意度資料。

  • 知識分享。建立團隊學習工作階段、最佳實務文件、跨團隊知識轉移和事件回顧的流程。

使用 受管服務

使用 AWS 受管服務並建置標準化程序,將營運開銷降至最低。與下列 AWS 受管服務整合: