本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
卓越營運支柱
卓越營運 (OE) 代表致力於打造持續符合並超越使用者期望的高品質軟體解決方案。 AWS Well-Architected Framework 的卓越營運支柱包含經過驗證的有效團隊組織策略、強大的工作負載設計、高效的大規模操作,以及隨著時間的推移無縫適應不斷變化的需求。透過遵守這些原則,組織可以確保其系統保持彈性、高效能,並符合不斷變化的業務需求。
將此支柱套用至 WorkSpaces 應用程式串流環境的主要重點領域:
-
監控與可觀測性
-
自動化和 DevOps
-
操作程序和文件
-
支援和事件管理
根據業務成果組織團隊
建立具有強大領導承諾的雲端一致營運模式,其中業務目標和關鍵績效指標 (KPIs) 透過最佳化的人員、流程和技術推動組織轉型。
-
團隊結構。建立符合應用程式串流結果的專用團隊。例如:
-
映像管理團隊負責應用程式封裝和映像最佳化。
-
機群營運團隊管理容量、效能和擴展。
-
使用者體驗團隊會處理最終使用者支援和滿意度。
-
-
KPIs和指標。定義和追蹤符合業務的指標,例如:
-
應用程式可用性費率
-
部署新應用程式的時間
-
每個應用程式串流小時的成本
-
-
操作模型。為下列項目建立明確的程序:
-
應用程式加入和更新
-
機群容量管理
-
使用者存取佈建
-
事件回應和解決方案
-
實作可觀測性以取得可行的洞見
實作全面的監控和可觀測性,以追蹤 KPIs和工作負載運作狀態。此原則可啟用資料驅動型決策,並主動改善效能、可靠性和成本。
-
實作效能監控。將 Amazon CloudWatch 設定為:
-
確保有足夠的容量來滿足需求。例如,您可以使用下列指標:
-
AvailableCapacity監控可用的串流執行個體 -
InUseCapacity追蹤目前使用的執行個體 -
CapacityUtilization監控機群用量的百分比
-
-
監控使用者體驗和效能。
-
立即識別和解決服務問題。
-
-
追蹤和分析 WorkSpaces 應用程式用量報告。
-
擷取和分析應用程式日誌。如需詳細資訊,請參閱 AWS 部落格文章:使用適用於 Linux 的 Kinesis 代理程式串流 WorkSpaces 應用程式中的應用程式日誌
,以及使用適用於 Microsoft Windows 的 Kinesis 代理程式存放 WorkSpaces 應用程式 Windows 事件日誌 。 -
透過聊天通知監控 WorkSpaces 應用程式指標和事件。如需詳細資訊,請參閱 AWS 部落格文章 Monitor,並使用 Chatbot 自動化 AWS 最終使用者運算 (EUC) AWS
。 -
透過視覺化提示啟用主動工作階段管理。如需詳細資訊,請參閱 AWS 部落格文章顯示工作階段過期和 Amazon WorkSpaces 應用程式中的倒數計時器
。 -
建立使用模式和趨勢的視覺化效果。如需詳細資訊,請參閱 AWS 部落格文章擷取和視覺化 Amazon OpenSearch Service 中的 Amazon WorkSpaces 應用程式用量報告 OpenSearch
。 -
利用 EUC 工具組來監控作用中工作階段、追蹤機群庫存,以及產生工作階段報告 (CSV 匯出)。如需詳細資訊,請參閱 AWS 部落格文章使用 EUC Toolkit 管理 Amazon WorkSpaces 應用程式和 Amazon WorkSpaces
。
盡可能安全地自動化
將基礎設施套用為程式碼 (IaC) 原則,以自動化工作負載操作的所有層面。使用護欄協助確保安全且一致的執行,同時減少手動介入。
-
使用映像助理 CLI 自動化 WorkSpaces 應用程式映像的建立和組態。如需詳細資訊,請參閱 Amazon WorkSpaces 應用程式文件中的映像助理 CLI 操作,以程式設計方式建立 Amazon WorkSpaces 應用程式映像。
-
應用程式安裝:使用映像助理 CLI 在映像建立期間自動安裝應用程式。
-
映像建立:使用映像助理 CLI 命令,以程式設計方式建立 WorkSpaces 應用程式映像。
-
組態管理:自動化預設應用程式設定和啟動參數的組態。
-
-
自動化 WorkSpaces 應用程式映像的自訂。如需詳細資訊,請參閱 AWS 部落格文章自動建立自訂的 WorkSpaces 應用程式 Windows 映像
。 -
套用 IaC 來部署 WorkSpaces 應用程式的基礎設施和應用程式元件。如需詳細資訊,請參閱 AWS 部落格文章使用 Terraform 自動化 Amazon WorkSpaces 應用程式的基礎設施和應用程式部署
。 -
實作機群管理的自動化程序,包括:
-
機群會根據需求進行擴展。設定自動擴展政策,根據使用率指標自動調整機群容量。如需詳細資訊,請參閱 AWS 部落格文章使用 AWS Lambda 來調整 Amazon WorkSpaces 應用程式的擴展步驟和閾值
。 -
基礎映像更新。受益於 提供的 WorkSpaces 應用程式基礎映像的自動更新 AWS。
-
容量最佳化。設定自動擴展閾值,根據需求模式最佳化資源用量。
-
-
設定護欄以自動化安全控制:
-
機群大小上限。設定機群容量的上限,以防止過度佈建。
-
擴展政策組態。使用適當的閾值實作步驟擴展或目標追蹤擴展政策。
-
服務配額。使用 AWS 服務配額做為內建限制,以防止資源配置過多。
-
縮減保護。設定縮減保護,以防止在擴展事件期間移除作用中的執行個體。
-
-
執行測試和驗證,包括映像建置器、機群和整合測試。
-
映像建置器測試:
-
直接在映像建置器界面中測試應用程式。
-
驗證應用程式啟動和功能。
-
測試使用者設定和組態。
-
驗證應用程式相容性。
-
-
機群測試:
-
測試來自不同用戶端裝置的串流工作階段。
-
驗證使用者權利和存取權。
-
驗證應用程式效能。
-
測試使用者體驗的元素和操作,例如剪貼簿、檔案傳輸和列印。
-
-
整合測試:
-
測試 Active Directory 或 SAML 2.0 型身分驗證。
-
測試主資料夾和持久性儲存。
-
測試應用程式權利。
-
測試 USB 裝置重新導向 (如果已設定)。
-
-
-
使用 WorkSpaces 應用程式管理員來自動化應用程式封裝和部署。如需詳細資訊,請參閱 AWS 部落格文章 Amazon WorkSpaces 應用程式的應用程式管理員簡化應用程式加入
。 -
使用持續整合和持續交付 (CI/CD) 管道,自動化新應用程式版本的部署。如需詳細資訊,請參閱 AWS 部落格文章篩選精靈:最佳化 CI/CD 和 Amazon WorkSpaces 應用程式中的最終使用者體驗
。 Amazon WorkSpaces
進行頻繁、小型、可逆的變更
建置鬆散耦合、可擴展的工作負載,以最小風險和輕鬆復原功能啟用頻繁的小型自動化部署。
-
對於映像更新,請使用版本控制的映像建立和增量更新。
-
版本化映像建立:
-
使用映像建置器為每組變更建立新的映像。
-
維護多個映像版本以支援回復案例。
-
使用AWS 標記策略來追蹤映像版本和屬性。
-
-
增量更新:
-
對應用程式或組態進行小型的增量變更。
-
在建立新映像之前,在映像建置器中徹底測試更新。
-
記錄您在每個新映像版本中所做的所有變更。
-
-
-
對於控制機群更新:
-
使用更新的映像建立新機群進行測試。
-
修改現有的機群屬性,而不會中斷作用中的工作階段。
-
-
建立文件、測試通訊協定、核准工作流程和監控程序的變更管理程序。
-
文件:
-
維護所有映像和機群更新的詳細變更日誌。
-
記錄每個變更的測試程序和結果。
-
使用 AWS CloudTrail 追蹤和稽核組態變更。
-
-
測試通訊協定:
-
為所有變更建立全面的測試程序。
-
包括應用程式功能、效能和使用者體驗測試。
-
在建立新映像之前,在映像建置器中進行測試。
-
在完全部署之前,對非生產機群執行其他測試。
-
-
核准工作流程:
-
實作生產環境變更的核准程序。
-
定義需要核准與標準更新之變更的條件。
-
為變更核准建立角色和責任。
-
-
監控和驗證:
-
使用 Amazon CloudWatch 在變更後監控機群和應用程式效能。
-
設定關鍵指標的提醒,以在更新後快速識別問題。
-
執行實作後審查,以驗證變革成功並收集學習成果。
-
-
經常精簡操作程序
透過定期審查、更新和團隊參與持續改善營運程序,讓所有利益相關者隨時掌握最新情況並符合最佳實務。
-
文件管理。在中央位置維護 WorkSpaces 應用程式程序的目前版本控制文件,以確保團隊之間的操作一致性和知識共享。
-
必要文件:維護關鍵 WorkSpaces 應用程式操作up-to-date文件,以進行映像建立和管理、機群操作和故障診斷。
-
營運審查:監控和審查關鍵營運層面,包括效能指標和事件管理。
-
-
持續改進。透過將 AWS 服務 更新、操作指標和學到的最佳實務整合到標準程序中,系統性地增強 WorkSpaces 應用程式操作。
-
服務更新:監控 WorkSpaces 應用程式的新功能、服務改進、安全性更新和區域可用性的版本備註。
-
最佳實務:檢閱並整合 AWS Well-Architected Framework 更新、WorkSpaces 應用程式最佳實務、 AWS 參考架構和安全性 AWS 建議。
-
知識管理:維護和更新標準操作程序、執行手冊、故障診斷指南和使用者支援文件。
-
預期失敗
定期執行失敗案例測試,以了解風險、驗證回應程序,並改善團隊處理真實事件的準備程度。
-
失敗測試。定期模擬和測試故障,例如機群容量耗盡、應用程式啟動失敗和網路連線問題。
-
機群容量耗盡:
-
在接近容量限制時監控和測試機群擴展行為。
-
設定
CapacityUtilization和AvailableCapacity指標的 CloudWatch 警示。 -
實作在尖峰用量期間處理容量限制的程序。
-
-
應用程式啟動失敗:
-
在串流執行個體上測試應用程式啟動行為。
-
驗證不同機群組態的應用程式存取和效能。
-
-
網路連線問題:
-
測試不同網路條件下的串流工作階段效能。
-
監控
StreamingSessionLatency連線品質問題。 -
確保 VPC 設定和安全群組的正確組態。
-
-
-
復原程序。開發和測試下列程序:
-
介於兩者之間的機群容錯移轉 AWS 可用區域。此外,用於擴展機群容量、管理機群更新以及回應執行個體運作狀態問題的文件程序。
-
使用者資料管理:
-
在 Amazon Simple Storage Service (Amazon S3) 中為 Windows 機群的主資料夾設定和測試應用程式設定持續性和儲存解決方案,並在 Amazon Elastic File System (Amazon EFS) 中為 Linux 機群設定和測試共用檔案系統。
-
驗證工作階段之間的資料同步。
-
-
服務持續性。維護建立新機群執行個體、管理映像更新和處理工作階段中斷連線的程序。
-
-
風險管理。識別和緩解:
-
透過設定適當的機群最小容量、根據需求模式設定自動擴展政策,以及使用
CapacityUtilization、InUseCapacity和 等 CloudWatch 指標來監控機群使用率趨勢,來限制容量AvailableCapacity。 -
透過追蹤關鍵指標,例如
StreamingSessionLatency並設定適當的 CloudWatch 警示,來產生效能瓶頸。
-
從所有操作事件和指標中學習
透過在整個組織中分享從營運事件和故障中學到的經驗,培養持續改進的文化。強調它們對業務成果的影響。
-
事件分析。記錄和分析服務中斷、效能降級、使用者投訴和容量問題。
-
指標檢閱。定期分析用量模式、效能趨勢、成本指標和使用者滿意度資料。
-
知識分享。建立團隊學習工作階段、最佳實務文件、跨團隊知識轉移和事件回顧的流程。
使用 受管服務
使用 AWS 受管服務並建置標準化程序,將營運開銷降至最低。與下列 AWS 受管服務整合:
-
AWS Systems Manager 用於自動化
-
用於監控的 Amazon CloudWatch
-
Windows 機群使用者儲存的 Amazon S3
-
Linux 機群使用者儲存的 Amazon EFS
-
AWS Directory Service 用於使用者身分驗證