本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
卓越运营支柱
卓越运营 (OE) 代表着致力于打造始终满足和超越用户期望的高质量软件解决方案。Well-Architecte AWS d Framework 的卓越运营支柱包括行之有效的团队组织策略、稳健的工作量设计、高效的大规模运营以及无缝适应随着时间的推移不断变化的需求。通过遵守这些原则,组织可以确保其系统保持弹性、高性能,并与不断变化的业务需求保持一致。
将此支柱应用于 WorkSpaces 应用程序流媒体环境的关键重点领域:
-
监控和可观测性
-
自动化和 DevOps
-
操作程序和文档
-
Support 和事件管理
围绕业务成果组织团队
创建具有强有力领导承诺的云端运营模式,其中业务目标和关键绩效指标 (KPIs) 通过优化人员、流程和技术来推动组织转型。
-
团队结构。建立与应用程序流媒体结果保持一致的专门团队。例如:
-
图像管理团队负责应用程序打包和图像优化。
-
舰队运营团队负责管理容量、性能和规模。
-
用户体验团队负责最终用户支持和满意度。
-
-
KPIs 和指标。定义和跟踪与业务一致的指标,例如:
-
应用程序可用率
-
是时候部署新应用程序了
-
每个应用程序流式传输小时的费用
-
-
运营模式。为以下各项创建清晰的流程:
-
应用程序入门和更新
-
车队容量管理
-
用户访问权限配置
-
事件响应和解决方案
-
实现可观察性以获得可操作的见解
实施全面的监控和可观察性,以跟踪 KPIs 工作负载运行状况。这一原则支持以数据为导向的决策,并在性能、可靠性和成本方面进行主动改进。
-
实施性能监控。将 Amazon 配置 CloudWatch为:
-
确保有足够的容量来满足需求。例如,您可以使用以下指标:
-
AvailableCapacity监控可用的直播实例 -
InUseCapacity跟踪当前使用的实例 -
CapacityUtilization监控车队使用率的百分比
-
-
监控用户体验和性能。
-
及时发现并解决服务问题。
-
-
跟踪和分析 WorkSpaces 应用程序使用情况报告。
-
捕获和分析应用程序日志。有关更多信息,请参阅 AWS 博客文章使用适用于 Linux 的 Kinesis Agent 在应用程序中 WorkSpaces 流式传输应用程序日志
,以及使用微软 Windows 版 Kinesis 代理存储 WorkSpaces 应用程序 Windows 事件 日志。 -
通过聊天通知监控 WorkSpaces 应用程序指标和事件。如需了解更多信息,请参阅 AWS 博客文章使用 Chat AWS bot 监控和自动执行 AWS 最终用户计算 (EUC)
。 -
通过视觉提示实现主动会话管理。有关更多信息,请参阅 AWS 博客文章 Amazon Applications 中的显示会话到期时间和倒计时 WorkSpaces 器
。 -
为使用模式和趋势创建可视化效果。有关更多信息,请参阅 AWS 博客文章 “在亚马逊 OpenSearch 服务中提取和可视化亚马逊 WorkSpaces 应用程序使用报告
”。 -
利用 EUC 工具包监控活动会话、跟踪车队库存并生成会话报告(CSV 导出)。有关更多信息,请参阅 AWS 博客文章使用 EUC 工具包管理亚马逊 WorkSpaces 应用程序和亚马逊 WorkSpaces
。
尽可能安全地实现自动化
应用基础设施即代码 (IaC) 原则,自动执行工作负载操作的各个方面。使用护栏有助于确保安全一致的执行,同时减少人工干预。
-
使用 Image Assistant CLI 自动创建和配置 WorkSpaces 应用程序映像。有关更多信息,请参阅 WorkSpaces 应用程序文档中的使用镜像助手 CLI 操作以编程方式创建您的亚马逊 WorkSpaces 应用程序映像。
-
应用程序安装:使用映像助手 CLI 在创建映像期间自动安装应用程序。
-
映像创建:使用 Image Assistant CLI 命令以编程方式创建 WorkSpaces 应用程序映像。
-
配置管理:自动配置默认应用程序设置和启动参数。
-
-
自动自定义 WorkSpaces 应用程序映像。有关更多信息,请参阅 AWS 博客文章自动创建自定义的 WorkSpaces 应用程序 Windows 镜像
。 -
应用 IaC 为应用程序部署基础架构和应用程序组件。 WorkSpaces 有关更多信息,请参阅 AWS 博客文章使用 Terraform 实现亚马逊应用程序的基础设施和 WorkSpaces 应用程序部署自动化
。 -
实施自动化的车队管理流程,包括:
-
根据需求扩大舰队规模。配置自动扩展策略以根据利用率指标自动调整队列容量。有关更多信息,请参阅 AWS 博客文章 “用于 AWS Lambda 调整 Amazon WorkSpaces 应用程序的扩展步骤和阈值
”。 -
基础映像更新。受益于提供的 WorkSpaces 应用程序基础映像的自动更新 AWS。
-
容量优化。设置自动扩展阈值,以根据需求模式优化资源使用情况。
-
-
配置护栏以实现安全控制自动化:
-
最大舰队规模限制。设置队列容量的上限以防止过度配置。
-
扩展策略配置。使用适当的阈值实施步进缩放或目标跟踪扩展策略。
-
服务配额。使用 AWS 服务配额作为内置限制,以防止资源分配过多。
-
缩小保护。配置缩小保护以防止在扩展事件期间移除活动实例。
-
-
执行测试和验证,包括映像生成器、队列和集成测试。
-
图像生成器测试:
-
直接在映像生成器界面中测试应用程序。
-
验证应用程序的启动和功能。
-
测试用户设置和配置。
-
验证应用程序兼容性。
-
-
舰队测试:
-
测试来自不同客户端设备的直播会话。
-
验证用户权利和访问权限。
-
验证应用程序性能。
-
测试剪贴板、文件传输和打印等元素和操作的用户体验。
-
-
集成测试:
-
测试活动目录或基于 SAML 2.0 的身份验证。
-
测试主文件夹和永久存储。
-
测试应用程序授权。
-
测试 USB 设备重定向(如果已配置)。
-
-
-
使用 WorkSpaces 应用程序应用程序管理器自动打包和部署应用程序。有关更多信息,请参阅 AWS 博客文章 “使用 Amaz WorkSpaces on 应用程序管理器简化应用程序的入门流程
”。 -
使用持续集成和持续交付 (CI/CD) 管道,自动部署新应用程序版本。有关更多信息,请参阅 AWS 博客文章 Screen ing Eagle:亚马逊 WorkSpaces 应用程序中的优化 CI/CD 和最终用户体验
。
进行频繁的、微小的、可逆的更改
构建松散耦合、可扩展的工作负载,实现频繁的小规模自动化部署,风险最小且具有轻松的回滚功能。
-
要更新映像,请使用版本化映像创建和增量更新。
-
版本化图像创建:
-
使用图像生成器为每组更改创建新图像。
-
维护多个映像版本以支持回滚方案。
-
使用AWS 标记策略来跟踪图像版本和属性。
-
-
增量更新:
-
对应用程序或配置进行少量增量更改。
-
在创建新映像之前,请在映像生成器中彻底测试更新。
-
记录您在每个新图像版本中所做的所有更改。
-
-
-
有关控制舰队的更新:
-
使用更新的图像创建新的舰队进行测试。
-
在不中断活动会话的情况下修改现有舰队属性。
-
-
为文档、测试协议、批准工作流程和监控流程制定变更管理程序。
-
文档:
-
保留所有映像和机群更新的详细变更日志。
-
记录每项变更的测试程序和结果。
-
AWS CloudTrail用于跟踪和审核配置更改。
-
-
测试协议:
-
为所有更改建立全面的测试流程。
-
包括应用程序功能、性能和用户体验测试。
-
在创建新映像之前,请在映像生成器中进行测试。
-
在完全部署之前,对非生产队列进行其他测试。
-
-
批准工作流程:
-
对生产环境的变更实施批准流程。
-
与标准更新相比,定义需要批准的变更的标准。
-
确定变更批准的角色和职责。
-
-
监控和验证:
-
更改后 CloudWatch,使用 Amazon 监控队列和应用程序的性能。
-
为关键指标设置提醒,以便在更新后快速发现问题。
-
进行实施后审查,以验证变更成功并收集经验教训。
-
-
经常完善操作程序
通过定期审查、更新和团队参与,不断改进运营程序,让所有利益相关者了解情况并与最佳实践保持一致。
-
文档管理。将 WorkSpaces 应用程序程序的最新版本控制文档保存在一个中心位置,以确保运营一致性和跨团队知识共享。
-
所需文档:维护映像创建和管理、机群操作和故障排除等关键 WorkSpaces 应用程序操作的 up-to-date文档。
-
运营审查:监控和审查关键运营方面,包括绩效指标和事件管理。
-
-
持续改进。通过将 AWS 服务 更新、操作指标和学到的最佳实践整合到标准程序中,系统地增强 WorkSpaces 应用程序的运营。
-
服务更新:监控 WorkSpaces 应用程序发行说明,了解新功能、服务改进、安全更新和区域可用性。
-
最佳实践:查看并纳入 Well-A AWS rchitected Framew WorkSpaces ork 更新、应用程序最佳实践 AWS 、参考架构和安全建议。 AWS
-
知识管理:维护和更新标准操作程序、运行手册、故障排除指南和用户支持文档。
-
预见失败
定期进行故障情景测试,以了解风险,验证响应程序,并提高团队处理实际事件的准备能力。
-
失败测试。定期模拟和测试故障,例如队列容量耗尽、应用程序启动失败和网络连接问题。
-
舰队容量耗尽:
-
监控和测试接近容量限制时的队列扩展行为。
-
为
CapacityUtilization和AvailableCapacity指标配置 CloudWatch 警报。 -
实施在使用高峰期处理容量限制的程序。
-
-
应用程序启动失败:
-
在流媒体实例上测试应用程序启动行为。
-
跨不同的队列配置验证应用程序的访问权限和性能。
-
-
网络连接问题:
-
测试不同网络条件下的直播会话性能。
-
监控
StreamingSessionLatency连接质量问题。 -
确保正确配置 VPC 设置和安全组。
-
-
-
恢复程序。为以下各项制定和测试程序:
-
之间的队列故障转移 AWS 可用区。此外,还要记录扩展队列容量、管理队列更新和响应实例运行状况问题的程序。
-
用户数据管理:
-
服务连续性。维护创建新队列实例、管理映像更新和处理会话断开连接的程序。
-
-
风险管理。识别和缓解:
-
通过设置适当的队列最低容量、根据需求模式配置自动扩展策略以及使用、和等 CloudWatch
CapacityUtilization指标监控队列利用率趋势来限制容量AvailableCapacity。InUseCapacity -
通过跟踪关键指标(例如
StreamingSessionLatency和配置相应的 CloudWatch 警报)来实现性能瓶颈。
-
从所有运营事件和指标中学习
通过分享从整个组织的运营事件和失败中吸取的经验教训,培养持续改进的文化。强调它们对业务结果的影响。
-
事件分析。记录和分析服务中断、性能下降、用户投诉和容量问题。
-
指标审查。定期分析使用模式、性能趋势、成本指标和用户满意度数据。
-
知识共享。建立团队学习会议、最佳实践文档、跨团队知识转移和事件回顾的流程。
使用托管服务
通过使用 AWS 托管服务并围绕这些服务构建标准化程序,最大限度地减少运营开销。与以下 AWS 托管服务集成:
-
AWS Systems Manager用于自动化
-
Amazon CloudWatch 用于监控
-
亚马逊 S3 用于 Windows 队列的用户存储
-
适用于 Linux 队列用户存储的 Amazon E FS
-
AWS Directory Service用于用户身份验证