View a markdown version of this page

卓越运营支柱 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

卓越运营支柱

卓越运营 (OE) 代表着致力于打造始终满足和超越用户期望的高质量软件解决方案。Well-Architecte AWS d Framework 的卓越运营支柱包括行之有效的团队组织策略、稳健的工作量设计、高效的大规模运营以及无缝适应随着时间的推移不断变化的需求。通过遵守这些原则,组织可以确保其系统保持弹性、高性能,并与不断变化的业务需求保持一致。

将此支柱应用于 WorkSpaces 应用程序流媒体环境的关键重点领域:

  • 监控和可观测性

  • 自动化和 DevOps

  • 操作程序和文档

  • Support 和事件管理

围绕业务成果组织团队

创建具有强有力领导承诺的云端运营模式,其中业务目标和关键绩效指标 (KPIs) 通过优化人员、流程和技术来推动组织转型。

  • 团队结构。建立与应用程序流媒体结果保持一致的专门团队。例如:

    • 图像管理团队负责应用程序打包和图像优化。

    • 舰队运营团队负责管理容量、性能和规模。

    • 用户体验团队负责最终用户支持和满意度。

  • KPIs 和指标。定义和跟踪与业务一致的指标,例如:

    • 应用程序可用率

    • 是时候部署新应用程序了

    • 每个应用程序流式传输小时的费用

  • 运营模式。为以下各项创建清晰的流程:

    • 应用程序入门和更新

    • 车队容量管理

    • 用户访问权限配置

    • 事件响应和解决方案

实现可观察性以获得可操作的见解

实施全面的监控和可观察性,以跟踪 KPIs 工作负载运行状况。这一原则支持以数据为导向的决策,并在性能、可靠性和成本方面进行主动改进。

尽可能安全地实现自动化

应用基础设施即代码 (IaC) 原则,自动执行工作负载操作的各个方面。使用护栏有助于确保安全一致的执行,同时减少人工干预。

  • 使用 Image Assistant CLI 自动创建和配置 WorkSpaces 应用程序映像。有关更多信息,请参阅 WorkSpaces 应用程序文档中的使用镜像助手 CLI 操作以编程方式创建您的亚马逊 WorkSpaces 应用程序映像

    • 应用程序安装:使用映像助手 CLI 在创建映像期间自动安装应用程序。

    • 映像创建:使用 Image Assistant CLI 命令以编程方式创建 WorkSpaces 应用程序映像。

    • 配置管理:自动配置默认应用程序设置和启动参数。

  • 自动自定义 WorkSpaces 应用程序映像。有关更多信息,请参阅 AWS 博客文章自动创建自定义的 WorkSpaces 应用程序 Windows 镜像

  • 应用 IaC 为应用程序部署基础架构和应用程序组件。 WorkSpaces 有关更多信息,请参阅 AWS 博客文章使用 Terraform 实现亚马逊应用程序的基础设施和 WorkSpaces 应用程序部署自动化

  • 实施自动化的车队管理流程,包括:

    • 根据需求扩大舰队规模。配置自动扩展策略以根据利用率指标自动调整队列容量。有关更多信息,请参阅 AWS 博客文章 “用于 AWS Lambda 调整 Amazon WorkSpaces 应用程序的扩展步骤和阈值”。

    • 基础映像更新。受益于提供的 WorkSpaces 应用程序基础映像的自动更新 AWS。

    • 容量优化。设置自动扩展阈值,以根据需求模式优化资源使用情况。

  • 配置护栏以实现安全控制自动化:

    • 最大舰队规模限制。设置队列容量的上限以防止过度配置。

    • 扩展策略配置。使用适当的阈值实施步进缩放或目标跟踪扩展策略。

    • 服务配额。使用 AWS 服务配额作为内置限制,以防止资源分配过多。

    • 缩小保护。配置缩小保护以防止在扩展事件期间移除活动实例。

  • 执行测试和验证,包括映像生成器、队列和集成测试。

    • 图像生成器测试:

      • 直接在映像生成器界面中测试应用程序。

      • 验证应用程序的启动和功能。

      • 测试用户设置和配置。

      • 验证应用程序兼容性。

    • 舰队测试:

      • 测试来自不同客户端设备的直播会话。

      • 验证用户权利和访问权限。

      • 验证应用程序性能。

      • 测试剪贴板、文件传输和打印等元素和操作的用户体验。

    • 集成测试:

      • 测试活动目录或基于 SAML 2.0 的身份验证。

      • 测试主文件夹和永久存储。

      • 测试应用程序授权。

      • 测试 USB 设备重定向(如果已配置)。

  • 使用 WorkSpaces 应用程序应用程序管理器自动打包和部署应用程序。有关更多信息,请参阅 AWS 博客文章 “使用 Amaz WorkSpaces on 应用程序管理器简化应用程序的入门流程”。

  • 使用持续集成和持续交付 (CI/CD) 管道,自动部署新应用程序版本。有关更多信息,请参阅 AWS 博客文章 Screen ing Eagle:亚马逊 WorkSpaces 应用程序中的优化 CI/CD 和最终用户体验

进行频繁的、微小的、可逆的更改

构建松散耦合、可扩展的工作负载,实现频繁的小规模自动化部署,风险最小且具有轻松的回滚功能。

  • 要更新映像,请使用版本化映像创建和增量更新。

    • 版本化图像创建:

      • 使用图像生成器为每组更改创建新图像。

      • 维护多个映像版本以支持回滚方案。

      • 使用AWS 标记策略来跟踪图像版本和属性。

    • 增量更新:

      • 对应用程序或配置进行少量增量更改。

      • 在创建新映像之前,请在映像生成器中彻底测试更新。

      • 记录您在每个新图像版本中所做的所有更改。

  • 有关控制舰队的更新:

    • 使用更新的图像创建新的舰队进行测试。

    • 在不中断活动会话的情况下修改现有舰队属性。

  • 为文档、测试协议、批准工作流程和监控流程制定变更管理程序。

    • 文档:

      • 保留所有映像和机群更新的详细变更日志。

      • 记录每项变更的测试程序和结果。

      • AWS CloudTrail用于跟踪和审核配置更改。

    • 测试协议:

      • 为所有更改建立全面的测试流程。

      • 包括应用程序功能、性能和用户体验测试。

      • 在创建新映像之前,请在映像生成器中进行测试。

      • 在完全部署之前,对非生产队列进行其他测试。

    • 批准工作流程:

      • 对生产环境的变更实施批准流程。

      • 与标准更新相比,定义需要批准的变更的标准。

      • 确定变更批准的角色和职责。

    • 监控和验证:

      • 更改后 CloudWatch,使用 Amazon 监控队列和应用程序的性能。

      • 为关键指标设置提醒,以便在更新后快速发现问题。

      • 进行实施后审查,以验证变更成功并收集经验教训。

经常完善操作程序

通过定期审查、更新和团队参与,不断改进运营程序,让所有利益相关者了解情况并与最佳实践保持一致。

  • 文档管理。将 WorkSpaces 应用程序程序的最新版本控制文档保存在一个中心位置,以确保运营一致性和跨团队知识共享。

    • 所需文档:维护映像创建和管理、机群操作和故障排除等关键 WorkSpaces 应用程序操作的 up-to-date文档。

    • 运营审查:监控和审查关键运营方面,包括绩效指标和事件管理。

  • 持续改进。通过将 AWS 服务 更新、操作指标和学到的最佳实践整合到标准程序中,系统地增强 WorkSpaces 应用程序的运营。

    • 服务更新:监控 WorkSpaces 应用程序发行说明,了解新功能、服务改进、安全更新和区域可用性。

    • 最佳实践:查看并纳入 Well-A AWS rchitected Framew WorkSpaces ork 更新、应用程序最佳实践 AWS 、参考架构和安全建议。 AWS

    • 知识管理:维护和更新标准操作程序、运行手册、故障排除指南和用户支持文档。

预见失败

定期进行故障情景测试,以了解风险,验证响应程序,并提高团队处理实际事件的准备能力。

  • 失败测试。定期模拟和测试故障,例如队列容量耗尽、应用程序启动失败和网络连接问题。

    • 舰队容量耗尽:

      • 监控和测试接近容量限制时的队列扩展行为。

      • CapacityUtilizationAvailableCapacity指标配置 CloudWatch 警报。

      • 实施在使用高峰期处理容量限制的程序。

    • 应用程序启动失败:

      • 在流媒体实例上测试应用程序启动行为。

      • 跨不同的队列配置验证应用程序的访问权限和性能。

    • 网络连接问题:

      • 测试不同网络条件下的直播会话性能。

      • 监控StreamingSessionLatency连接质量问题。

      • 确保正确配置 VPC 设置和安全组。

  • 恢复程序。为以下各项制定和测试程序:

  • 风险管理。识别和缓解:

    • 通过设置适当的队列最低容量、根据需求模式配置自动扩展策略以及使用、和等 CloudWatch CapacityUtilization指标监控队列利用率趋势来限制容量AvailableCapacityInUseCapacity

    • 通过跟踪关键指标(例如StreamingSessionLatency和配置相应的 CloudWatch 警报)来实现性能瓶颈。

从所有运营事件和指标中学习

通过分享从整个组织的运营事件和失败中吸取的经验教训,培养持续改进的文化。强调它们对业务结果的影响。

  • 事件分析。记录和分析服务中断、性能下降、用户投诉和容量问题。

  • 指标审查。定期分析使用模式、性能趋势、成本指标和用户满意度数据。

  • 知识共享。建立团队学习会议、最佳实践文档、跨团队知识转移和事件回顾的流程。

使用托管服务

通过使用 AWS 托管服务并围绕这些服务构建标准化程序,最大限度地减少运营开销。与以下 AWS 托管服务集成: