可靠性支柱 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

可靠性支柱

Well-Architect AWS ed Framework 的可靠性支柱涉及系统在整个生命周期的预期运行期内如何保持其预期功能和性能水平。它为构建和维护可靠的系统提供了全面的指导方针 AWS,包括在工作负载生命周期的所有阶段进行测试和验证的策略。

将此支柱应用于 WorkSpaces 应用程序流媒体环境的关键重点领域:

  • 车队管理和扩展

  • 会话可靠性

  • 应用程序可用性

  • 恢复程序

自动从故障中恢复

监控 KPIs 业务价值,触发自动响应,从而在故障影响运营之前预测、预防故障或从故障中恢复。

  • 确保您的 IP 子网分配考虑到扩展和可用性。

  • 监控关键 CloudWatch 指标以确保服务可用性和性能,包括队列容量指标(如AvailableCapacity和)和InUseCapacity流媒体质量指标(例如)StreamingSessionLatency

  • 针对容量阈值、会话运行状况指标、性能下降和队列运行状况变化配置警报。

  • 使用内置的 WorkSpaces 应用程序自动缩放功能可以:

    • 配置最小和最大舰队容量。

    • 根据容量利用率设置扩展策略。

    • 根据用户体验指标和业务需求定义横向扩展和缩减阈值,而不仅仅是技术指标。

  • 为您的 WorkSpaces 应用程序环境构建灾难恢复环境。有关更多信息,请参阅 AWS 博客文章 Amazon WorkSpaces 应用程序的灾难恢复注意事项

测试恢复程序

云环境支持自动测试故障场景和恢复程序。这些功能可帮助您在实际故障发生之前识别和修复漏洞。

  • 舰队恢复测试。在多个场景中实施全面的舰队恢复测试:

    • 模拟实例终止以验证自动扩展响应。

    • 验证机队最低容量维护情况。

    • 测试实例替换时间和用户重定向。

    • 验证扩展策略的有效性。

    • 测试车队容量限制和溢流处理。

  • 会话恢复测试。实施会话恢复验证程序:

    • 测试断开连接和重新连接的场景。

    • 验证应用程序状态是否保存。

    • 测试各种网络中断场景。

    • 验证会话超时行为。

    • 验证用户身份验证的持久性。

    • 验证临时存储处理方式。

横向扩展以提高聚合工作负载的可用性

将工作负载分配到多个较小的资源中,以最大限度地减少单个故障的影响并消除单点故障。

  • 跨多个可用区部署队列实例。

  • 配置适当的最低舰队容量。

  • 为舰队配置自动缩放并设置适当的缩放阈值。

  • 监控整个车队的容量利用率。

  • 跨多个区域部署 WorkSpaces 应用程序堆栈。有关更多信息,请参阅 AWS 博客文章使用基于延迟的路由来优化用户体验 Amazon Applications。 WorkSpaces

别再猜容量了

使用云的自动扩展功能,根据需求动态调整资源。这有助于防止资源饱和,同时保持最佳效率。

  • 监控CapacityUtilizationAvailableCapacity、和等关键指标InUseCapacity以了解容量需求。

  • 跟踪不同时间段的机队利用率趋势。监控每日模式、每周变化、月度趋势和季节性峰值。

  • 设置扩展策略并配置扩展阈值。

  • 确保当前配额与最大使用量之间存在足够的差距来应对失效转移。

  • 通过架构适应固定服务配额和限制。

通过自动化管理变更

通过自动化实现基础架构变更,包括对自动化代码本身进行版本控制的更改。

  • 使用 IaC 进行队列配置。

  • 实施一致的扩展策略。

  • 使用 I mage Assistant CLI 创建一致的映像。