为 CDN 和集成设置监控和 MediaTailor 扩展 - AWS Elemental MediaTailor

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 CDN 和集成设置监控和 MediaTailor 扩展

有效的监控和扩展策略对于通过 AWS Elemental MediaTailor 内容交付网络 (CDN) 集成保持最佳性能和观众体验至关重要。实施这些方法可确保您的 CDN 集成大规模可靠运行。

实施以下监控和扩展策略:

  1. 为这些关键指标配置监控。有关适当目标值的指导,请参阅 Amazon 监控 MediaTailor CloudWatch并查阅 CDN 提供商的最佳实践:

    • CDN 缓存命中率(根据您的内容类型和交付模式建立基准指标和目标)

    • 原始请求量(在正常操作期间监控模式以建立异常检测基准)

    • 按错误类型划分的错误率(根据您的服务级别目标和 MediaTailor 最佳实践定义阈值)

    • 响应时间(根据您的观众体验要求和地理分布设置适当的延迟目标)

    有关详细的实施说明,请参阅创建 CloudWatch 仪表板以将您的指标 MediaTailor 和 CDN 指标一起可视化。

  2. 针对意外流量模式或性能下降设置警报。根据您的基准指标和服务级别目标配置阈值。有关设置提醒的指导,请参阅创建 Amazon CloudWatch 警报。考虑监控:

    • 与基准缓存命中率存在显著偏差(通常在低于 85-90% 时发出警报)

    • 源站请求量突然增加(比基线增加 30% 或更多时发出警报)

    • 错误率峰值超过您定义的阈值(4xx 错误通常为 1-2%,5xx 错误通常为 0.5%)

    • 响应时间降级超过可接受水平(清单通常大于 500 毫秒,区段通常超过 200 毫秒)

    有关实施示例,请参阅创建有效监控仪表板和警报的CloudWatch 概念

  3. 为可预测的高流量事件制定扩展计划。您的计划应包括以下关键要素:

    • 活动前容量增加(活动开始前 24-48 小时)

    • 逐步增加观众的时间表(通常每 5 分钟间隔占预期观众的 10-20%)

    • 基于受众的区域容量分布(根据预期的区域收视率按比例分配容量)

    • 事件后扩展程序(活动结束后在 30-60 分钟内保持峰值容量)

    有关针对高流量事件进行扩展的实施指南,请参阅 AWS 媒体博客上的 “设置弹性 end-to-end实时工作流程”。

  4. 为关键数据流实施故障转移和冗余措施,包括:

    • 多区域 CDN 部署(至少两个区域用于关键内容)

    • Backup 源服务器(配置为每 30 秒自动进行一次运行状况检查)

    • 根据运行状况检查自动触发故障转移(通常在 2-3 次检查失败之后)

    • 针对不同故障情形的恢复程序(记录在具体的响应时间目标中)

    有关详细的实施步骤,请参阅使用 CloudFront 源故障转移优化高可用性