本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控 MediaTailor CDN 的运营和性能
对您的 AWS Elemental MediaTailor 和内容分发网络 (CDN) 的集成进行有效监控,可确保可靠的内容交付、最佳性能和快速的问题检测。这种监控方法适用于所有 MediaTailor 实现,包括服务器端广告插入 (SSAI)、渠道组装和组合工作流程。
监控您的 CDN 集成使您能够:
-
在问题影响观众之前检测并解决问题
-
跟踪关键绩效指标并保持服务质量
-
保持最佳缓存性能并减少源负载
-
确保广告插入成功率符合业务要求
要对监控数据中可能出现的参数相关问题进行故障排除,请参阅。MediaTailor 参数疑难解答有关监控查询参数使用情况的信息,请参见MediaTailor 清单查询参数。
基本 CDN 性能指标
跟踪以下核心指标,以评估您的 CDN MediaTailor 实施的有效性:
- 缓存命中率
-
它衡量的是什么:来自 CDN 缓存的请求与来自来源的请求的百分比。
目标值:
-
内容分段:95% 或更高的缓存命中率
-
广告细分:90% 或更高的缓存命中率
-
清单:因实现而异(不应缓存个性化清单)
为何重要:较高的缓存命中率可减少源站负载、缩短响应时间并降低带宽成本。
-
- 原始请求量
-
它衡量什么:到达您的 MediaTailor 源服务器的请求数量。
目标模式:应保持低位和稳定,偶尔会出现缓存失误或新内容的峰值。
为何重要:源请求量过高表明缓存效率低下,可能会影响 MediaTailor性能。
- 响应延迟
-
它衡量什么:CDN 响应观众请求的速度有多快。
目标值:
-
缓存内容:小于 100 毫秒 (P95)
-
源站请求:小于 500 毫秒 (P95)
-
清单请求:小于 100 毫秒 (P95)
-
分段请求:小于 50 毫秒 (P95)
为何重要:低延迟可确保流畅的播放和良好的观众体验。
-
- 错误率
-
它衡量什么:导致 HTTP 错误的请求所占的百分比。
目标值:
-
4xx 错误:少于请求总数的 0.1%
-
5xx 错误:少于请求总数的 0.01%
-
源站错误:低于 0.05% 的源站请求
为何重要:错误率高表示配置问题或服务问题会影响观看者体验。
-
MediaTailor 特定指标
将这些 MediaTailor 指标与 CDN 指标一起监控,以获得全面的可见性:
- 广告填充率
-
关键指标:
Avail.FillRate
和AdDecisionServer.FillRate
目标值:两个指标均高于 90%
为何重要:直接影响广告收入和观众体验
- 清单生成性能
-
关键指标:
GetManifest.Latency
和GetManifest.Errors
目标值:延迟低于 200 毫秒,错误率低于 1%
为何重要:影响播放启动时间和可靠性
- 广告决策服务器运行状况
-
关键指标:
AdDecisionServer.Latency
AdDecisionServer.Errors
、和AdDecisionServer.Timeouts
目标值:延迟低于 1000 毫秒、错误率低于 5%、最小超时时间
为何重要:广告效果直接影响广告插入成功率
设置监控工具
配置以下工具以有效监控您 MediaTailor 和 CDN 的集成:
亚马逊 CloudWatch 集成
Amazon 为监控您 MediaTailor 和 CDN 的集成 CloudWatch 提供了基础:
- MediaTailor 指标
-
MediaTailor 自动向 CloudWatch 其发布跟踪请求、响应和错误的指标。关键指标包括:
-
RequestCount
: 对的请求总数 MediaTailor -
ResponseTime
: MediaTailor 响应延迟 -
4xxErrorCount
和5xxErrorCount
:错误跟踪
有关 MediaTailor 指标的完整列表,请参阅AWS Elemental MediaTailor 使用 Amazon CloudWatch 指标进行监控。
-
- CDN 指标
-
启用 CDN 指标收集, CloudWatch 包括:
-
不同内容类型的缓存命中率
-
Origin 请求计数和响应时间
-
按状态码划分的错误率
对于 CloudFront 特定指标,请在分发设置中启用详细监控。
-
控制面板配置
创建仪表板,让您可以了解您 MediaTailor 和 CDN 的表现:
-
创建统一的仪表板:将指标 MediaTailor和 CDN 指标合并到一个 CloudWatch 仪表板中,以实现全面的可见性。
-
按工作流程整理:按实现类型(SSAI、渠道集合或组合工作流程)对指标进行分组。
-
包括关键绩效指标:
-
一段时间内的缓存命中率趋势
-
响应延迟百分位数(P50、P95、P99)
-
错误率趋势和峰值
-
有关详细的仪表板创建指南,请参阅CloudWatch仪表板。
警报配置
配置警报以在问题影响查看者之前对其进行检测:
- 严重警报
-
为严重问题配置即时警报:
-
错误率高:在 5 分钟内 5xx 错误超过 0.1% 的请求时发出警报
-
源服务器问题:源站响应时间超过 2 秒时发出警报
-
缓存命中率下降:当清单的缓存命中率低于 70% 或区段的缓存命中率低于 85% 时发出警报
-
- 警告警报
-
配置性能下降的预警警报:
-
延迟增加:当 P95 响应时间超过 200 毫秒时发出警报
-
缓存效率下降:当分段的缓存命中率降至 90% 以下时发出警报
-
实施清单
使用此清单来确保全面的监控覆盖范围:
-
指标收集:
-
✓ 中启用了 MediaTailor 指标 CloudWatch
-
✓ 已启用 CDN 详细监控
-
-
仪表板设置:
-
✓ 创建了统一的 CloudWatch 仪表板
-
✓ 在适当的时间范围内可视化关键指标
-
✓ 与相关团队共享仪表板
-
-
警报配置:
-
✓ 配置有即时通知功能的严重警报
-
✓ 设置警告警报以便及早发现
-
✓ 警报升级程序已记录在案
-
-
操作程序:
-
✓ 记录事故响应程序
-
✓ 制定了定期审查时间表
-
✓ 团队训练已完成
-
相关 主题
有关特定监控场景的更多指导:
-
性能优化:有关基于监控数据的详细优化技术,请参阅CDN 性能优化。
-
故障排除:有关使用监控数据的详细故障排除程序,请参阅特定于工作流程的故障排除文档。
-
日志分析:有关全面的日志分析和监控,请参阅CDN 集成日志分析和错误代码参考 MediaTailor。