监控 MediaTailor CDN 的运营和性能 - AWS Elemental MediaTailor

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 MediaTailor CDN 的运营和性能

对您的 AWS Elemental MediaTailor 和内容分发网络 (CDN) 的集成进行有效监控,可确保可靠的内容交付、最佳性能和快速的问题检测。这种监控方法适用于所有 MediaTailor 实现,包括服务器端广告插入 (SSAI)、渠道组装和组合工作流程。

监控您的 CDN 集成使您能够:

  • 在问题影响观众之前检测并解决问题

  • 跟踪关键绩效指标并保持服务质量

  • 保持最佳缓存性能并减少源负载

  • 确保广告插入成功率符合业务要求

要对监控数据中可能出现的参数相关问题进行故障排除,请参阅。MediaTailor 参数疑难解答有关监控查询参数使用情况的信息,请参见MediaTailor 清单查询参数

基本 CDN 性能指标

跟踪以下核心指标,以评估您的 CDN MediaTailor 实施的有效性:

缓存命中率

它衡量的是什么:来自 CDN 缓存的请求与来自来源的请求的百分比。

目标值

  • 内容分段:95% 或更高的缓存命中率

  • 广告细分:90% 或更高的缓存命中率

  • 清单:因实现而异(不应缓存个性化清单)

为何重要:较高的缓存命中率可减少源站负载、缩短响应时间并降低带宽成本。

原始请求量

它衡量什么:到达您的 MediaTailor 源服务器的请求数量。

目标模式:应保持低位和稳定,偶尔会出现缓存失误或新内容的峰值。

为何重要:源请求量过高表明缓存效率低下,可能会影响 MediaTailor性能。

响应延迟

它衡量什么:CDN 响应观众请求的速度有多快。

目标值

  • 缓存内容:小于 100 毫秒 (P95)

  • 源站请求:小于 500 毫秒 (P95)

  • 清单请求:小于 100 毫秒 (P95)

  • 分段请求:小于 50 毫秒 (P95)

为何重要:低延迟可确保流畅的播放和良好的观众体验。

错误率

它衡量什么:导致 HTTP 错误的请求所占的百分比。

目标值

  • 4xx 错误:少于请求总数的 0.1%

  • 5xx 错误:少于请求总数的 0.01%

  • 源站错误:低于 0.05% 的源站请求

为何重要:错误率高表示配置问题或服务问题会影响观看者体验。

MediaTailor 特定指标

将这些 MediaTailor 指标与 CDN 指标一起监控,以获得全面的可见性:

广告填充率

关键指标Avail.FillRateAdDecisionServer.FillRate

目标值:两个指标均高于 90%

为何重要:直接影响广告收入和观众体验

清单生成性能

关键指标GetManifest.LatencyGetManifest.Errors

目标值:延迟低于 200 毫秒,错误率低于 1%

为何重要:影响播放启动时间和可靠性

广告决策服务器运行状况

关键指标AdDecisionServer.LatencyAdDecisionServer.Errors、和 AdDecisionServer.Timeouts

目标值:延迟低于 1000 毫秒、错误率低于 5%、最小超时时间

为何重要:广告效果直接影响广告插入成功率

设置监控工具

配置以下工具以有效监控您 MediaTailor 和 CDN 的集成:

亚马逊 CloudWatch 集成

Amazon 为监控您 MediaTailor 和 CDN 的集成 CloudWatch 提供了基础:

MediaTailor 指标

MediaTailor 自动向 CloudWatch 其发布跟踪请求、响应和错误的指标。关键指标包括:

  • RequestCount: 对的请求总数 MediaTailor

  • ResponseTime: MediaTailor 响应延迟

  • 4xxErrorCount5xxErrorCount:错误跟踪

有关 MediaTailor 指标的完整列表,请参阅AWS Elemental MediaTailor 使用 Amazon CloudWatch 指标进行监控

CDN 指标

启用 CDN 指标收集, CloudWatch 包括:

  • 不同内容类型的缓存命中率

  • Origin 请求计数和响应时间

  • 按状态码划分的错误率

对于 CloudFront 特定指标,请在分发设置中启用详细监控。

控制面板配置

创建仪表板,让您可以了解您 MediaTailor 和 CDN 的表现:

  1. 创建统一的仪表板:将指标 MediaTailor和 CDN 指标合并到一个 CloudWatch 仪表板中,以实现全面的可见性。

  2. 按工作流程整理:按实现类型(SSAI、渠道集合或组合工作流程)对指标进行分组。

  3. 包括关键绩效指标

    • 一段时间内的缓存命中率趋势

    • 响应延迟百分位数(P50、P95、P99)

    • 错误率趋势和峰值

有关详细的仪表板创建指南,请参阅CloudWatch仪表板

警报配置

配置警报以在问题影响查看者之前对其进行检测:

严重警报

为严重问题配置即时警报:

  • 错误率高:在 5 分钟内 5xx 错误超过 0.1% 的请求时发出警报

  • 源服务器问题:源站响应时间超过 2 秒时发出警报

  • 缓存命中率下降:当清单的缓存命中率低于 70% 或区段的缓存命中率低于 85% 时发出警报

警告警报

配置性能下降的预警警报:

  • 延迟增加:当 P95 响应时间超过 200 毫秒时发出警报

  • 缓存效率下降:当分段的缓存命中率降至 90% 以下时发出警报

实施清单

使用此清单来确保全面的监控覆盖范围:

  1. 指标收集

    • ✓ 中启用了 MediaTailor 指标 CloudWatch

    • ✓ 已启用 CDN 详细监控

  2. 仪表板设置

    • ✓ 创建了统一的 CloudWatch 仪表板

    • ✓ 在适当的时间范围内可视化关键指标

    • ✓ 与相关团队共享仪表板

  3. 警报配置

    • ✓ 配置有即时通知功能的严重警报

    • ✓ 设置警告警报以便及早发现

    • ✓ 警报升级程序已记录在案

  4. 操作程序

    • ✓ 记录事故响应程序

    • ✓ 制定了定期审查时间表

    • ✓ 团队训练已完成

有关特定监控场景的更多指导: