异常检测 - Amazon Managed Service for Prometheus

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

异常检测

Amazon Managed Service for Prometheus 提供异常检测功能,该功能使用机器学习算法自动识别指标数据中的异常模式。此功能有助于您主动检测潜在问题,减少警报疲劳,并通过关注真正的异常行为而不是静态阈值来提高监控有效性。

Amazon Managed Service for Prometheus 中的异常检测使用随机森林砍伐(RCF)算法,该算法分析时间序列数据以建立正常行为模式,并识别与这些模式的偏差。该算法可适应季节性趋势,从容地处理缺失的数据,并为检测到的异常提供置信度分数。

异常检测的工作原理

Amazon Managed Service for Prometheus 异常检测使用机器学习来识别指标数据中的异常模式,而无需手动配置阈值。该系统学习正常行为模式和季节性变化,从而减少误报并实现早期问题检测。它不断地适应应用程序变化,使其适用于动态云环境。

异常检测可监控应用程序性能指标(例如响应时间和错误率),通过 CPU 和内存使用情况跟踪基础设施运行状况,检测异常用户行为,通过流量分析确定容量规划需求,并监控业务指标以了解意外变化。它最适合可预测的模式、季节性变化或渐进的增长趋势。

使用随机森林砍伐(RCF)算法来分析时间序列数据。RCF 创建决策树,用于对数据空间进行分区并识别远离正态分布的孤立点。该算法从传入的数据中学习,来为每个指标建立正常行为的动态模型。

启用后,它会分析历史数据以确定基准模式和季节性趋势,然后生成对预期值的预测并识别偏差。该算法产生四个关键输出:

  • upper_band:预期正常值的上限

  • lower_band:预期正常值的下限

  • score:表示数据点异常程度的数值异常分数

  • value:实际观测到的指标值

异常检测入门

要开始对 Prometheus 指标使用异常检测,您需要足够的历史数据让算法学习正常模式。我们建议在启用异常检测之前至少保持 14 天的一致指标数据,以获得最佳结果。

您可以使用 PreviewAnomalyDetector API 预览异常检测将如何与您的指标结合使用。使用 PreviewAnomalyDetector 根据历史数据测试算法并评估其有效性,然后再将其实施到生产监控中。有关更多信息,请参阅 PreviewAnomalyDetector API

在实施异常检测时,请考虑以下最佳实践:

  • 从稳定的指标开始:从具有一致模式的指标开始,最初避免高度不稳定或稀疏的数据。

  • 使用聚合数据:将异常检测应用于聚合指标(例如平均值或总和),而不是原始的高基数数据,以提高性能和准确性。

  • 调整灵敏度:根据您的特定使用案例和对误报与漏报异常的容忍度调整算法参数。

  • 监控算法性能:定期检查检测到的异常,以确保算法随着系统的发展持续提供有价值的见解。