异常检测

Amazon Managed Service for Prometheus 提供异常检测功能，该功能使用机器学习算法自动识别指标数据中的异常模式。此功能有助于您主动检测潜在问题，减少警报疲劳，并通过关注真正的异常行为而不是静态阈值来提高监控有效性。

Amazon Managed Service for Prometheus 中的异常检测使用随机森林砍伐（RCF）算法，该算法分析时间序列数据以建立正常行为模式，并识别与这些模式的偏差。该算法可适应季节性趋势，从容地处理缺失的数据，并为检测到的异常提供置信度分数。

异常检测的工作原理

Amazon Managed Service for Prometheus 异常检测使用机器学习来识别指标数据中的异常模式，而无需手动配置阈值。该系统学习正常行为模式和季节性变化，从而减少误报并实现早期问题检测。它不断地适应应用程序变化，使其适用于动态云环境。

异常检测可监控应用程序性能指标（例如响应时间和错误率），通过 CPU 和内存使用情况跟踪基础设施运行状况，检测异常用户行为，通过流量分析确定容量规划需求，并监控业务指标以了解意外变化。它最适合可预测的模式、季节性变化或渐进的增长趋势。

使用随机森林砍伐（RCF）算法来分析时间序列数据。RCF 创建决策树，用于对数据空间进行分区并识别远离正态分布的孤立点。该算法从传入的数据中学习，来为每个指标建立正常行为的动态模型。

启用后，它会分析历史数据以确定基准模式和季节性趋势，然后生成对预期值的预测并识别偏差。该算法产生四个关键输出：

upper_band：预期正常值的上限
lower_band：预期正常值的下限
score：表示数据点异常程度的数值异常分数
value：实际观测到的指标值

异常检测入门

要开始对 Prometheus 指标使用异常检测，您需要足够的历史数据让算法学习正常模式。我们建议在启用异常检测之前至少保持 14 天的一致指标数据，以获得最佳结果。

您可以使用 PreviewAnomalyDetector API 预览异常检测将如何与您的指标结合使用。使用 PreviewAnomalyDetector 根据历史数据测试算法并评估其有效性，然后再将其实施到生产监控中。有关更多信息，请参阅 PreviewAnomalyDetector API。

在实施异常检测时，请考虑以下最佳实践：

从稳定的指标开始：从具有一致模式的指标开始，最初避免高度不稳定或稀疏的数据。
使用聚合数据：将异常检测应用于聚合指标（例如平均值或总和），而不是原始的高基数数据，以提高性能和准确性。
调整灵敏度：根据您的特定使用案例和对误报与漏报异常的容忍度调整算法参数。
监控算法性能：定期检查检测到的异常，以确保算法随着系统的发展持续提供有价值的见解。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

查询统计数据

PreviewAnomalyDetector