Descubra cómo funciona la detección de anomalías Introducción a la detección de anomalías

Detección de anomalías

Amazon Managed Service para Prometheus ofrece funciones de detección de anomalías que utilizan algoritmos de machine learning para identificar automáticamente patrones inusuales en los datos de sus métricas. Esta característica le ayuda a detectar posibles problemas de forma proactiva, a reducir la fatiga de las alertas y a mejorar la eficacia de la supervisión, ya que se centra en un comportamiento verdaderamente anómalo y no en los umbrales estáticos.

La detección de anomalías en Amazon Managed Service para Prometheus utiliza el algoritmo Random Cut Forest (RCF), que analiza los datos de series temporales para establecer patrones de comportamiento normales e identificar las desviaciones de esos patrones. El algoritmo se adapta a las tendencias estacionales, administra correctamente los datos faltantes y proporciona puntuaciones de confianza para las anomalías detectadas.

Descubra cómo funciona la detección de anomalías

La detección de anomalías de Amazon Managed Service para Prometheus utiliza machine learning para identificar patrones inusuales en los datos de las métricas sin necesidad de configurar los umbrales manualmente. El sistema aprende los patrones de comportamiento normales y las variaciones estacionales, lo que reduce los falsos positivos y permite la detección temprana de problemas. Se adapta continuamente a los cambios en las aplicaciones, lo que lo hace adecuado para entornos de nube dinámicos.

La detección de anomalías supervisa las métricas de rendimiento de las aplicaciones, como los tiempos de respuesta y las tasas de error, realiza un seguimiento del estado de la infraestructura en función del uso de la CPU y la memoria, detecta el comportamiento inusual de los usuarios, identifica las necesidades de planificación de la capacidad mediante el análisis del tráfico y supervisa las métricas empresariales para detectar cambios inesperados. Funciona mejor con patrones predecibles, variaciones estacionales o tendencias de crecimiento gradual.

El algoritmo de bosque de corte aleatorio (RCF) se utiliza para analizar datos de series temporales. El RCF crea árboles de decisión que dividen el espacio de datos e identifica puntos aislados alejados de la distribución normal. El algoritmo aprende de los datos entrantes para crear un modelo dinámico de comportamiento normal para cada métrica.

Cuando está activado, analiza los datos históricos para establecer patrones de referencia y tendencias estacionales, luego genera predicciones para los valores esperados e identifica las desviaciones. El algoritmo produce cuatro resultados clave:

upper_band: el límite superior de los valores normales esperados
lower_band: el límite inferior de los valores normales esperados
score: la puntuación de una anomalía numérica que indica en qué medida es inusual el punto de datos
value: el valor de la métrica real observada

Introducción a la detección de anomalías

Para empezar a utilizar la detección de anomalías con las métricas de Prometheus, necesita datos históricos suficientes para que el algoritmo aprenda los patrones normales. Recomendamos disponer de al menos 14 días de datos métricos coherentes antes de activar la detección de anomalías para obtener resultados óptimos.

Puede obtener una vista previa de cómo funcionará la detección de anomalías con sus métricas mediante la API PreviewAnomalyDetector. Utilice PreviewAnomalyDetector para probar el algoritmo con sus datos históricos y evaluar su eficacia antes de implementarlo en la supervisión de la producción. Para obtener más información, consulte PreviewAnomalyDetector API.

Al implementar la detección de anomalías, tenga en cuenta estas prácticas recomendadas:

Comience con métricas estables: empiece por métricas que tengan patrones coherentes y evite datos muy volátiles o dispersos en un principio.
Utilice datos agregados: aplique la detección de anomalías a las métricas agregadas (como promedios o sumas) en lugar de a datos sin procesar y de alta cardinalidad para mejorar el rendimiento y la precisión.
Ajuste la sensibilidad: ajuste los parámetros del algoritmo en función de su caso de uso específico y de la tolerancia a los falsos positivos frente a las anomalías omitidas.
Supervise el rendimiento del algoritmo: revise periódicamente las anomalías detectadas para asegurarse de que el algoritmo siga proporcionando información valiosa a medida que su sistema evolucione.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Estadísticas de consulta

PreviewAnomalyDetector