Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Detección de anomalías
Amazon Managed Service for Prometheus ofrece funciones de detección de anomalías que utilizan algoritmos de aprendizaje automático para identificar automáticamente patrones inusuales en sus datos métricos. Esta función le ayuda a detectar posibles problemas de forma proactiva, a reducir la fatiga de las alertas y a mejorar la eficacia de la supervisión, ya que se centra en un comportamiento verdaderamente anómalo y no en los umbrales estáticos.
La detección de anomalías en Amazon Managed Service for Prometheus utiliza el algoritmo Random Cut Forest (RCF), que analiza los datos de series temporales para establecer patrones de comportamiento normales e identificar las desviaciones de esos patrones. El algoritmo se adapta a las tendencias estacionales, gestiona correctamente los datos faltantes y proporciona puntuaciones de confianza para las anomalías detectadas.
Descubra cómo funciona la detección de anomalías
Amazon Managed Service para la detección de anomalías de Prometheus utiliza el aprendizaje automático para identificar patrones inusuales en los datos de las métricas sin necesidad de configurar los umbrales manualmente. El sistema aprende los patrones de comportamiento normales y las variaciones estacionales, lo que reduce los falsos positivos y permite la detección temprana de problemas. Se adapta continuamente a los cambios en las aplicaciones, lo que lo hace adecuado para entornos de nube dinámicos.
La detección de anomalías supervisa las métricas de rendimiento de las aplicaciones, como los tiempos de respuesta y las tasas de error, realiza un seguimiento del estado de la infraestructura en función del uso de la CPU y la memoria, detecta el comportamiento inusual de los usuarios, identifica las necesidades de planificación de la capacidad mediante el análisis del tráfico y supervisa las métricas empresariales para detectar cambios inesperados. Funciona mejor con patrones predecibles, variaciones estacionales o tendencias de crecimiento gradual.
El algoritmo Random Cut Forest (RCF) se utiliza para analizar datos de series temporales. El RCF crea árboles de decisión que dividen el espacio de datos e identifica puntos aislados alejados de la distribución normal. El algoritmo aprende de los datos entrantes para crear un modelo dinámico de comportamiento normal para cada métrica.
Cuando está activado, analiza los datos históricos para establecer patrones de referencia y tendencias estacionales, luego genera predicciones para los valores esperados e identifica las desviaciones. El algoritmo produce cuatro resultados clave:
-
upper_band: el límite superior de los valores normales esperados
-
lows_band: el límite inferior de los valores normales esperados
-
puntuación: puntuación de una anomalía numérica que indica qué tan inusual es el punto de datos
-
valor: el valor métrico real observado
Introducción a la detección de anomalías
Para empezar a utilizar la detección de anomalías con las métricas de Prometheus, necesita datos históricos suficientes para que el algoritmo aprenda los patrones normales. Recomendamos disponer de al menos 14 días de datos métricos consistentes antes de activar la detección de anomalías para obtener resultados óptimos.
Puedes obtener una vista previa de cómo funcionará la detección de anomalías con tus métricas mediante la PreviewAnomalyDetector API. Úselo PreviewAnomalyDetector para probar el algoritmo con sus datos históricos y evaluar su eficacia antes de implementarlo en la supervisión de la producción. Para obtener más información, consulte PreviewAnomalyDetector API.
Al implementar la detección de anomalías, tenga en cuenta estas prácticas recomendadas:
-
Comience con métricas estables: comience con métricas que tengan patrones consistentes y evite inicialmente datos muy volátiles o dispersos.
-
Utilice datos agregados: aplique la detección de anomalías a las métricas agregadas (como promedios o sumas) en lugar de a datos sin procesar y de alta cardinalidad para mejorar el rendimiento y la precisión.
-
Ajuste la sensibilidad: ajuste los parámetros del algoritmo en función de su caso de uso específico y de la tolerancia a los falsos positivos frente a las anomalías omitidas.
-
Supervise el rendimiento del algoritmo: revise periódicamente las anomalías detectadas para asegurarse de que el algoritmo siga proporcionando información valiosa a medida que su sistema evoluciona.