Détection des anomalies - Amazon Managed Service for Prometheus

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Détection des anomalies

Amazon Managed Service for Prometheus fournit des fonctionnalités de détection des anomalies qui utilisent des algorithmes d'apprentissage automatique pour identifier automatiquement les modèles inhabituels dans vos données métriques. Cette fonctionnalité vous aide à détecter de manière proactive les problèmes potentiels, à réduire la fatigue liée aux alertes et à améliorer l'efficacité de votre surveillance en vous concentrant sur les comportements réellement anormaux plutôt que sur des seuils statiques.

La détection des anomalies dans Amazon Managed Service for Prometheus utilise l'algorithme Random Cut Forest (RCF), qui analyse les données de vos séries chronologiques pour établir des modèles de comportement normaux et identifier les écarts par rapport à ces modèles. L'algorithme s'adapte aux tendances saisonnières, gère les données manquantes avec élégance et fournit des scores de confiance pour les anomalies détectées.

Comment fonctionne la détection d'anomalies

La détection des anomalies par Amazon Managed Service for Prometheus utilise l'apprentissage automatique pour identifier des modèles inhabituels dans les données métriques sans configurer manuellement les seuils. Le système apprend les modèles de comportement normaux et les variations saisonnières, réduisant ainsi les faux positifs et permettant une détection précoce des problèmes. Il s'adapte en permanence aux modifications des applications, ce qui le rend adapté aux environnements cloud dynamiques.

La détection des anomalies surveille les indicateurs de performance des applications tels que les temps de réponse et les taux d'erreur, suit l'état de l'infrastructure en fonction de l'utilisation du processeur et de la mémoire, détecte les comportements inhabituels des utilisateurs, identifie les besoins en matière de planification des capacités grâce à l'analyse du trafic et surveille les indicateurs commerciaux pour détecter les changements inattendus. Cela fonctionne mieux avec des modèles prévisibles, des variations saisonnières ou des tendances de croissance graduelles.

L'algorithme Random Cut Forest (RCF) est utilisé pour analyser les données de séries chronologiques. RCF crée des arbres de décision qui partitionnent l'espace de données et identifient les points isolés éloignés de la distribution normale. L'algorithme apprend à partir des données entrantes pour créer un modèle dynamique du comportement normal pour chaque métrique.

Lorsqu'il est activé, il analyse les données historiques pour établir des modèles de référence et des tendances saisonnières, puis génère des prévisions pour les valeurs attendues et identifie les écarts. L'algorithme produit quatre sorties clés :

  • upper_band - La limite supérieure des valeurs normales attendues

  • lower_band - La limite inférieure des valeurs normales attendues

  • score - Un score d'anomalie numérique indiquant à quel point de données est inhabituel

  • valeur - La valeur métrique réelle observée

Mise en route avec la détection des anomalies

Pour commencer à utiliser la détection des anomalies avec vos métriques Prometheus, vous avez besoin de suffisamment de données historiques pour que l'algorithme apprenne les modèles normaux. Nous recommandons de disposer d'au moins 14 jours de données métriques cohérentes avant d'activer la détection des anomalies pour des résultats optimaux.

Vous pouvez prévisualiser le fonctionnement de la détection des anomalies avec vos métriques à l'aide de l'PreviewAnomalyDetectorAPI. PreviewAnomalyDetectorÀ utiliser pour tester l'algorithme par rapport à vos données historiques et évaluer son efficacité avant de l'implémenter dans le suivi de la production. Pour de plus amples informations, veuillez consulter PreviewAnomalyDetector API.

Lors de la mise en œuvre de la détection des anomalies, tenez compte des meilleures pratiques suivantes :

  • Commencez par des indicateurs stables : commencez par des indicateurs présentant des modèles cohérents et évitez au départ des données très volatiles ou éparses.

  • Utilisez des données agrégées : appliquez la détection des anomalies aux mesures agrégées (telles que les moyennes ou les sommes) plutôt qu'aux données brutes à cardinalité élevée pour améliorer les performances et la précision.

  • Régler la sensibilité : ajustez les paramètres de l'algorithme en fonction de votre cas d'utilisation spécifique et de votre tolérance aux faux positifs par rapport aux anomalies manquées.

  • Surveillez les performances de l'algorithme — Passez régulièrement en revue les anomalies détectées pour vous assurer que l'algorithme continue de fournir des informations précieuses au fur et à mesure de l'évolution de votre système.