Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Rilevamento anomalie
Amazon Managed Service for Prometheus offre funzionalità di rilevamento delle anomalie che utilizzano algoritmi di apprendimento automatico per identificare automaticamente modelli insoliti nei dati metrici. Questa funzionalità ti aiuta a rilevare in modo proattivo potenziali problemi, ridurre l'affaticamento degli avvisi e migliorare l'efficacia del monitoraggio concentrandoti su comportamenti realmente anomali anziché su soglie statiche.
Il rilevamento delle anomalie in Amazon Managed Service for Prometheus utilizza l'algoritmo Random Cut Forest (RCF), che analizza i dati delle serie temporali per stabilire modelli di comportamento normali e identificare le deviazioni da tali modelli. L'algoritmo si adatta alle tendenze stagionali, gestisce i dati mancanti con garbo e fornisce punteggi di affidabilità per le anomalie rilevate.
Funzionamento del rilevamento di anomalie
Il rilevamento delle anomalie di Amazon Managed Service for Prometheus utilizza l'apprendimento automatico per identificare modelli insoliti nei dati delle metriche senza la configurazione manuale delle soglie. Il sistema apprende i modelli di comportamento normali e le variazioni stagionali, riducendo i falsi positivi e consentendo il rilevamento precoce dei problemi. Si adatta continuamente alle modifiche delle applicazioni, rendendolo adatto ad ambienti cloud dinamici.
Il rilevamento delle anomalie monitora le metriche delle prestazioni delle applicazioni, come i tempi di risposta e i tassi di errore, tiene traccia dello stato dell'infrastruttura tramite l'utilizzo di CPU e memoria, rileva comportamenti insoliti degli utenti, identifica le esigenze di pianificazione della capacità attraverso l'analisi del traffico e monitora le metriche aziendali per eventuali modifiche impreviste. Funziona al meglio con modelli prevedibili, variazioni stagionali o tendenze di crescita graduali.
L'algoritmo Random Cut Forest (RCF) viene utilizzato per analizzare i dati delle serie temporali. RCF crea alberi decisionali che partizionano lo spazio dei dati e identificano punti isolati lontani dalla normale distribuzione. L'algoritmo impara dai dati in entrata per creare un modello dinamico di comportamento normale per ogni metrica.
Se abilitato, analizza i dati storici per stabilire modelli di base e tendenze stagionali, quindi genera previsioni per i valori attesi e identifica le deviazioni. L'algoritmo produce quattro risultati chiave:
-
upper_band - Il limite superiore dei valori normali previsti
-
lower_band - Il limite inferiore dei valori normali previsti
-
score - Un punteggio di anomalia numerica che indica quanto sia insolito il punto dati
-
value - Il valore metrico effettivo osservato
Nozioni di base sul rilevamento di anomalie
Per iniziare a utilizzare il rilevamento delle anomalie con le metriche di Prometheus, sono necessari dati storici sufficienti per consentire all'algoritmo di apprendere i modelli normali. Ti consigliamo di disporre di almeno 14 giorni di dati metrici coerenti prima di abilitare il rilevamento delle anomalie per risultati ottimali.
Puoi vedere in anteprima come funzionerà il rilevamento delle anomalie con le tue metriche utilizzando l'API. PreviewAnomalyDetector Utilizzatelo PreviewAnomalyDetector per testare l'algoritmo rispetto ai dati storici e valutarne l'efficacia prima di implementarlo nel monitoraggio della produzione. Per ulteriori informazioni, consulta PreviewAnomalyDetector API.
Quando implementi il rilevamento delle anomalie, prendi in considerazione queste best practice:
-
Inizia con metriche stabili: inizia con metriche con schemi coerenti ed evita inizialmente dati altamente volatili o sparsi.
-
Usa dati aggregati: applica il rilevamento delle anomalie alle metriche aggregate (come medie o somme) anziché ai dati grezzi e ad alta cardinalità per prestazioni e precisione migliori.
-
Regola la sensibilità: regola i parametri dell'algoritmo in base al tuo caso d'uso specifico e alla tolleranza tra falsi positivi e anomalie non rilevate.
-
Monitora le prestazioni dell'algoritmo: esamina regolarmente le anomalie rilevate per garantire che l'algoritmo continui a fornire informazioni preziose man mano che il sistema si evolve.