Detecção de anomalias - Amazon Managed Service for Prometheus

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Detecção de anomalias

O Amazon Managed Service for Prometheus fornece recursos de detecção de anomalias que usam algoritmos de machine learning para identificar automaticamente padrões incomuns em seus dados métricos. Esse recurso ajuda você a detectar proativamente possíveis problemas, reduzir a fadiga de alertas e melhorar a eficácia do monitoramento, concentrando-se em comportamentos verdadeiramente anômalos em vez de limites estáticos.

A detecção de anomalias no Amazon Managed Service for Prometheus usa o algoritmo Random Cut Forest (RCF), que analisa seus dados de séries temporais para estabelecer padrões normais de comportamento e identificar desvios desses padrões. O algoritmo se adapta às tendências sazonais, lida com os dados perdidos com tranqulidade e fornece pontuações de confiança para anomalias detectadas.

Como funciona a detecção de anomalias

A detecção de anomalias do Amazon Managed Service for Prometheus usa machine learning para identificar padrões incomuns em dados de métricas sem configuração manual de limites. O sistema aprende padrões normais de comportamento e variações sazonais, reduzindo falsos positivos e permitindo a detecção precoce de problemas. Ele se adapta continuamente às mudanças dos aplicativos, tornando-o adequado para ambientes de nuvem dinâmicos.

A detecção de anomalias monitora as métricas de desempenho do aplicativo, como tempos de resposta e taxas de erro, rastreia a integridade da infraestrutura por meio do uso da CPU e da memória, detecta comportamentos incomuns do usuário, identifica as necessidades de planejamento de capacidade pela análise de tráfego e monitora as métricas de negócios em busca de mudanças inesperadas. Funciona melhor com padrões previsíveis, variações sazonais ou tendências de crescimento gradual.

O algoritmo Random Cut Forest (RCF) é usado para analisar dados de séries temporais. O RCF cria árvores de decisão que particionam o espaço de dados e identificam pontos isolados longe da distribuição normal. O algoritmo aprende com os dados recebidos para criar um modelo dinâmico de comportamento normal para cada métrica.

Quando ativado, ele analisa dados históricos para estabelecer padrões básicos e tendências sazonais e, em seguida, gera previsões para valores esperados e identifica desvios. O algoritmo produz quatro saídas principais:

  • upper_band: o limite superior dos valores normais esperados

  • lower_band: o limite inferior dos valores normais esperados

  • score: uma pontuação de anomalia numérica que indica o quão incomum é o ponto de dados

  • value: o valor métrico real observado

Conceitos básicos da detecção de anomalias

Para começar a usar a detecção de anomalias com suas métricas do Prometheus, você precisa de dados históricos suficientes para que o algoritmo aprenda os padrões normais. Recomendamos ter pelo menos 14 dias de dados métricos consistentes antes de ativar a detecção de anomalias para obter os melhores resultados.

Você pode visualizar como a detecção de anomalias funcionará com suas métricas usando a API PreviewAnomalyDetector. Use PreviewAnomalyDetector para testar o algoritmo em relação aos seus dados históricos e avaliar a eficácia dele antes de implementá-lo no monitoramento da produção. Para obter mais informações, consulte PreviewAnomalyDetector API.

Ao implementar a detecção de anomalias, considere estas práticas recomendadas:

  • Comece com métricas estáveis: comece com métricas com padrões consistentes e evite inicialmente dados altamente voláteis ou esparsos.

  • Use dados agregados: aplique a detecção de anomalias a métricas agregadas (como médias ou somas) em vez de dados brutos de alta cardinalidade para obter melhor desempenho e precisão.

  • Ajuste a sensibilidade: ajuste os parâmetros do algoritmo com base em seu caso de uso específico e na tolerância a falsos positivos versus anomalias perdidas.

  • Monitore o desempenho do algoritmo: revise regularmente as anomalias detectadas para garantir que o algoritmo continue fornecendo informações valiosas à medida que seu sistema evolui.