Detecção de anomalias - Amazon Managed Service para Prometheus

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Detecção de anomalias

O Amazon Managed Service for Prometheus fornece recursos de detecção de anomalias que usam algoritmos de aprendizado de máquina para identificar automaticamente padrões incomuns em seus dados métricos. Esse recurso ajuda você a detectar proativamente possíveis problemas, reduzir a fadiga de alertas e melhorar a eficácia do monitoramento, concentrando-se em comportamentos verdadeiramente anômalos em vez de limites estáticos.

A detecção de anomalias no Amazon Managed Service for Prometheus usa o algoritmo Random Cut Forest (RCF), que analisa seus dados de séries temporais para estabelecer padrões normais de comportamento e identificar desvios desses padrões. O algoritmo se adapta às tendências sazonais, lida com os dados perdidos com elegância e fornece pontuações de confiança para anomalias detectadas.

Como funciona a detecção de anomalias

O Amazon Managed Service para detecção de anomalias do Prometheus usa aprendizado de máquina para identificar padrões incomuns em dados de métricas sem configuração manual de limites. O sistema aprende padrões normais de comportamento e variações sazonais, reduzindo os falsos positivos e permitindo a detecção precoce de problemas. Ele se adapta continuamente às mudanças dos aplicativos, tornando-o adequado para ambientes de nuvem dinâmicos.

A detecção de anomalias monitora as métricas de desempenho do aplicativo, como tempos de resposta e taxas de erro, rastreia a integridade da infraestrutura por meio do uso da CPU e da memória, detecta comportamentos incomuns do usuário, identifica as necessidades de planejamento de capacidade por meio da análise de tráfego e monitora as métricas de negócios em busca de mudanças inesperadas. Funciona melhor com padrões previsíveis, variações sazonais ou tendências de crescimento gradual.

O algoritmo Random Cut Forest (RCF) é usado para analisar dados de séries temporais. O RCF cria árvores de decisão que particionam o espaço de dados e identificam pontos isolados longe da distribuição normal. O algoritmo aprende com os dados recebidos para criar um modelo dinâmico de comportamento normal para cada métrica.

Quando ativado, ele analisa dados históricos para estabelecer padrões básicos e tendências sazonais e, em seguida, gera previsões para valores esperados e identifica desvios. O algoritmo produz quatro saídas principais:

  • upper_band - O limite superior dos valores normais esperados

  • lower_band - O limite inferior dos valores normais esperados

  • pontuação - Uma pontuação de anomalia numérica que indica o quão incomum é o ponto de dados

  • valor - O valor métrico real observado

Conceitos básicos da detecção de anomalias

Para começar a usar a detecção de anomalias com suas métricas do Prometheus, você precisa de dados históricos suficientes para que o algoritmo aprenda os padrões normais. Recomendamos ter pelo menos 14 dias de dados métricos consistentes antes de ativar a detecção de anomalias para obter os melhores resultados.

Você pode visualizar como a detecção de anomalias funcionará com suas métricas usando a PreviewAnomalyDetector API. Use PreviewAnomalyDetector para testar o algoritmo em relação aos seus dados históricos e avaliar sua eficácia antes de implementá-lo no monitoramento da produção. Para obter mais informações, consulte PreviewAnomalyDetector API.

Ao implementar a detecção de anomalias, considere estas melhores práticas:

  • Comece com métricas estáveis — Comece com métricas que tenham padrões consistentes e evite inicialmente dados altamente voláteis ou esparsos.

  • Use dados agregados — aplique a detecção de anomalias a métricas agregadas (como médias ou somas) em vez de dados brutos de alta cardinalidade para obter melhor desempenho e precisão.

  • Ajuste a sensibilidade — ajuste os parâmetros do algoritmo com base em seu caso de uso específico e na tolerância a falsos positivos versus anomalias perdidas.

  • Monitore o desempenho do algoritmo — revise regularmente as anomalias detectadas para garantir que o algoritmo continue fornecendo informações valiosas à medida que seu sistema evolui.