As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Detecção de anomalias
O Amazon Managed Service for Prometheus fornece recursos de detecção de anomalias que usam algoritmos de machine learning para identificar automaticamente padrões incomuns em seus dados métricos. Esse recurso ajuda você a detectar proativamente possíveis problemas, reduzir a fadiga de alertas e melhorar a eficácia do monitoramento, concentrando-se em comportamentos verdadeiramente anômalos em vez de limites estáticos.
A detecção de anomalias no Amazon Managed Service for Prometheus usa o algoritmo Random Cut Forest (RCF), que analisa seus dados de séries temporais para estabelecer padrões normais de comportamento e identificar desvios desses padrões. O algoritmo se adapta às tendências sazonais, lida com os dados perdidos com tranqulidade e fornece pontuações de confiança para anomalias detectadas.
Como funciona a detecção de anomalias
A detecção de anomalias do Amazon Managed Service for Prometheus usa machine learning para identificar padrões incomuns em dados de métricas sem configuração manual de limites. O sistema aprende padrões normais de comportamento e variações sazonais, reduzindo falsos positivos e permitindo a detecção precoce de problemas. Ele se adapta continuamente às mudanças dos aplicativos, tornando-o adequado para ambientes de nuvem dinâmicos.
A detecção de anomalias monitora as métricas de desempenho do aplicativo, como tempos de resposta e taxas de erro, rastreia a integridade da infraestrutura por meio do uso da CPU e da memória, detecta comportamentos incomuns do usuário, identifica as necessidades de planejamento de capacidade pela análise de tráfego e monitora as métricas de negócios em busca de mudanças inesperadas. Funciona melhor com padrões previsíveis, variações sazonais ou tendências de crescimento gradual.
O algoritmo Random Cut Forest (RCF) é usado para analisar dados de séries temporais. O RCF cria árvores de decisão que particionam o espaço de dados e identificam pontos isolados longe da distribuição normal. O algoritmo aprende com os dados recebidos para criar um modelo dinâmico de comportamento normal para cada métrica.
Quando ativado, ele analisa dados históricos para estabelecer padrões básicos e tendências sazonais e, em seguida, gera previsões para valores esperados e identifica desvios. O algoritmo produz quatro saídas principais:
-
upper_band: o limite superior dos valores normais esperados
-
lower_band: o limite inferior dos valores normais esperados
-
score: uma pontuação de anomalia numérica que indica o quão incomum é o ponto de dados
-
value: o valor métrico real observado
Conceitos básicos da detecção de anomalias
Para começar a usar a detecção de anomalias com suas métricas do Prometheus, você precisa de dados históricos suficientes para que o algoritmo aprenda os padrões normais. Recomendamos ter pelo menos 14 dias de dados métricos consistentes antes de ativar a detecção de anomalias para obter os melhores resultados.
Você pode visualizar como a detecção de anomalias funcionará com suas métricas usando a API PreviewAnomalyDetector. Use PreviewAnomalyDetector para testar o algoritmo em relação aos seus dados históricos e avaliar a eficácia dele antes de implementá-lo no monitoramento da produção. Para obter mais informações, consulte PreviewAnomalyDetector API.
Ao implementar a detecção de anomalias, considere estas práticas recomendadas:
-
Comece com métricas estáveis: comece com métricas com padrões consistentes e evite inicialmente dados altamente voláteis ou esparsos.
-
Use dados agregados: aplique a detecção de anomalias a métricas agregadas (como médias ou somas) em vez de dados brutos de alta cardinalidade para obter melhor desempenho e precisão.
-
Ajuste a sensibilidade: ajuste os parâmetros do algoritmo com base em seu caso de uso específico e na tolerância a falsos positivos versus anomalias perdidas.
-
Monitore o desempenho do algoritmo: revise regularmente as anomalias detectadas para garantir que o algoritmo continue fornecendo informações valiosas à medida que seu sistema evolui.