이상 탐지 - – Amazon Managed Service for Prometheus

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

이상 탐지

Amazon Managed Service for Prometheus는 기계 학습 알고리즘을 사용하여 지표 데이터의 비정상적인 패턴을 자동으로 식별하는 이상 탐지 기능을 제공합니다. 이 기능은 정적 임계값이 아닌 실제 비정상적인 동작에 집중함으로써 잠재적 문제를 사전에 감지하고, 알림 피로를 줄이며, 모니터링 효율성을 개선하는 데 도움을 줍니다.

Amazon Managed Service for Prometheus의 이상 탐지 기능은 시계열 데이터를 분석하여 정상적인 동작 패턴을 설정하고 해당 패턴에서 벗어난 편차를 식별하는 Random Cut Forest(RCF) 알고리즘을 사용합니다. 이 알고리즘은 계절적 추세에 맞게 조정되고, 누락된 데이터를 유연하게 처리하며, 감지된 이상에 대한 신뢰도 점수를 제공합니다.

이상 탐지 작동 방식

Amazon Managed Service for Prometheus 이상 탐지는 기계 학습을 사용하여 수동 임계값 구성 없이 지표 데이터의 비정상적인 패턴을 식별합니다. 시스템에서는 정상적인 동작 패턴과 계절적 변동을 학습하여 오탐을 줄이고 조기 문제 감지를 가능하게 합니다. 애플리케이션 변경 사항에 지속적으로 적응하므로 동적 클라우드 환경에 적합합니다.

이상 탐지는 응답 시간 및 오류율과 같은 애플리케이션 성능 지표를 모니터링하고, CPU 및 메모리 사용량을 통해 인프라 상태를 추적하며, 비정상적인 사용자 동작을 감지하고, 트래픽 분석을 통해 용량 계획 요구 사항을 식별하고, 예기치 않은 변경 사항이 있는지 비즈니스 지표를 모니터링합니다. 따라서 예측 가능한 패턴, 계절적 변동 또는 점진적 성장 추세에 가장 적합합니다.

Random Cut Forest(RCF) 알고리즘은 시계열 데이터를 분석하는 데 사용됩니다. RCF는 데이터 공간을 분할하는 의사 결정 트리를 생성하고 정규 분포에서 멀리 떨어진 격리된 지점을 식별합니다. 이 알고리즘은 유입되는 데이터로부터 학습하여 각 지표에 대한 정상 동작의 동적 모델을 구축합니다.

활성화되면 기록 데이터를 분석하여 기준 패턴과 계절 추세를 설정한 다음 예상 값에 대한 예측을 생성하고 편차를 식별합니다. 이 알고리즘은 네 가지 주요 출력을 생성합니다.

  • upper_band - 예상 정상 값의 상한

  • lower_band - 예상 정상 값의 하한

  • score - 데이터 포인트가 얼마나 비정상적인지를 나타내는 숫자 이상 점수

  • value - 실제 관측된 지표 값

이상 탐지 시작하기

Prometheus 지표로 이상 탐지를 사용하려면 알고리즘이 정상 패턴을 학습할 수 있도록 충분한 과거 데이터가 필요합니다. 최적의 결과를 얻으려면 이상 탐지 기능을 활성화하기 전에 최소 14일간의 일관된 지표 데이터를 확보할 것을 권장합니다.

PreviewAnomalyDetector API를 사용하여 지표에 대한 이상 탐지 작동 방식을 미리 확인할 수 있습니다. PreviewAnomalyDetector를 사용하면 프로덕션 모니터링에 구현하기 전에 알고리즘을 과거 데이터에 대해 테스트하고 그 효과를 평가할 수 있습니다. 자세한 내용은 PreviewAnomalyDetector API 단원을 참조하십시오.

이상 탐지를 구현할 때는 다음 모범 사례를 고려하세요.

  • 안정적인 지표부터 시작 - 일관된 패턴을 보이는 지표부터 시작하고, 초기에는 변동성이 크거나 데이터가 부족한 지표는 피합니다.

  • 집계된 데이터 사용 - 성능과 정확도를 높이기 위해 원시 데이터나 카디널리티가 높은 데이터 대신 집계된 지표(예: 평균 또는 합계)에 이상 탐지를 적용합니다.

  • 민감도 조정 - 특정 사용 사례와 오탐 대비 누락된 이상 징후에 대한 허용 오차에 따라 알고리즘 매개변수를 조정합니다.

  • 알고리즘 성능 모니터링 - 시스템이 발전함에 따라 알고리즘이 계속해서 가치 있는 통찰력을 제공하도록 정기적으로 탐지된 이상 현상을 검토합니다.