기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
이상 탐지
Amazon Managed Service for Prometheus는 기계 학습 알고리즘을 사용하여 지표 데이터의 비정상적인 패턴을 자동으로 식별하는 이상 탐지 기능을 제공합니다. 이 기능을 사용하면 정적 임계값이 아닌 실제로 비정상적인 동작에 집중하여 잠재적 문제를 사전에 감지하고, 알림 피로를 줄이고, 모니터링 효과를 개선할 수 있습니다.
Amazon Managed Service for Prometheus에서 이상 탐지는 시계열 데이터를 분석하여 정상적인 동작 패턴을 설정하고 해당 패턴과의 편차를 식별하는 Random Cut Forest(RCF) 알고리즘을 사용합니다. 이 알고리즘은 계절적 추세에 맞게 조정되고, 누락된 데이터를 정상적으로 처리하고, 감지된 이상에 대한 신뢰도 점수를 제공합니다.
이상 탐지 작동 방식
Amazon Managed Service for Prometheus 이상 탐지는 기계 학습을 사용하여 수동 임계값 구성 없이 지표 데이터의 비정상적인 패턴을 식별합니다. 시스템은 일반적인 동작 패턴과 계절적 변형을 학습하여 오탐을 줄이고 조기 문제 감지를 활성화합니다. 애플리케이션 변경 사항에 지속적으로 적응하므로 동적 클라우드 환경에 적합합니다.
이상 탐지는 응답 시간 및 오류율과 같은 애플리케이션 성능 지표를 모니터링하고, CPU 및 메모리 사용량을 통해 인프라 상태를 추적하고, 비정상적인 사용자 동작을 감지하고, 트래픽 분석을 통해 용량 계획 요구 사항을 식별하고, 예상치 못한 변경 사항이 있는지 비즈니스 지표를 모니터링합니다. 예측 가능한 패턴, 계절적 변화 또는 점진적 성장 추세에 가장 적합합니다.
Random Cut Forest(RCF) 알고리즘은 시계열 데이터를 분석하는 데 사용됩니다. RCF는 데이터 공간을 분할하고 정상 분포에서 멀리 떨어진 격리된 지점을 식별하는 의사 결정 트리를 생성합니다. 알고리즘은 수신 데이터에서 학습하여 각 지표에 대한 정상적인 동작의 동적 모델을 구축합니다.
활성화되면 기록 데이터를 분석하여 기준 패턴과 계절 추세를 설정한 다음 예상 값에 대한 예측을 생성하고 편차를 식별합니다. 알고리즘은 네 가지 키 출력을 생성합니다.
-
upper_band - 예상 정상 값의 상한
-
lower_band - 예상 정상 값의 하한
-
점수 - 데이터 포인트가 얼마나 비정상적인지 나타내는 숫자 이상 점수
-
값 - 실제 관찰된 지표 값
이상 탐지 시작하기
Prometheus 지표와 함께 이상 탐지를 사용하려면 알고리즘이 정상 패턴을 학습할 수 있는 충분한 기록 데이터가 필요합니다. 최적의 결과를 위해 이상 탐지를 활성화하기 전에 최소 14일의 일관된 지표 데이터를 확보하는 것이 좋습니다.
PreviewAnomalyDetector API를 사용하여 이상 탐지가 지표와 작동하는 방식을 미리 볼 수 있습니다. PreviewAnomalyDetector를 사용하여 기록 데이터를 기준으로 알고리즘을 테스트하고 프로덕션 모니터링에서 구현하기 전에 효과를 평가합니다. 자세한 내용은 PreviewAnomalyDetector API 단원을 참조하십시오.
이상 탐지를 구현할 때는 다음 모범 사례를 고려하세요.
-
안정적인 지표로 시작 - 일관된 패턴을 가진 지표로 시작하고 처음에는 변동성이 높거나 희소한 데이터를 방지합니다.
-
집계된 데이터 사용 - 성능 및 정확도 향상을 위해 카디널리티가 높은 원시 데이터가 아닌 집계된 지표(예: 평균 또는 합계)에 이상 탐지를 적용합니다.
-
튜닝 민감도 - 특정 사용 사례 및 거짓 긍정과 누락된 이상에 대한 허용 오차를 기반으로 알고리즘 파라미터를 조정합니다.
-
알고리즘 성능 모니터링 - 감지된 이상을 정기적으로 검토하여 시스템이 발전함에 따라 알고리즘이 중요한 인사이트를 계속 제공하는지 확인합니다.