제공형 로그를 사용하여 수집기 모니터링 - – Amazon Managed Service for Prometheus

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

제공형 로그를 사용하여 수집기 모니터링

Amazon Managed Service for Prometheus 수집기는 지표 수집 프로세스를 모니터링하고 문제를 해결하는 데 도움이 되는 제공형 로그를 제공합니다. 이러한 로그는 Amazon CloudWatch Logs로 자동으로 전송되며 서비스 검색, 지표 수집 및 데이터 내보내기 작업에 대한 가시성을 제공합니다. 수집기는 지표 수집 파이프라인의 세 가지 주요 구성 요소에 대한 로그를 제공합니다.

서비스 검색 로그

서비스 검색 로그는 다음을 포함하여 대상 검색 프로세스에 대한 정보를 제공합니다.

  • Kubernetes API 리소스에 액세스할 때 발생하는 인증 또는 권한 문제

  • 서비스 검색 설정의 구성 오류

다음 예제에서는 서비스 검색 중에 발생할 수 있는 일반적인 인증 및 권한 오류를 보여줍니다.

Amazon EKS 클러스터가 존재하지 않음

지정된 Amazon EKS 클러스터가 없으면 다음 오류가 발생합니다.

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source exists." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
유효하지 않은 서비스 권한

서비스를 감시할 수 있는 적절한 역할 기반 액세스 제어(RBAC) 권한이 수집기에 없는 경우 다음 오류가 발생합니다.

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
유효하지 않은 엔드포인트 권한

엔드포인트를 감시할 수 있는 적절한 역할 기반 액세스 제어(RBAC) 권한이 수집기에 없는 경우 다음 오류가 발생합니다.

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Endpoints - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

수집기 로그

수집기 로그는 다음을 포함하여 지표 스크래핑 프로세스에 대한 정보를 제공합니다.

  • 엔드포인트를 사용할 수 없어 발생한 스크래핑 실패

  • 대상 스크래핑 시도 시 발생한 연결 문제

  • 스크래핑 작업 중 발생한 제한 시간 초과

  • 스크래핑 대상에서 반환된 HTTP 상태 오류

다음 예제에서는 지표 스크래핑 프로세스 중에 발생할 수 있는 일반적인 수집기 오류를 보여줍니다.

지표 엔드포인트 누락

대상 인스턴스에서 /metrics 엔드포인트를 사용할 수 없는 경우 다음 오류가 발생합니다.

{ "component": "COLLECTOR", "message": { "log": "Failed to scrape Prometheus endpoint - verify /metrics endpoint is available", "job": "pod_exporter", "targetLabels": "{__name__=\"up\", instance=\10.24.34.0\", job=\"pod_exporter\"}" }, "timestamp": "1752787969551", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
연결이 거부됨

수집기가 대상 엔드포인트에 연결할 수 없는 경우 다음 오류가 발생합니다.

{ "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "message": "Scrape failed", "scrape_pool": "pod_exporter", "target": "http://10.24.34.0:80/metrics", "error": "Get \"http://10.24.34.0:80/metrics\": dial tcp 10.24.34.0:80: connect: connection refused" }, "component": "COLLECTOR" }

Exporter 로그

Exporter 로그는 다음을 포함하여 수집된 지표를 Amazon Managed Service for Prometheus 워크스페이스로 보내는 프로세스에 대한 정보를 제공합니다.

  • 처리된 지표 및 데이터 포인트 수

  • 워크스페이스 문제로 인한 내보내기 실패

  • 지표를 작성하려고 할 때 발생한 권한 오류

  • 내보내기 파이프라인의 종속성 실패

다음 예제에서는 지표 내보내기 프로세스 중에 발생할 수 있는 일반적인 Exporter 오류를 보여줍니다.

워크스페이스를 찾을 수 없음

지표 내보내기를 위한 대상 워크스페이스를 찾을 수 없는 경우 다음 오류가 발생합니다.

{ "component": "EXPORTER", "message": { "log": "Failed to export to the target workspace - Verify your scraper destination.", "samplesDropped": 5 }, "timestamp": "1752787969664", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

수집기 제공형 로그 이해 및 사용

로그 구조

모든 수집기 제공형 로그는 다음 필드로 구성된 일관된 구조를 따릅니다.

scrapeConfigId

해당 로그를 생성한 스크래핑 구성의 고유 식별자입니다.

timestamp

로그 항목이 생성된 시간입니다.

message

로그 메시지 콘텐츠로, 추가 구조화 필드가 포함될 수 있습니다.

component

로그를 생성한 구성 요소입니다(SERVICE_DISCOVERY, COLLECTOR, EXPORTER).

문제 해결에 제공형 로그 사용

수집기 제공형 로그는 지표 수집과 관련된 일반적인 문제를 해결하는 데 도움이 됩니다.

  1. 서비스 검색 문제

    • SERVICE_DISCOVERY 로그에서 인증 또는 권한 오류가 있는지 확인합니다.

    • Kubernetes 리소스에 액세스하는 데 필요한 권한이 수집기에 있는지 확인합니다.

  2. 지표 스크래핑 문제

    • COLLECTOR 로그에서 스크래핑 실패가 있는지 확인합니다.

    • 대상 엔드포인트에 액세스할 수 있고 지표를 반환하는지 확인합니다.

    • 방화벽 규칙에 따라 수집기가 대상 엔드포인트에 연결할 수 있는지 확인합니다.

  3. 지표 내보내기 문제

    • EXPORTER 로그에서 내보내기 실패가 있는지 확인합니다.

    • 워크스페이스가 존재하고 올바르게 구성되었는지 확인합니다.

    • 수집기에 워크스페이스에 쓰는 데 필요한 권한이 있는지 확인합니다.

수집기 제공형 로그 액세스

수집기 제공형 로그는 Amazon CloudWatch Logs로 자동 전송됩니다. 이러한 로그에 액세스하려면 다음을 수행합니다.

  1. https://console.aws.amazon.com/cloudwatch/에서 CloudWatch 콘솔을 엽니다.

  2. 탐색 창에서 로그 그룹을 선택합니다.

  3. 수집기의 로그 그룹(/aws/prometheus/workspace_id/collector/collector_id)을 찾아 선택합니다.

  4. 로그 이벤트를 찾아보거나 검색하여 관련 정보를 찾습니다.

CloudWatch Logs Insights를 사용하여 수집기 로그를 쿼리하고 분석할 수도 있습니다. 예를 들어, 서비스 검색 오류를 모두 찾으려면 다음과 같이 합니다.

fields @timestamp, message.message | filter component = "SERVICE_DISCOVERY" and message.message like /Failed/ | sort @timestamp desc

수집기 모니터링 모범 사례

Amazon Managed Service for Prometheus 수집기를 효과적으로 모니터링하려면 다음을 수행합니다.

  1. 영구 스크래핑 실패 또는 내보내기 오류와 같은 중요한 수집기 문제에 대해 CloudWatch 경보를 설정합니다. 자세한 내용은 Amazon CloudWatch 사용 설명서에서 경보를 참조하세요.

  2. CloudWatch 대시보드를 생성하여 제공형 로그 데이터와 함께 수집기 성능 지표를 시각화합니다. 자세한 내용은 Amazon CloudWatch 사용 설명서에서 대시보드를 참조하세요.

  3. 서비스 검색 로그를 정기적으로 검토하여 대상이 올바르게 검색되고 있는지 확인합니다.

  4. 삭제된 대상 수를 모니터링하여 잠재적 구성 문제를 식별합니다.

  5. 내보내기 실패를 추적하여 지표가 워크스페이스로 성공적으로 전송되고 있는지 확인합니다.