기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
제공형 로그를 사용하여 수집기 모니터링
Amazon Managed Service for Prometheus 수집기는 지표 수집 프로세스를 모니터링하고 문제를 해결하는 데 도움이 되는 제공형 로그를 제공합니다. 이러한 로그는 Amazon CloudWatch Logs로 자동으로 전송되며 서비스 검색, 지표 수집 및 데이터 내보내기 작업에 대한 가시성을 제공합니다. 수집기는 지표 수집 파이프라인의 세 가지 주요 구성 요소에 대한 로그를 제공합니다.
서비스 검색 로그
서비스 검색 로그는 다음을 포함하여 대상 검색 프로세스에 대한 정보를 제공합니다.
-
Kubernetes API 리소스에 액세스할 때 발생하는 인증 또는 권한 문제
-
서비스 검색 설정의 구성 오류
다음 예제에서는 서비스 검색 중에 발생할 수 있는 일반적인 인증 및 권한 오류를 보여줍니다.
- Amazon EKS 클러스터가 존재하지 않음
-
지정된 Amazon EKS 클러스터가 없으면 다음 오류가 발생합니다.
{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source exists." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" } - 유효하지 않은 서비스 권한
-
서비스를 감시할 수 있는 적절한 역할 기반 액세스 제어(RBAC) 권한이 수집기에 없는 경우 다음 오류가 발생합니다.
{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" } - 유효하지 않은 엔드포인트 권한
-
엔드포인트를 감시할 수 있는 적절한 역할 기반 액세스 제어(RBAC) 권한이 수집기에 없는 경우 다음 오류가 발생합니다.
{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Endpoints - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
수집기 로그
수집기 로그는 다음을 포함하여 지표 스크래핑 프로세스에 대한 정보를 제공합니다.
-
엔드포인트를 사용할 수 없어 발생한 스크래핑 실패
-
대상 스크래핑 시도 시 발생한 연결 문제
-
스크래핑 작업 중 발생한 제한 시간 초과
-
스크래핑 대상에서 반환된 HTTP 상태 오류
다음 예제에서는 지표 스크래핑 프로세스 중에 발생할 수 있는 일반적인 수집기 오류를 보여줍니다.
- 지표 엔드포인트 누락
-
대상 인스턴스에서
/metrics엔드포인트를 사용할 수 없는 경우 다음 오류가 발생합니다.{ "component": "COLLECTOR", "message": { "log": "Failed to scrape Prometheus endpoint - verify /metrics endpoint is available", "job": "pod_exporter", "targetLabels": "{__name__=\"up\", instance=\10.24.34.0\", job=\"pod_exporter\"}" }, "timestamp": "1752787969551", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" } - 연결이 거부됨
-
수집기가 대상 엔드포인트에 연결할 수 없는 경우 다음 오류가 발생합니다.
{ "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "message": "Scrape failed", "scrape_pool": "pod_exporter", "target": "http://10.24.34.0:80/metrics", "error": "Get \"http://10.24.34.0:80/metrics\": dial tcp 10.24.34.0:80: connect: connection refused" }, "component": "COLLECTOR" }
Exporter 로그
Exporter 로그는 다음을 포함하여 수집된 지표를 Amazon Managed Service for Prometheus 워크스페이스로 보내는 프로세스에 대한 정보를 제공합니다.
-
처리된 지표 및 데이터 포인트 수
-
워크스페이스 문제로 인한 내보내기 실패
-
지표를 작성하려고 할 때 발생한 권한 오류
-
내보내기 파이프라인의 종속성 실패
다음 예제에서는 지표 내보내기 프로세스 중에 발생할 수 있는 일반적인 Exporter 오류를 보여줍니다.
- 워크스페이스를 찾을 수 없음
-
지표 내보내기를 위한 대상 워크스페이스를 찾을 수 없는 경우 다음 오류가 발생합니다.
{ "component": "EXPORTER", "message": { "log": "Failed to export to the target workspace - Verify your scraper destination.", "samplesDropped": 5 }, "timestamp": "1752787969664", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
수집기 제공형 로그 이해 및 사용
로그 구조
모든 수집기 제공형 로그는 다음 필드로 구성된 일관된 구조를 따릅니다.
- scrapeConfigId
-
해당 로그를 생성한 스크래핑 구성의 고유 식별자입니다.
- timestamp
-
로그 항목이 생성된 시간입니다.
- message
-
로그 메시지 콘텐츠로, 추가 구조화 필드가 포함될 수 있습니다.
- component
-
로그를 생성한 구성 요소입니다(SERVICE_DISCOVERY, COLLECTOR, EXPORTER).
문제 해결에 제공형 로그 사용
수집기 제공형 로그는 지표 수집과 관련된 일반적인 문제를 해결하는 데 도움이 됩니다.
-
서비스 검색 문제
-
SERVICE_DISCOVERY 로그에서 인증 또는 권한 오류가 있는지 확인합니다.
-
Kubernetes 리소스에 액세스하는 데 필요한 권한이 수집기에 있는지 확인합니다.
-
-
지표 스크래핑 문제
-
COLLECTOR 로그에서 스크래핑 실패가 있는지 확인합니다.
-
대상 엔드포인트에 액세스할 수 있고 지표를 반환하는지 확인합니다.
-
방화벽 규칙에 따라 수집기가 대상 엔드포인트에 연결할 수 있는지 확인합니다.
-
-
지표 내보내기 문제
-
EXPORTER 로그에서 내보내기 실패가 있는지 확인합니다.
-
워크스페이스가 존재하고 올바르게 구성되었는지 확인합니다.
-
수집기에 워크스페이스에 쓰는 데 필요한 권한이 있는지 확인합니다.
-
수집기 제공형 로그 액세스
수집기 제공형 로그는 Amazon CloudWatch Logs로 자동 전송됩니다. 이러한 로그에 액세스하려면 다음을 수행합니다.
-
https://console.aws.amazon.com/cloudwatch/
에서 CloudWatch 콘솔을 엽니다. -
탐색 창에서 로그 그룹을 선택합니다.
-
수집기의 로그 그룹(
/aws/prometheus/workspace_id/collector/collector_id)을 찾아 선택합니다. -
로그 이벤트를 찾아보거나 검색하여 관련 정보를 찾습니다.
CloudWatch Logs Insights를 사용하여 수집기 로그를 쿼리하고 분석할 수도 있습니다. 예를 들어, 서비스 검색 오류를 모두 찾으려면 다음과 같이 합니다.
fields @timestamp, message.message | filter component = "SERVICE_DISCOVERY" and message.message like /Failed/ | sort @timestamp desc
수집기 모니터링 모범 사례
Amazon Managed Service for Prometheus 수집기를 효과적으로 모니터링하려면 다음을 수행합니다.
-
영구 스크래핑 실패 또는 내보내기 오류와 같은 중요한 수집기 문제에 대해 CloudWatch 경보를 설정합니다. 자세한 내용은 Amazon CloudWatch 사용 설명서에서 경보를 참조하세요.
-
CloudWatch 대시보드를 생성하여 제공형 로그 데이터와 함께 수집기 성능 지표를 시각화합니다. 자세한 내용은 Amazon CloudWatch 사용 설명서에서 대시보드를 참조하세요.
-
서비스 검색 로그를 정기적으로 검토하여 대상이 올바르게 검색되고 있는지 확인합니다.
-
삭제된 대상 수를 모니터링하여 잠재적 구성 문제를 식별합니다.
-
내보내기 실패를 추적하여 지표가 워크스페이스로 성공적으로 전송되고 있는지 확인합니다.