Monitorar coletores com logs fornecidos - Amazon Managed Service for Prometheus

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Monitorar coletores com logs fornecidos

Os coletores do Amazon Managed Service for Prometheus oferecem logs fornecidos para ajudar você a monitorar e solucionar problemas no processo de coleta de métricas. Esses logs são enviados automaticamente ao Amazon CloudWatch Logs e fornecem visibilidade das operações de descoberta de serviços, coleta de métricas e exportação de dados. O coletor fornece logs para três componentes principais do pipeline de coleta de métricas:

Logs de descoberta de serviços

Os logs de descoberta de serviços fornecem informações sobre o processo de descoberta de destino, incluindo:

  • Problemas de autenticação ou permissão ao acessar os recursos da API Kubernetes.

  • Erros de configuração nas definições de descoberta de serviços.

Os exemplos a seguir demonstram erros comuns de autenticação e permissão na descoberta de serviços:

Cluster Amazon EKS inexistente

Quando o cluster do Amazon EKS especificado não existe, você recebe o seguinte erro:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source exists." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
Permissões inválidas para serviços

Quando o coletor não tem as permissões de controle de acesso baseado em perfil (RBAC) adequadas para monitorar os serviços, você recebe este erro:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
Permissões inválidas para endpoints

Quando o coletor não tem as permissões de controle de acesso baseado em perfil (RBAC) adequadas para monitorar os endpoints, você recebe este erro:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Endpoints - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

Logs do coletor

Os logs do coletor fornecem informações sobre o processo de extração métrica, incluindo:

  • Falhas de extração devido à indisponibilidade dos endpoints.

  • Problemas de conexão ao tentar extrair destinos.

  • Tempos limite durante as operações de extração.

  • Erros de status HTTP retornados por destinos de extração.

Os exemplos a seguir demonstram erros comuns do coletor que você encontra durante o processo de coleta de métricas:

Endpoint de métricas ausente

Quando o endpoint /metrics não está disponível na instância de destino, você recebe este erro:

{ "component": "COLLECTOR", "message": { "log": "Failed to scrape Prometheus endpoint - verify /metrics endpoint is available", "job": "pod_exporter", "targetLabels": "{__name__=\"up\", instance=\10.24.34.0\", job=\"pod_exporter\"}" }, "timestamp": "1752787969551", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
A conexão foi recusada

Quando o coletor não consegue estabelecer uma conexão com o endpoint de destino, você recebe este erro:

{ "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "message": "Scrape failed", "scrape_pool": "pod_exporter", "target": "http://10.24.34.0:80/metrics", "error": "Get \"http://10.24.34.0:80/metrics\": dial tcp 10.24.34.0:80: connect: connection refused" }, "component": "COLLECTOR" }

Logs do exportador

Os logs do exportador fornecem informações sobre o processo de envio de métricas coletadas para seu espaço de trabalho do Amazon Managed Service for Prometheus, incluindo:

  • Número de métricas e pontos de dados processados.

  • Falhas na exportação devido a problemas no espaço de trabalho.

  • Erros de permissão ao tentar gravar métricas.

  • Falhas de dependência no pipeline de exportação.

O exemplo a seguir demonstra um erro comum do exportador durante o processo de exportação de métricas:

Espaço de trabalho não encontrado

Quando o espaço de trabalho de destino para exportação de métricas não é encontrado, você recebe este erro:

{ "component": "EXPORTER", "message": { "log": "Failed to export to the target workspace - Verify your scraper destination.", "samplesDropped": 5 }, "timestamp": "1752787969664", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

Entender e usar logs fornecidos por coletores

Estrutura de logs

Todos os logs fornecidos por coletores seguem uma estrutura consistente com estes campos:

scrapeConfigId

O identificador exclusivo da configuração de extração que gerou o log.

timestamp

A hora em que a entrada do log foi gerada.

message

O conteúdo da mensagem de log, que pode incluir campos estruturados adicionais.

Componente do

O componente que gerou o log (SERVICE_DISCOVERY, COLLECTOR ou EXPORTER)

Usar logs fornecidos para solução de problemas

Os logs fornecidos por coletores ajudam a solucionar problemas comuns com coleta de métricas:

  1. Problemas de descoberta de serviços

    • Verifique os logs do SERVICE_DISCOVERY em busca de erros de autenticação ou permissão.

    • Verifique se o coletor tem as permissões necessárias para acessar os recursos do Kubernetes.

  2. Problemas de extração métrica

    • Verifique nos logs do COLLECTOR se há falhas de extração.

    • Verifique se os endpoints de destino estão acessíveis e retornam métricas.

    • Certifique-se de que as regras de firewall permitam que o coletor se conecte aos endpoints de destino.

  3. Problemas de exportação métrica

    • Verifique se há falhas na exportação nos logs do EXPORTER.

    • Verifique se o espaço de trabalho existe e se está configurado corretamente.

    • Certifique-se de que o coletor tenha as permissões necessárias para gravar no espaço de trabalho.

Acessar logs fornecidos por coletores

Os logs fornecidos por coletores são enviados automaticamente ao Amazon CloudWatch Logs. Como acessar esses logs:

  1. Abra o console do CloudWatch, em https://console.aws.amazon.com/cloudwatch/.

  2. No painel de navegação, escolha Grupos de logs.

  3. Encontre e selecione o grupo de logs para seu coletor:/aws/prometheus/workspace_id/collector/collector_id.

  4. Navegue ou pesquise os eventos de logs para encontrar informações relevantes.

Você também pode usar o CloudWatch Logs Insights para consultar e analisar seus logs do coletor. Por exemplo, para encontrar todos os erros de descoberta de serviços:

fields @timestamp, message.message | filter component = "SERVICE_DISCOVERY" and message.message like /Failed/ | sort @timestamp desc

Práticas recomendadas do monitoramento de coletores

Como monitorar com eficácia os coletores do Amazon Managed Service for Prometheus:

  1. Configure os alarmes do CloudWatch para problemas críticos do coletor, como falhas persistentes de extração ou erros de exportação. Consulte mais informações em Alarmes no Guia do usuário do Amazon CloudWatch.

  2. Crie painéis do CloudWatch para visualizar as métricas de desempenho do coletor junto com os dados de logs fornecidos. Para obter mais informações, consulte Painéis no Guia do usuário do Amazon CloudWatch.

  3. Analise regularmente os logs de descoberta de serviços para garantir que os destinos sejam descobertos corretamente.

  4. Monitore o número de destinos eliminados para identificar possíveis problemas de configuração.

  5. Acompanhe as falhas de exportação para garantir que as métricas sejam enviadas com sucesso ao seu espaço de trabalho.