提供されたログを使用してコレクターをモニタリングする - Amazon Managed Service for Prometheus

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

提供されたログを使用してコレクターをモニタリングする

Amazon Managed Service for Prometheus コレクターは、メトリクス収集プロセスのモニタリングとトラブルシューティングに役立つ公開ログを提供します。これらのログは自動的に Amazon CloudWatch Logs に送信され、サービス検出、メトリクス収集、データエクスポートオペレーションを可視化します。コレクターは、メトリクス収集パイプラインの 3 つの主要コンポーネントのログを提供します。

サービス検出ログ

サービス検出ログは、以下を含むターゲット検出プロセスに関する情報を提供します。

  • Kubernetes API リソースへのアクセス時の認証またはアクセス許可の問題。

  • サービス検出設定の設定エラー。

次の例は、サービス検出中に発生する可能性のある一般的な認証エラーとアクセス許可エラーを示しています。

存在しない Amazon EKS クラスター

指定された Amazon EKS クラスターが存在しない場合、次のエラーが表示されます。

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source exists." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
サービスの無効なアクセス許可

コレクターにサービスを監視するための適切なロールベースのアクセスコントロール (RBAC) アクセス許可がない場合、次のエラーが表示されます。

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
エンドポイントの無効なアクセス許可

コレクターにエンドポイントを監視するための適切なロールベースのアクセスコントロール (RBAC) アクセス許可がない場合、次のエラーが表示されます。

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Endpoints - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

コレクターログ

コレクターログは、以下を含むメトリクススクレイピングプロセスに関する情報を提供します。

  • エンドポイントが利用できないためのスクレイピングの失敗。

  • ターゲットをスクレイピングしようとするときの接続の問題。

  • スクレイピングオペレーション中のタイムアウト。

  • スクレイピングターゲットによって返される HTTP ステータスエラー。

次の例は、メトリクススクレイピングプロセス中に発生する可能性がある一般的なコレクターエラーを示しています。

欠落しているメトリクスエンドポイント

ターゲットインスタンスで /metrics エンドポイントが使用できない場合、次のエラーが表示されます。

{ "component": "COLLECTOR", "message": { "log": "Failed to scrape Prometheus endpoint - verify /metrics endpoint is available", "job": "pod_exporter", "targetLabels": "{__name__=\"up\", instance=\10.24.34.0\", job=\"pod_exporter\"}" }, "timestamp": "1752787969551", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
"Connection refused

コレクターがターゲットエンドポイントへの接続を確立できない場合、次のエラーが表示されます。

{ "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "message": "Scrape failed", "scrape_pool": "pod_exporter", "target": "http://10.24.34.0:80/metrics", "error": "Get \"http://10.24.34.0:80/metrics\": dial tcp 10.24.34.0:80: connect: connection refused" }, "component": "COLLECTOR" }

エクスポーターログ

エクスポーターログは、収集したメトリクスを Amazon Managed Service for Prometheus ワークスペースに送信するプロセスに関する、以下を含む情報を提供します。

  • 処理されたメトリクスとデータポイントの数。

  • ワークスペースの問題によるエクスポートの失敗。

  • メトリクスの書き込み試行時のアクセス許可エラー。

  • エクスポートパイプラインの依存関係の失敗。

次の例は、メトリクスのエクスポートプロセス中に発生する可能性がある一般的なエクスポーターエラーを示しています。

名前空間が見つからない

メトリクスエクスポートのターゲットワークスペースが見つからない場合、次のエラーが表示されます。

{ "component": "EXPORTER", "message": { "log": "Failed to export to the target workspace - Verify your scraper destination.", "samplesDropped": 5 }, "timestamp": "1752787969664", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

コレクター公開ログの理解と使用

ログ構造

すべてのコレクター公開ログは、以下のフィールドと一貫した構造に従います。

scrapeConfigId

ログを生成したスクレイピング設定の一意の識別子。

timestamp

ログエントリが生成された時刻。

@message

ログメッセージのコンテンツ。追加の構造化フィールドが含まれる場合があります。

コンポーネント

ログを生成したコンポーネント (SERVICE_DISCOVERY、COLLECTOR、または EXPORTER)

トラブルシューティングに公開ログを使用する

コレクター公開ログは、メトリクス収集に関する一般的な問題のトラブルシューティングに役立ちます。

  1. サービス検出の問題

    • SERVICE_DISCOVERY ログで認証エラーまたはアクセス許可エラーを確認します。

    • コレクターが Kubernetes リソースにアクセスするために必要なアクセス許可を持っていることを確認します。

  2. メトリクススクレイピングの問題

    • COLLECTOR ログでスクレイピングの失敗を確認します。

    • ターゲットエンドポイントがアクセス可能であり、メトリクスを返すことを確認します。

    • ファイアウォールルールで、コレクターのターゲットエンドポイントへの接続が許可されることを確認します。

  3. メトリクスエクスポートの問題

    • EXPORTER ログでエクスポートの失敗を確認します。

    • ワークスペースが存在し、正しく設定されていることを確認します。

    • コレクターにワークスペースへの書き込みに必要なアクセス許可があることを確認します。

コレクター公開ログへのアクセス

コレクター公開ログは、Amazon CloudWatch Logs に自動的に送信されます。これらのログにアクセスするには:

  1. CloudWatch コンソールの https://console.aws.amazon.com/cloudwatch/ を開いてください。

  2. ナビゲーションペインで、[Log groups] (ロググループ) を選択します。

  3. コレクター /aws/prometheus/workspace_id/collector/collector_id のロググループを見つけて選択します。

  4. ログイベントを参照または検索して、関連情報を検出します。

CloudWatch Logs Insights を使用してコレクターログをクエリおよび分析することもできます。例えば、すべてのサービス検出エラーを検出するには:

fields @timestamp, message.message | filter component = "SERVICE_DISCOVERY" and message.message like /Failed/ | sort @timestamp desc

コレクターをモニタリングするためのベストプラクティス

Amazon Managed Service for Prometheus コレクターを効果的にモニタリングするには:

  1. 永続的なスクレイピングエラーやエクスポートエラーなど、重要なコレクターの問題に対して CloudWatch アラームを設定します。詳細については、「Amazon CloudWatch ユーザーガイド」の「アラーム」を参照してください。

  2. CloudWatch ダッシュボードを作成して、公開されたログデータと共にコレクターのパフォーマンスメトリクスを視覚化します。詳細については、「Amazon CloudWatch ユーザーガイド」の「ダッシュボード」を参照してください。

  3. サービス検出ログを定期的に確認し、ターゲットが正しく検出されていることを確認します。

  4. 削除されたターゲットの数をモニタリングして、設定の潜在的な問題を特定します。

  5. エクスポートの失敗を追跡して、メトリクスがワークスペースに正常に送信されていることを確認します。