異常検出 - Amazon Managed Service for Prometheus

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

異常検出

Amazon Managed Service for Prometheus は、機械学習アルゴリズムを使用してメトリクスデータの異常なパターンを自動的に識別する異常検出機能を提供します。この機能は、静的しきい値ではなく真に異常な動作に焦点を当てることにより、潜在的な問題を積極的に検出し、アラートの疲労を軽減し、モニタリングの有効性を向上させるのに役立ちます。

Amazon Managed Service for Prometheus の異常検出では、ランダムカットフォレスト (RCF) アルゴリズムを使用します。このアルゴリズムは、時系列データを分析して通常の動作パターンを確立し、それらのパターンからの偏差を特定します。このアルゴリズムは季節的な傾向に適応し、欠落したデータを適切に処理して、検出された異常の信頼度スコアを提供します。

異常検出が動作する仕組み

Amazon Managed Service for Prometheus の異常検出では、機械学習を使用して、手動しきい値設定なしでメトリクスデータの異常なパターンを特定します。システムは通常の動作パターンと季節的なバリエーションを学習し、誤検出を減らして、問題を早期に検出できるようにします。アプリケーションの変更に継続的に適応するため、動的なクラウド環境に適しています。

異常検出は、応答時間やエラー率などのアプリケーションパフォーマンスメトリクスをモニタリングし、CPU とメモリの使用状況を通じてインフラストラクチャの状態を追跡して、異常なユーザー動作を検出し、トラフィック分析を通じてキャパシティプランニングのニーズを特定して、予期しない変更がないかビジネスメトリクスをモニタリングします。予測可能なパターン、季節的な変動、または段階的な成長傾向に最適です。

ランダムカットフォレスト (RCF) アルゴリズムは、時系列データの分析に使用されます。RCF は、データスペースを分割し、正規分布から遠く離れた分離ポイントを識別する決定木を作成します。このアルゴリズムは、受信データから学習し、各メトリクスの通常の動作の動的モデルを構築します。

有効にすると、履歴データを分析してベースラインパターンと季節的傾向を確立し、予想される値の予測を生成して偏差を特定します。アルゴリズムは 4 つのキー出力を生成します。

  • upper_band - 予想される正常値の上限

  • lower_band - 予想される法線値の下限

  • score - データポイントの異常を示す数値異常スコア

  • value - 実際の観測メトリクス値

異常検出の開始方法

Prometheus メトリクスで異常検出の使用を開始するには、アルゴリズムが通常のパターンを学習するための十分な履歴データが必要です。最適な結果を得るためには、異常検出を有効にする前に、少なくとも 14 日間の一貫したメトリクスデータを用意することをお勧めします。

PreviewAnomalyDetector API を使用して、異常検出がメトリクスとどのように連携するかをプレビューできます。PreviewAnomalyDetector を使用して、履歴データに対してアルゴリズムをテストし、実稼働モニタリングに実装する前にその有効性を評価します。詳細については、「PreviewAnomalyDetector API」を参照してください。

異常検出を実装するときは、以下のベストプラクティスを考慮してください。

  • 安定したメトリクスから始める – 一貫したパターンを持つメトリクスから始め、最初は揮発性が高いデータやスパースなデータを避けます。

  • 集約データを使用する – パフォーマンスと精度を向上させるために、未加工の高カーディナリティデータではなく、集約されたメトリクス (平均や合計など) に異常検出を適用します。

  • 感度の調整 — 特定のユースケースと誤検出と見逃した異常の許容度に基づいてアルゴリズムパラメータを調整します。

  • アルゴリズムのパフォーマンスをモニタリングする – 検出された異常を定期的にレビューして、システムが進化するにつれてアルゴリズムが引き続き貴重なインサイトを提供していることを確認します。