Grafana マネージドアラートルールを設定する - Amazon Managed Grafana

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Grafana マネージドアラートルールを設定する

このドキュメントのトピックは、Grafana バージョン 10.x をサポートする Grafana ワークスペース向けです。

Grafana バージョン 9.x をサポートする Grafana ワークスペースについては、「Grafana バージョン 9 での作業」を参照してください。

Grafana バージョン 8.x をサポートする Grafana ワークスペースについては、「Grafana バージョン 8 での作業」を参照してください。

Grafana マネージドルールは、最も柔軟なアラートルールの種類です。これにより、サポートされている任意のデータソースのデータに対して動作するアラートを作成できます。複数のデータソースをサポートするだけでなく、式を追加してデータを変換し、アラート条件を設定することもできます。アラート通知での画像の使用もサポートされています。これは、単一のルール定義で複数のデータソースからのアラートを許可する唯一のルールタイプです。

1 つのアラートルール (多次元アラートとも呼ばれます) の結果として、複数のアラートインスタンスを作成できます。

Grafana マネージドアラートルールは、ルールを保存するフォルダの編集権限を持つユーザーのみが編集または削除できます。

UI で作成されたアラートリソースを削除すると、そのリソースを取得できなくなります。設定のバックアップを作成し、削除されたアラートリソースを復元できるようにするには、Terraform またはアラート API を使用してアラートリソースを作成します。

以下の手順では、Grafana マネージドアラートルールを作成するプロセスについて説明します。

Grafanaマネージドアラートルールを作成するには、ワークスペース内のアラート作成フローを使用し、以下の手順に従います。

アラートルール名を設定する
  1. [アラート] -> [アラートルール] -> [+ 新しいアラートルール] を選択します。

  2. アラートルールを識別する名前を入力します。

    この名前はアラートルールリストに表示されます。またこの名前は、このルールから作成されるすべてのアラートインスタンスの alertname ラベルにもなります。

次に、測定するデータと、アラートルールを起動する前に満たす必要がある条件を取得するクエリを定義します。

クエリと条件の定義方法
  1. データソースの選択。

  2. [オプション] ドロップダウンから、[時間範囲] を指定します。

    注記

    Grafana アラートは、now-24hr: now などの固定相対時間範囲のみをサポートします。

    絶対時間範囲 2021-12-02 00:00:00 to 2021-12-05 23:59:592 または半相対時間範囲 now/d to: now はサポートされていません。

  3. クエリを追加します。

    複数のクエリを追加するには、[クエリの追加] を選択します。

    すべてのアラートルールは、デフォルトで Grafana が管理します。データソース管理のアラートルールに切り替える場合は、[データソースマネージドアラートルールに切り替える] をクリックします。

  4. 1 つ以上のを追加します。

    1. 式ごとに [クラシック条件]を選択して単一のアラートルールを作成するか、[Math][削減][リサンプリング] オプションから選択して、各シリーズに個別のアラートを作成します。

      注記

      Prometheus を使用する場合、インスタントベクトルと組み込み関数を使用できます。そのため、式を追加する必要はありません。

    2. [プレビュー] を選択して、式が成功したことを確認します。

  5. [オプション] 復旧しきい値を追加するには、[カスタム復旧しきい値] のトグルをオンにして、アラートルールが発射を停止するタイミングの値を入力します。

    クエリに追加できる復旧しきい値は 1 つだけで、アラート条件である必要があります。

  6. アラート条件を設定するクエリまたは式で [Set as alert condition (アラート条件として設定)] を選択します。

アラートルールの評価を使用して、アラートルールを評価する頻度と状態の変更速度を決定します。

これを行うには、アラートルールが適切な評価グループにあることを確認し、ユースケースに最適な保留期間を設定する必要があります。

アラート評価の動作の設定方法
  1. フォルダを選択するか、[+ 新しいフォルダ] を選択します。

  2. 評価グループを選択するか、[+ 新しい評価グループ] を選択します。

    新しい評価グループを作成するには、グループの間隔を指定します。

    同じグループ内のすべてのルールは、同じ時間間隔で同時に評価されます。

  3. 保留期間を入力します。

    保留期間は、アラートルールが発射するまで条件に違反している可能性がある期間です。

    条件が満たされると、アラートは保留状態になります。指定された期間、条件がアクティブなままの場合、アラートは発射状態に移行します。アクティブでない場合は[普通]状態に戻ります。

  4. 必要に応じて、アラート通知の一時停止を有効にします。

    注記

    アラートルールの評価を一時停止して、アラートの調整中にノイズの多いアラートが発生しないようにします。一時停止すると、アラートルールの評価が停止し、アラートインスタンスは作成されません。これは、通知の配信を停止するミュートのタイミングとは異なりますが、アラートルールの評価とアラートインスタンスの作成は可能です。

    アラートの調整中にアラートルールの評価を一時停止して、ノイズの多いアラートを防ぐことができます。一時停止すると、アラートルールの評価が停止し、アラートインスタンスは作成されません。これは、通知の配信を停止するミュートのタイミングとは異なりますが、アラートルールの評価とアラートインスタンスの作成は可能です。

  5. [Configure no data and error handling] (データなしとエラー処理の設定) で、データがない場合のアラート動作を設定します。

    このセクションの後半のガイドラインに従います。

アラートルールにラベルを追加して、発射アラートインスタンスを処理する通知ポリシーを設定します。

ラベルに関係なく、すべてのアラートルールとインスタンスはデフォルトの通知ポリシーと一致します。ネストされたポリシーがない場合、またはネストされたポリシーがアラートルールまたはアラートインスタンスのラベルと一致しない場合、デフォルトの通知ポリシーは一致するポリシーです。

通知を設定するには
  1. 通知のルーティング方法を変更するには、ラベルを追加します。

    ドロップダウンから既存のキーと値のペアを選択してカスタムラベルを追加するか、新しいキーまたは値を入力して新しいラベルを追加します。

  2. アラートインスタンスのルーティング設定をプレビューします。

    追加されたラベルに基づいて、アラートインスタンスは表示された通知ポリシーにルーティングされます。

    各通知ポリシーを展開して、詳細を表示します。

  3. [詳細を表示] を選択して、アラートルーティングの詳細とプレビューを表示します。

注釈を追加して、アラート通知メッセージにアラートに関するコンテキストをさらに提供できます。

注釈は、アラート通知メッセージのアラートに関する詳細情報を提供するメタデータを追加します。例えば、アラートが発生した値や発生したサーバーを示すサマリー注釈を追加します。

注釈を追加するには
  1. [オプション] 概要を追加します。

    何が起こったのか、その理由の簡単な概要。

  2. (オプション) 説明を追加します。

    アラートルールの動作の説明。

  3. [オプション] ランブック URL を追加します。

    アラートのランブックを保持するウェブページ

  4. [オプション] カスタム注釈を追加します

  5. [オプション] ダッシュボードとパネルリンクを追加します。

    アラートをダッシュボードのパネルにリンクします。

  6. [ルールを保存] を選択します。

1 次元ルールと多次元ルール

Grafana マネージドアラートの場合、従来の条件を使用してルールを作成することも、多次元ルールを作成することもできます。

  • クラシック条件のルール

    従来の条件式を使用して、条件が満たされたときに単一のアラートを発射するルールを作成します。複数のシリーズを返すクエリの場合、Grafana は各シリーズのアラート状態を追跡しません。そのため、複数のシリーズでアラート条件が満たされた場合でも、Grafana が送信するアラートは 1 件のみです。

  • 多次元ルール

    シリーズごとに個別のアラートを生成するには、多次元ルールを作成します。MathReduce、または Resample 式を使用して、多次元ルールを作成します。例:

    • 各クエリの Reduce 式を追加して、選択した時間範囲の値を 1 つの値に集計します (数値データを使用するルールには必要ありません)。

    • ルールの条件を含む Math 式を追加します。クエリまたは縮小式が、ルールが発射されない場合に 0 を、発射すべき場合は正の数を返すのならば不要です。例: B クエリ/式が 70 を超える時に発射する場合は $B > 70。B の値が C の値に 100 を掛けた時に発射する場合は $B < $C * 100。比較対象のクエリの結果に複数のシリーズがある場合、異なるクエリのシリーズが同じラベルを持っているか、一方が他方のサブセットである場合に一致します。

注記

Grafana は、テンプレート変数を使用したアラートクエリはサポートしていません。詳細については、https://community.grafana.com/t/template-variables-are-not-supported-in-alert-queries-while-setting-up-alert/2514 を参照してください。

データなしまたはエラー処理の設定

アラートルールの評価がデータなしまたはエラーを返すアラートルール評価時のアラート行動を設定します。

注記

評価がデータなしまたはエラーを返したときに発射するように設定されているアラートルールは、評価期間全体が終了したときにのみ発動します。つまり、アラートルール条件に違反した場合にすぐに発射するのではなく、アラートルールは For フィールドとして設定された時間が終了するまで待機してから発車することで、アラートノイズを減らし、一時的なデータ可用性の問題を回避します。

アラートルールの評価でデータなしが返される場合は、次のようにアラートルールの状態を設定できます。

データなし 説明
データなし アラートルールの名前と UID、およびラベルとしてデータを返さないデータソースの UID を使用した新しいアラート DatasourceNoData を作成します。
[アラート] アラートルールの状態を Alerting に設定します。アラートルールは、For フィールドで設定された時間が終わるまで待機してから発射します。
OK アラートルールの状態を Normal に設定します。

評価でエラーが返された場合は、アラートルールの状態を次のように設定できます。

エラー 説明
エラー アラートルールの名前と UID、およびラベルとしてデータを返さないデータソースの UID を使用したアラートインスタンス DatasourceError を作成します。
[アラート] アラートルールの状態を Alerting に設定します。アラートルールは、For フィールドで設定された時間が終わるまで待機してから発射します。
OK アラートルールの状態を Normal に設定します。

古いアラートインスタンスを解決する

アラートインスタンスのディメンションまたはシリーズが 2 つの評価間隔でクエリ結果から完全に消えた場合、アラートインスタンスは「古い」と見なされます。

Alerting/NoData/Error 状態にある古いアラートインスタンスは、自動的に Resolved とマークされ、grafana_state_reason 注釈が理由 MissingSeries でアラートインスタンスに追加されます。

パネルからアラートを作成する

任意のパネルタイプからアラートを作成します。つまり、パネル内のクエリを再利用し、それに基づいてアラートを作成できます。

  1. ダッシュボードセクションの[ダッシュボード] に移動します。

  2. パネルの右上隅で、3 つのドット (楕円) を選択します。

  3. ドロップダウンメニューから、[More...] (その他...) を選択し、[新しいアラートルール] を選択します。

これにより、アラートルールフォームが開き、現在のパネルのクエリーに基づいてアラートを設定および作成できます。