本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
探索警报
本文档主题专为支持 Grafana 9.x 版本的 Grafana 工作区而设计。
对于支持 Grafana 10.x 版本的 Grafana 工作区,请参阅使用 Grafana 版本 10。
对于支持 Grafana 8.x 版本的 Grafana 工作区,请参阅使用 Grafana 版本 8。
无论您是开始使用还是扩展实施 Grafana Alerting,都可以了解关键概念和可用功能的更多信息,这些关键概念和可用功能可帮助您创建、管理和响应警报,并提高团队快速解决问题的能力。
首先,我们来看看 Grafana Alerting 提供的不同警报规则类型。
警报规则类型
Grafana 管理的警报
Grafana 管理的规则是最灵活的警报规则类型。通过这些规则,您可以创建警报,而这些警报可以作用于我们支持的任何数据来源中的数据。除了支持多个数据来源,您还可以添加表达式来转换数据和设置警报条件。这是唯一允许在单个规则定义中从多个数据来源发出警报的规则类型。
Mimir 和 Loki 规则
要创建 Mimir 或 Loki 警报,您必须拥有兼容的 Prometheus 或 Loki 数据来源。您可以通过测试数据来源并观察是否支持 Ruler API 来检查您的数据来源是否支持通过 Grafana 创建规则。
记录规则
记录规则仅适用于兼容的 Prometheus 或 Loki 数据来源。记录规则让您可以预先计算经常需要或计算开销较大的表达式,将其结果另存为一组新的时间序列。如果要对聚合数据运行警报,或者如果您的控制面板重复查询计算开销较大的表达式,此功能将非常有用。
关键概念和功能
下表列出了关键概念、功能及其定义,旨在帮助您充分利用 Grafana Alerting。
关键概念或功能 | 定义 |
---|---|
警报的数据来源 |
选择数据来源,从中查询指标、日志和跟踪,并以可视化方式展示。 |
警报预置 |
管理您的警报资源,并使用文件预置或 Terraform 将其预置到 Grafana 系统。 |
Alertmanager |
管理警报实例的路由和分组。 |
警报规则 |
用于确定警报规则何时触发的一组评估标准。警报规则包含一个或多个查询和表达式、一个条件、评估频率,以及满足条件的持续时间。一条警报规则可以生成多个警报实例。 |
警报实例 |
警报实例是警报规则的实例。单维警报规则有一个警报实例。多维警报规则有一个或多个警报实例。一条匹配多个结果的警报规则(例如针对 10 VMs 的 CPU 警报)会被计为多个警报实例(在这个例子中是 10 个)。这个数字可能会随时间变化。例如,对于监控系统 VMs 中所有警报规则,会随着 VMs 虚拟机的添加而拥有更多警报实例。有关警报实例配额的更多信息,请参阅 达到配额错误。 |
警报组 |
默认情况下,Alertmanager 使用根通知策略的标签对警报实例进行分组。这可以控制发送到联系点的警报实例的去重和分组。 |
联系点 |
定义触发警报规则时如何通知您的联系人。 |
消息模板 |
创建可重复使用的自定义模板,并在联系点中使用。 |
通知策略 |
一组规则,规定在何处、何时以及如何将警报分组并路由到联系点。 |
标签和标签匹配程序 |
标签可通过唯一方式标识警报规则。它们将警报规则与通知策略及静默关联起来,确定应由哪条策略处理这些警报规则,以及哪些警报规则应该被静默。 |
静默 |
停止来自一个或多个警报实例的通知。静默和静音定时的区别在于,静默会持续指定的时间,而静音定时则按计划重复。使用标签匹配程序可使警报实例静默。 |
静音定时 |
指定您不希望生成或发送新通知的时间间隔。您也可以在周期性时间段(如维护时间段)冻结警报通知。必须关联到现有通知策略。 |