本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Grafana 版本 12 中的警报
<a name="v12-alerts"></a>

****  
本文档主题专为**支持** Grafana 版本 12.x 的 Grafana 工作空间而设计。  
对于支持 Grafana 10.x 版本的 Grafana 工作区，请参阅[使用 Grafana 版本 10](using-grafana-v10.md)。  
对于支持 Grafana 9.x 版本的 Grafana 工作区，请参阅[使用 Grafana 版本 9](using-grafana-v9.md)。  
对于支持 Grafana 8.x 版本的 Grafana 工作区，请参阅[使用 Grafana 版本 8](using-grafana-v8.md)。

通过 Grafana Alerting，您可以在系统出现问题后立即了解情况。

监控传入的指标数据或日志条目，设置警报系统来监视特定事件或情况，然后在发现这些情况时发送通知。

这样，您就不再需要人工监控，还可以为系统中断或可能演变成重大事故的变更提供了第一道防线。

借助 Grafana Alerting，您可以从多个数据来源创建查询和表达式，无论数据存储在何处，都能够以新颖和独特的方式灵活组合数据，并针对指标和日志发出警报。然后，您可以从单一的整合视图中创建、管理和处理警报，从而提高团队快速发现和解决问题的能力。

通过 Mimir 和 Loki 警报规则，您可以更好地监控数据，并大规模警运行警报表达式，所有这些都由您所熟悉的 Grafana UI 管理。

**注意**  
现在，当查询单个数据源时，警报通知模板中的`$value`变量会返回查询值。查看使用`$value`和更新格式的警报模板（如果需要）。

## 主要功能和优势
<a name="v12-alerting-key-features"></a>

**单页显示所有警报**

单个 Grafana 警报页面将驻留在数据源中的 Prometheus-compatible 警报 Grafana-managed 和警报整合到一个地方。

**Multi-dimensional 警报**

警报规则可为每个警报规则创建多个单独的警报实例（称为多维警报），让您只需一个警报规则，就能获得对整个系统的可见性。为此，您可以在查询中添加标签以指定正在监控哪个组件，并为单个警报规则生成多个警报实例。例如，如果要监控集群中的每台服务器，则多维警报将针对每个 CPU 发出警报，而标准警报将针对整个服务器发出警报。

**路由警报**

根据您定义的标签，将每个警报实例路由到特定的联系点。通知策略是一组规则，规定了在何处、何时以及如何将警报分组并路由到联系点。

**静默警报**

静默会阻止创建通知，且只能在指定的时间段内持续。您可以通过静默停止接收来自一个或多个警报规则的持续通知。您也可以根据特定标准部分暂停警报。您可以创建适用于具有精细权限的特定警报规则的静音，从而提供更有针对性的警报抑制。静默有自己的专用部分，以便更好地整理和查看，让您可以扫描暂停的警报规则，而不会使主警报视图混乱。

**静音定时**

静音定时是一个重复的时间间隔，在此期间，不会针对某个策略生成或发送新的通知。使用静音定时可防止警报在特定的重复时间段（如定期维护时间段）内触发。

与静默类似，静音定时不会阻止对警报规则进行评估，也不会阻止警报实例显示在用户界面中。只会阻止创建通知。

## 设计警报系统
<a name="v12-alerting-design"></a>

监控复杂的 IT 系统并了解一切是否正常运行是一项艰巨的任务。因此，建立一个有效的警报管理系统至关重要，在出现问题时发出通知，以免对业务成果造成影响。

设计和配置有效的警报管理设置需要时间。

以下是有关如何为您的企业创建有效的警报管理设置的一些提示：

**您想要监控和发出警报的业务关键指标有哪些？**
+ 查找需要了解的重要事件，避免过于琐碎或频繁，以至于收件人忽略这些事件。
+ 仅为需要立即关注或干预的重大事件创建警报。
+ 考虑质量而不是数量。

**您想使用哪种类型的警报？**
+ 在 “ Grafana-managed 警报”、“Grafana Mimir Loki-managed” 或 “警报” 之间进行选择；或者两者兼而有之。

**您想如何整理警报和通知？**
+ 选择性地设置接收警报的对象。考虑将其发送给随时待命的人员或特定的 Slack 频道。
+ 使用 Alerting API 或警报即代码（Terraform）尽可能自动化。

**如何减少警觉疲劳？**
+ 使用静默、静音定时或暂停警报规则评估，避免发出不必要的噪音警报。
+ 不断调整警报规则，查看有效性。删除警报规则，避免警报重复或无效。
+ 仔细考虑优先级和严重性级别。
+ 持续查看阈值和评估规则。

## Grafana Alerting 限制
<a name="v12-alerting-limitations"></a>
+ 聚合来自其他系统的规则时，Grafana Alerting 系统可以从所有可用的 Amazon Managed Service for Prometheus、Prometheus、Loki 和 Alertmanager 数据来源中检索规则。但可能无法从其他受支持的数据来源获取规则。

**重要**  
Amazon Managed Grafana 的警报评估超时时间为 30 秒。由于警报引擎可以生成大量查询，因此警报所做的查询的最长持续时间为 30 秒。此超时不可配置。有关更多信息，请参阅中的[亚马逊托管 Grafana 服务](https://docs.aws.amazon.com/general/latest/gr/grafana-service.html#grafana-quotas)配额。*AWS 一般参考*

**Topics**
+ [主要功能和优势](#v12-alerting-key-features)
+ [设计警报系统](#v12-alerting-design)
+ [Grafana Alerting 限制](#v12-alerting-limitations)
+ [概述](v12-alerting-overview.md)
+ [设置警报](v12-alerting-setup.md)
+ [配置警报](v12-alerting-configure.md)
+ [管理警报](v12-alerting-manage.md)