本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Grafana 版本 12 中的警报
本文档主题专为支持 Grafana 版本 12.x 的 Grafana 工作空间而设计。
对于支持 Grafana 10.x 版本的 Grafana 工作区,请参阅使用 Grafana 版本 10。
对于支持 Grafana 9.x 版本的 Grafana 工作区,请参阅使用 Grafana 版本 9。
对于支持 Grafana 8.x 版本的 Grafana 工作区,请参阅使用 Grafana 版本 8。
通过 Grafana Alerting,您可以在系统出现问题后立即了解情况。
监控传入的指标数据或日志条目,设置警报系统来监视特定事件或情况,然后在发现这些情况时发送通知。
这样,您就不再需要人工监控,还可以为系统中断或可能演变成重大事故的变更提供了第一道防线。
借助 Grafana Alerting,您可以从多个数据来源创建查询和表达式,无论数据存储在何处,都能够以新颖和独特的方式灵活组合数据,并针对指标和日志发出警报。然后,您可以从单一的整合视图中创建、管理和处理警报,从而提高团队快速发现和解决问题的能力。
通过 Mimir 和 Loki 警报规则,您可以更好地监控数据,并大规模警运行警报表达式,所有这些都由您所熟悉的 Grafana UI 管理。
注意
现在,当查询单个数据源时,警报通知模板中的$value变量会返回查询值。查看使用$value和更新格式的警报模板(如果需要)。
主要功能和优势
单页显示所有警报
单个 Grafana 警报页面将驻留在数据源中的 Prometheus-compatible 警报 Grafana-managed 和警报整合到一个地方。
Multi-dimensional 警报
警报规则可为每个警报规则创建多个单独的警报实例(称为多维警报),让您只需一个警报规则,就能获得对整个系统的可见性。为此,您可以在查询中添加标签以指定正在监控哪个组件,并为单个警报规则生成多个警报实例。例如,如果要监控集群中的每台服务器,则多维警报将针对每个 CPU 发出警报,而标准警报将针对整个服务器发出警报。
路由警报
根据您定义的标签,将每个警报实例路由到特定的联系点。通知策略是一组规则,规定了在何处、何时以及如何将警报分组并路由到联系点。
静默警报
静默会阻止创建通知,且只能在指定的时间段内持续。您可以通过静默停止接收来自一个或多个警报规则的持续通知。您也可以根据特定标准部分暂停警报。您可以创建适用于具有精细权限的特定警报规则的静音,从而提供更有针对性的警报抑制。静默有自己的专用部分,以便更好地整理和查看,让您可以扫描暂停的警报规则,而不会使主警报视图混乱。
静音定时
静音定时是一个重复的时间间隔,在此期间,不会针对某个策略生成或发送新的通知。使用静音定时可防止警报在特定的重复时间段(如定期维护时间段)内触发。
与静默类似,静音定时不会阻止对警报规则进行评估,也不会阻止警报实例显示在用户界面中。只会阻止创建通知。
设计警报系统
监控复杂的 IT 系统并了解一切是否正常运行是一项艰巨的任务。因此,建立一个有效的警报管理系统至关重要,在出现问题时发出通知,以免对业务成果造成影响。
设计和配置有效的警报管理设置需要时间。
以下是有关如何为您的企业创建有效的警报管理设置的一些提示:
您想要监控和发出警报的业务关键指标有哪些?
-
查找需要了解的重要事件,避免过于琐碎或频繁,以至于收件人忽略这些事件。
-
仅为需要立即关注或干预的重大事件创建警报。
-
考虑质量而不是数量。
您想使用哪种类型的警报?
-
在 “ Grafana-managed 警报”、“Grafana Mimir Loki-managed” 或 “警报” 之间进行选择;或者两者兼而有之。
您想如何整理警报和通知?
-
选择性地设置接收警报的对象。考虑将其发送给随时待命的人员或特定的 Slack 频道。
-
使用 Alerting API 或警报即代码(Terraform)尽可能自动化。
如何减少警觉疲劳?
-
使用静默、静音定时或暂停警报规则评估,避免发出不必要的噪音警报。
-
不断调整警报规则,查看有效性。删除警报规则,避免警报重复或无效。
-
仔细考虑优先级和严重性级别。
-
持续查看阈值和评估规则。
Grafana Alerting 限制
-
聚合来自其他系统的规则时,Grafana Alerting 系统可以从所有可用的 Amazon Managed Service for Prometheus、Prometheus、Loki 和 Alertmanager 数据来源中检索规则。但可能无法从其他受支持的数据来源获取规则。
重要
Amazon Managed Grafana 的警报评估超时时间为 30 秒。由于警报引擎可以生成大量查询,因此警报所做的查询的最长持续时间为 30 秒。此超时不可配置。有关更多信息,请参阅中的亚马逊托管 Grafana 服务配额。AWS 一般参考