使用 CloudWatch 指标监控亚马逊托管服务的 Prometheus 资源 - Amazon Managed Service for Prometheus

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 CloudWatch 指标监控亚马逊托管服务的 Prometheus 资源

适用于 Prometheus 的亚马逊托管服务将使用量指标提供给。 CloudWatch这些指标可让您了解您的工作区利用率。出售的指标可以在中的AWS/UsageAWS/Prometheus命名空间中找到。 CloudWatch这些指标是免费提供 CloudWatch的。有关使用率指标的更多信息,请参阅 CloudWatch 使用率指标。

CloudWatch 指标名称 资源名称 CloudWatch 命名空间 说明

ResourceCount*

CreateAlertManagerAlertsTPS

AWS/Usage

每个工作区、每秒可执行的 CreateAlertManagerAlerts API 操作的最大数量。

ResourceCount*

DeleteAlertManagerSilencesTPS

AWS/Usage

每个工作区、每秒可执行的 DeleteAlertManagerSilences API 操作的最大数量。

ResourceCount*

GetAlertManagerSilenceTPS

AWS/Usage

每个工作区、每秒可执行的 GetAlertManagerSilence API 操作的最大数量。

ResourceCount*

GetAlertManagerStatusTPS

AWS/Usage

每个工作区、每秒可执行的 GetAlertManagerStatus API 操作的最大数量。

ResourceCount*

GetLabelsTPS

AWS/Usage

每个工作区、每秒可执行的 GetLabels API 操作的最大数量。

ResourceCount*

GetMetricMetadataTPS

AWS/Usage

每个工作区、每秒可执行的 GetMetricMetadata API 操作的最大数量。

ResourceCount*

GetSeriesTPS

AWS/Usage

每个工作区、每秒可执行的 GetSeries API 操作的最大数量。

ResourceCount

InhibitionRulesInAlertManagerDefinition

AWS/Usage

警报管理器定义文件中最大的抑制规则数。

ResourceCount*

ListAlertManagerAlertGroupInfosTPS

AWS/Usage

每个工作区、每秒可执行的 ListAlertManagerAlertGroupInfos API 操作的最大数量。

ResourceCount*

ListAlertManagerAlertGroupsTPS

AWS/Usage

每个工作区、每秒可执行的 ListAlertManagerAlertGroups API 操作的最大数量。

ResourceCount*

ListAlertManagerAlertsTPS

AWS/Usage

每个工作区、每秒可执行的 ListAlertManagerAlerts API 操作的最大数量。

ResourceCount*

ListAlertManagerReceiversTPS

AWS/Usage

每个工作区、每秒可执行的 ListAlertManagerReceivers API 操作的最大数量。

ResourceCount*

ListAlertManagerSilencesTPS

AWS/Usage

每个工作区、每秒可执行的 ListAlertManagerSilences API 操作的最大数量。

ResourceCount*

ListAlertsTPS

AWS/Usage

每个工作区、每秒可执行的 ListAlerts API 操作的最大数量。

ResourceCount*

ListRulesTPS

AWS/Usage

每个工作区、每秒可执行的 ListRules API 操作的最大数量。

ResourceCount*

PutAlertManagerSilencesTPS

AWS/Usage

每个工作区、每秒可执行的 PutAlertManagerSilences API 操作的最大数量。

ResourceCount

HAReplicaGroupCount

AWS/Usage

高可用性副本组的数量

ResourceCount*

QueryMetricsTPS

AWS/Usage

每秒查询操作数

ResourceCount*

RemoteWriteTPS

AWS/Usage

每秒远程写入操作数

ResourceCount

ActiveAlerts

AWS/Usage

每个工作区的活动警报数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

ResourceCount

ActiveSeries

AWS/Usage

每个工作区的活跃系列数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

ResourceCount

AlertAggregationGroupSize

AWS/Usage

警报管理器定义文件中的警报聚合组的最大大小。group_by 的每个标签值组合都会创建一个聚合组。

ResourceCount

AlertManagerDefinitionSizeBytes

AWS/Usage

警报管理器定义文件的最大大小(以字节为单位)。

ResourceCount

AllSilences

AWS/Usage

每个工作区的最大静默数,包括已过期、活动和待处理的静默。

ResourceCount

AllAlerts

AWS/Usage

每个工作区处于任何状态的警报数量。

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

ResourceCount

IngestionRate

AWS/Usage

样本摄取率

单位:每秒计数

有效统计数据:Average、Minimum、Maximum、Sum

ResourceCount

RuleEvaluationInterval

AWS/Usage

最小规则评估间隔

ResourceCount

RuleGroupNamespaceDefinitionSizeBytes

AWS/Usage

一个规则组命名空间定义文件的最大大小(以字节为单位)。

ResourceCount

TemplatesInAlertManagerDefinition

AWS/Usage

警报管理器定义文件中的最大模板数。

ResourceCount

WorkspaceCount

AWS/Usage

每个区域、每个账户的最大工作区数量。

ResourceCount

SizeOfAlerts

AWS/Usage

工作区中所有警报的总大小,以字节为单位

单位:字节

有效统计数据:Average、Minimum、Maximum、Sum

ResourceCount

SuppressedAlerts

AWS/Usage

每个工作区处于抑制状态的警报数量。可以通过静默或抑制来抑制警报。

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

ResourceCount

UnprocessedAlerts

AWS/Usage

每个工作区处于未处理状态的警报数量。警报一经接收,即处于未处理状态 AlertManager,但正在等待下一次聚合组评估。

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

ResourceCount

AllAlerts

AWS/Usage

每个工作区处于任何状态的警报数量。

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

ResourceCount

AllRules

AWS/Usage

每个工作区处于任何状态的规则数量。

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

ActiveSeriesPerLabelSet

-

AWS/Prometheus

每个用户定义的标签集的当前活动系列使用情况

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

ActiveSeriesLimitPerLabelSet

-

AWS/Prometheus

每个用户定义的标签集的当前活动系列限制值

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

AlertManagerAlertsReceived

-

AWS/Prometheus

警报管理器收到的成功警报总数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

AlertManagerNotificationsFailed

-

AWS/Prometheus

发送失败的警报数量

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

AlertManagerNotificationsThrottled

-

AWS/Prometheus

限制的警报数量

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

AnomalyDetectors

WorkspaceId

AWS/Prometheus

给定工作区的异常检测器总数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

AnomalyDetectorEvaluations

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

异常检测器评估总数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

AnomalyDetectorEvaluationFailures

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

间隔内异常检测器失败的次数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

AnomalyDetectorLastEvaluationDuration

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

异常检测器上次评估的持续时间

单位:秒

有效统计数据:Average、Minimum、Maximum、Sum

AnomalyDetectorMissedEvaluations

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

间隔内错过的异常检测器评估次数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

DiscardedSamples**

-

AWS/Prometheus

按原因划分的丢弃样本数量

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

DiscardedSeries**

-

AWS/Prometheus

按原因包含丢弃样本的序列数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

DiscardedSamplesPerLabelSet

-

AWS/Prometheus

每个用户定义的标签集的丢弃样本计数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

DiscardedSeriesPerLabelSet

-

AWS/Prometheus

包含每个用户定义标签集的已丢弃样本的系列计数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

IngestionRatePerLabelSet

-

AWS/Prometheus

每个用户定义的标签集的摄取率

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

QuerySamplesProcessed

-

AWS/Prometheus

处理的查询样本数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

RuleEvaluations

-

AWS/Prometheus

规则评估总数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

RuleEvaluationFailures

-

AWS/Prometheus

间隔内规则评估失败的次数

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

RuleGroupIterationsMissed

-

AWS/Prometheus

间隔内错过的规则组迭代次数。

单位:计数

有效统计数据:Average、Minimum、Maximum、Sum

RuleGroupLastEvaluationDuration

-

AWS/Prometheus

规则组的上次评估的持续时间。

单位:秒

有效统计数据:Average、Minimum、Maximum、Sum

*TPS 指标每分钟生成一次,并且是该分钟内的每秒平均值。TPS 指标中不会捕捉到短暂的爆发期间。

**导致样本被丢弃的一些原因如下。并非以下所有原因都出现在 DiscardedSeries 指标中。

Reason

含义

greater_than_max_sample_age

丢弃超过一小时的样本。

new-value-for-timestamp

发送重复样本的时间戳与上一个样本的时间戳相同,但值不同。

per_labelset_series_limit

用户已达到每标签集的活跃系列总数上限。

per_metric_series_limit

用户已达到每个指标活跃系列数上限。

per_user_series_limit

用户已达到活跃系列总数上限。

rate_limited

摄取率受限制。

sample-out-of-order

样本发送顺序混乱,无法处理。

label_value_too_long

标签值超过支持的字符限制。

max_label_names_per_series

用户已达到每个指标的标签名称数。

missing_metric_name

未提供指标名称。

metric_name_invalid

提供的指标名称无效。

label_invalid

提供的标签无效。

duplicate_label_names

提供的标签名称重复。

注意

指标不存在或缺失等同于该指标的值为 0。

注意

RuleGroupIterationsMissedRuleEvaluationsRuleEvaluationFailuresRuleGroupLastEvaluationDuration 具有以下结构的 RuleGroup 维度:

RuleGroupNamespace;RuleGroup

对 Prometheus 出售的指标设置 CloudWatch 警报

您可以使用警报监控 Prometheus 资源的使用情况。 CloudWatch

在 Prometheus 中为 prometheus ActiveSeries中的数字设置警报
  1. 选择 “图表化指标” 选项卡,然后向下滚动到ActiveSeries标签。

    Graphed 指标视图中,只会显示当前所摄取的指标。

  2. 操作列中选择通知图标。

  3. 指定指标和条件中的条件值字段中输入阈值条件,然后选择下一步

  4. 配置操作中,选择现有的 SNS 主题或创建一个新 SNS 主题以将通知发送到该 SNS 主题。

  5. 添加名称和描述中,添加警报的名称和可选描述。

  6. 选择创建警报