本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 CloudWatch 指标监控亚马逊托管服务的 Prometheus 资源
适用于 Prometheus 的亚马逊托管服务将使用量指标提供给。 CloudWatch这些指标可让您了解您的工作区利用率。出售的指标可以在中的AWS/Usage和AWS/Prometheus命名空间中找到。 CloudWatch这些指标是免费提供 CloudWatch的。有关使用率指标的更多信息,请参阅 CloudWatch 使用率指标。
| CloudWatch 指标名称 | 资源名称 | CloudWatch 命名空间 | 说明 |
|---|---|---|---|
|
ResourceCount* |
CreateAlertManagerAlertsTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
DeleteAlertManagerSilencesTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
GetAlertManagerSilenceTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
GetAlertManagerStatusTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
GetLabelsTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
GetMetricMetadataTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
GetSeriesTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount |
InhibitionRulesInAlertManagerDefinition |
|
警报管理器定义文件中最大的抑制规则数。 |
|
ResourceCount* |
ListAlertManagerAlertGroupInfosTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
ListAlertManagerAlertGroupsTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
ListAlertManagerAlertsTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
ListAlertManagerReceiversTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
ListAlertManagerSilencesTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
ListAlertsTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
ListRulesTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount* |
PutAlertManagerSilencesTPS |
|
每个工作区、每秒可执行的 |
|
ResourceCount |
HAReplicaGroupCount |
|
高可用性副本组的数量 |
|
ResourceCount* |
QueryMetricsTPS |
|
每秒查询操作数 |
|
ResourceCount* |
RemoteWriteTPS |
|
每秒远程写入操作数 |
|
ResourceCount |
ActiveAlerts |
|
每个工作区的活动警报数 单位:计数 有效统计数据:平均值、最小值、最大值 |
|
ResourceCount |
ActiveSeries |
|
每个工作区的活跃系列数 单位:计数 有效统计数据:平均值、最小值、最大值 |
|
ResourceCount |
AlertAggregationGroupSize |
|
警报管理器定义文件中的警报聚合组的最大大小。 |
|
ResourceCount |
AlertManagerDefinitionSizeBytes |
|
警报管理器定义文件的最大大小(以字节为单位)。 |
|
ResourceCount |
AllSilences |
|
每个工作区的最大静默数,包括已过期、活动和待处理的静默。 |
|
ResourceCount |
IngestionRate |
|
样本摄取率 单位:每秒计数 有效统计数据:平均值、最小值、最大值 |
|
ResourceCount |
RuleEvaluationInterval |
|
最小规则评估间隔 |
|
ResourceCount |
RuleGroupNamespaceDefinitionSizeBytes |
|
一个规则组命名空间定义文件的最大大小(以字节为单位)。 |
|
ResourceCount |
TemplatesInAlertManagerDefinition |
|
警报管理器定义文件中的最大模板数。 |
|
ResourceCount |
WorkspaceCount |
|
每个区域、每个账户的最大工作区数量。 |
|
ResourceCount |
SizeOfAlerts |
|
工作区中所有警报的总大小,以字节为单位 单位:字节 有效统计数据:平均值、最小值、最大值 |
|
ResourceCount |
SuppressedAlerts |
|
每个工作区处于抑制状态的警报数量。可以通过静默或抑制来抑制警报。 单位:计数 有效统计数据:平均值、最小值、最大值 |
|
ResourceCount |
UnprocessedAlerts |
|
每个工作区处于未处理状态的警报数量。警报一经接收,即处于未处理状态 AlertManager,但正在等待下一次聚合组评估。 单位:计数 有效统计数据:平均值、最小值、最大值 |
|
ResourceCount |
AllAlerts |
|
每个工作区处于任何状态的警报数量 单位:计数 有效统计数据:平均值、最小值、最大值 |
|
ResourceCount |
AllRules |
|
每个工作区处于任何状态的规则数量 单位:计数 有效统计数据:平均值、最小值、最大值 |
|
ResourceCount |
NativeHistogramActiveSeries |
|
每个工作空间中唯一的原生直方图活动序列数 单位:计数 有效统计数据:平均值、最小值、最大值 |
|
ResourceCount |
NativeHistogramIngestionRate |
|
每个工作空间每秒的原生直方图样本摄取速率 单位:每秒计数 有效统计数据:平均值、最小值、最大值 |
ActiveSeriesPerLabelSet |
- |
|
每个用户定义的标签集的当前活动系列使用情况 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
ActiveSeriesLimitPerLabelSet |
- |
|
每个用户定义的标签集的当前活动系列限制值 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
AlertManagerAlertsReceived |
- |
|
警报管理器收到的成功警报总数 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
AlertManagerNotificationsFailed |
- |
|
发送失败的警报数量 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
AlertManagerNotificationsThrottled |
- |
|
限制的警报数量 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
AnomalyDetectors |
WorkspaceId |
|
给定工作区的异常检测器总数 单位:计数 有效统计数据:平均值、最小值、最大值 |
|
AnomalyDetectorEvaluations |
WorkspaceId, AnomalyDetectorId |
|
异常检测器评估总数 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
AnomalyDetectorEvaluationFailures |
WorkspaceId, AnomalyDetectorId |
|
间隔内异常检测器失败的次数 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
AnomalyDetectorLastEvaluationDuration |
WorkspaceId, AnomalyDetectorId |
|
异常检测器上次评估的持续时间 单位:秒 有效统计数据:Average、Minimum、Maximum、Sum |
|
AnomalyDetectorMissedEvaluations |
WorkspaceId, AnomalyDetectorId |
|
间隔内错过的异常检测器评估次数 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
DiscardedSamples** |
- |
|
按原因划分的丢弃样本数量 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
DiscardedSeries** |
- |
|
按原因包含丢弃样本的序列数 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
DiscardedSamplesPerLabelSet |
- |
|
每个用户定义的标签集的丢弃样本计数 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
DiscardedSeriesPerLabelSet |
- |
|
包含每个用户定义标签集的已丢弃样本的系列计数 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
IngestionRatePerLabelSet |
- |
|
每个用户定义的标签集的摄取率 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
NativeHistogramIngestedBucketsRate |
- |
|
所有原生直方图样本中每秒收到的已填充存储桶的速率。不包括被拒绝的存储桶。 单位:每秒计数 有效统计数据:平均值、最小值、最大值 |
|
NativeHistogramReducedResolutionCount |
- |
|
自动降低存储桶分辨率的原生直方图样本数量。当样本超过最大桶数限制时,分辨率会降低。 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
OutOfOrderIngestionRate |
- |
|
Out-of-order 样本摄取率 单位:每秒计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
OutOfOrderSampleAge*** |
- |
|
乱序样本的时间戳与其摄取时间之间的差异,它表示采集时样本的年龄。 单位:秒 有效统计数据:Average、Minimum、Maximum、Sum |
|
QuerySamplesProcessed |
- |
|
处理的查询样本数 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
RuleEvaluations |
- |
|
规则评估总数 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
RuleEvaluationFailures |
- |
|
间隔内规则评估失败的次数 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
RuleGroupIterationsMissed |
- |
|
间隔内错过的规则组迭代次数。 单位:计数 有效统计数据:Average、Minimum、Maximum、Sum |
|
RuleGroupLastEvaluationDuration |
- |
|
规则组的上次评估的持续时间。 单位:秒 有效统计数据:Average、Minimum、Maximum、Sum |
*TPS 指标每分钟生成一次,并且是该分钟内的每秒平均值。TPS 指标中不会捕捉到短暂的爆发期间。
**导致样本被丢弃的一些原因如下。并非以下所有原因都出现在 DiscardedSeries 指标中。
|
Reason |
含义 |
|---|---|
|
greater_than_max_sample_age |
丢弃超过一小时的样本。 |
|
new-value-for-timestamp |
发送重复样本的时间戳与上一个样本的时间戳相同,但值不同。 |
|
per_labelset_series_limit |
用户已达到每标签集的活跃系列总数上限。 |
|
per_metric_series_limit |
用户已达到每个指标活跃系列数上限。 |
|
per_user_series_limit |
用户已达到活跃系列总数上限。 |
|
rate_limited |
摄取率受限制。 |
|
sample-out-of-order |
样本发送顺序混乱,无法处理。 |
|
样本太陈旧了 |
样本早于配置的失序时间窗口,因此无法处理。 |
|
失序速率限制 |
Out-of-order 已达到摄取速率限制,无法处理样本。有关更多信息,请参阅 Amazon Managed Service for Prometheus 服务配额。 |
|
label_value_too_long |
标签值超过支持的字符限制。 |
|
max_label_names_per_series |
用户已达到每个指标的标签名称数。 |
|
missing_metric_name |
未提供指标名称。 |
|
metric_name_invalid |
提供的指标名称无效。 |
|
label_invalid |
提供的标签无效。 |
|
duplicate_label_names |
提供的标签名称重复。 |
|
已超出原生直方图样本大小字节 |
原生直方图样本超过允许的最大样本大小(以字节为单位)。 |
|
原生直方图无效架构 |
本机直方图的架构值无效。有效架构的范围从 -4 到 8。 |
|
原生直方图无效 |
原生直方图未能通过验证(例如,存储桶计数为负、存储桶计数不匹配或存储桶跨度格式错误)。 |
|
已超出原生直方图存储桶 |
原生直方图超过了最大存储桶数量限制,无法自动降低分辨率。 |
|
本机直方图速率有限 |
原生直方图样本被拒绝,因为已达到原生直方图摄取速率限制。 |
|
每用户本机直方图系列限制 |
用户已达到每个工作空间的本机直方图活动序列限制。 |
*** 该OutOfOrderSampleAge指标包括一个Percentile维度。您可以使用此指标来确定工作空间的相应失误时间窗口。该Percentile维度的有效值如下所示。
|
百分位数 |
说明 |
|---|---|
|
p50 |
乱序样本的第 50 个百分位数年龄。 |
|
p99 |
乱序样本的第 99 个百分位数年龄。 |
|
max |
乱序样本的最大使用年限。 |
注意
指标不存在或缺失等同于该指标的值为 0。
注意
RuleGroupIterationsMissed、RuleEvaluations、RuleEvaluationFailures 和 RuleGroupLastEvaluationDuration 具有以下结构的 RuleGroup 维度:
RuleGroupNamespace;RuleGroup
对 Prometheus 出售的指标设置 CloudWatch 警报
您可以使用警报监控 Prometheus 资源的使用情况。 CloudWatch
要在数量上设置警报 ActiveSeries 在 Prometheus 中
-
选择 “图表化指标” 选项卡,然后向下滚动到ActiveSeries标签。
在 Graphed 指标视图中,只会显示当前所摄取的指标。
-
在操作列中选择通知图标。
-
在指定指标和条件中的条件值字段中输入阈值条件,然后选择下一步。
-
在配置操作中,选择现有的 SNS 主题或创建一个新 SNS 主题以将通知发送到该 SNS 主题。
-
在添加名称和描述中,添加警报的名称和可选描述。
-
选择创建警报。