使用 CloudWatch 指标监控亚马逊托管服务的 Prometheus 资源

适用于 Prometheus 的亚马逊托管服务将使用量指标提供给。 CloudWatch这些指标可让您了解您的工作区利用率。出售的指标可以在中的AWS/Usage和AWS/Prometheus命名空间中找到。 CloudWatch这些指标是免费提供 CloudWatch的。有关使用率指标的更多信息，请参阅 CloudWatch 使用率指标。

CloudWatch 指标名称	资源名称	CloudWatch 命名空间	说明
ResourceCount^*	CreateAlertManagerAlertsTPS	`AWS/Usage`	每个工作区、每秒可执行的 `CreateAlertManagerAlerts` API 操作的最大数量。
ResourceCount^*	DeleteAlertManagerSilencesTPS	`AWS/Usage`	每个工作区、每秒可执行的 `DeleteAlertManagerSilences` API 操作的最大数量。
ResourceCount^*	GetAlertManagerSilenceTPS	`AWS/Usage`	每个工作区、每秒可执行的 `GetAlertManagerSilence` API 操作的最大数量。
ResourceCount^*	GetAlertManagerStatusTPS	`AWS/Usage`	每个工作区、每秒可执行的 `GetAlertManagerStatus` API 操作的最大数量。
ResourceCount^*	GetLabelsTPS	`AWS/Usage`	每个工作区、每秒可执行的 `GetLabels` API 操作的最大数量。
ResourceCount^*	GetMetricMetadataTPS	`AWS/Usage`	每个工作区、每秒可执行的 `GetMetricMetadata` API 操作的最大数量。
ResourceCount^*	GetSeriesTPS	`AWS/Usage`	每个工作区、每秒可执行的 `GetSeries` API 操作的最大数量。
ResourceCount	InhibitionRulesInAlertManagerDefinition	`AWS/Usage`	警报管理器定义文件中最大的抑制规则数。
ResourceCount^*	ListAlertManagerAlertGroupInfosTPS	`AWS/Usage`	每个工作区、每秒可执行的 `ListAlertManagerAlertGroupInfos` API 操作的最大数量。
ResourceCount^*	ListAlertManagerAlertGroupsTPS	`AWS/Usage`	每个工作区、每秒可执行的 `ListAlertManagerAlertGroups` API 操作的最大数量。
ResourceCount^*	ListAlertManagerAlertsTPS	`AWS/Usage`	每个工作区、每秒可执行的 `ListAlertManagerAlerts` API 操作的最大数量。
ResourceCount^*	ListAlertManagerReceiversTPS	`AWS/Usage`	每个工作区、每秒可执行的 `ListAlertManagerReceivers` API 操作的最大数量。
ResourceCount^*	ListAlertManagerSilencesTPS	`AWS/Usage`	每个工作区、每秒可执行的 `ListAlertManagerSilences` API 操作的最大数量。
ResourceCount^*	ListAlertsTPS	`AWS/Usage`	每个工作区、每秒可执行的 `ListAlerts` API 操作的最大数量。
ResourceCount^*	ListRulesTPS	`AWS/Usage`	每个工作区、每秒可执行的 `ListRules` API 操作的最大数量。
ResourceCount^*	PutAlertManagerSilencesTPS	`AWS/Usage`	每个工作区、每秒可执行的 `PutAlertManagerSilences` API 操作的最大数量。
ResourceCount	HAReplicaGroupCount	`AWS/Usage`	高可用性副本组的数量
ResourceCount^*	QueryMetricsTPS	`AWS/Usage`	每秒查询操作数
ResourceCount^*	RemoteWriteTPS	`AWS/Usage`	每秒远程写入操作数
ResourceCount	ActiveAlerts	`AWS/Usage`	每个工作区的活动警报数单位：计数有效统计数据：平均值、最小值、最大值
ResourceCount	ActiveSeries	`AWS/Usage`	每个工作区的活跃系列数单位：计数有效统计数据：平均值、最小值、最大值
ResourceCount	AlertAggregationGroupSize	`AWS/Usage`	警报管理器定义文件中的警报聚合组的最大大小。`group_by` 的每个标签值组合都会创建一个聚合组。
ResourceCount	AlertManagerDefinitionSizeBytes	`AWS/Usage`	警报管理器定义文件的最大大小（以字节为单位）。
ResourceCount	AllSilences	`AWS/Usage`	每个工作区的最大静默数，包括已过期、活动和待处理的静默。
ResourceCount	IngestionRate	`AWS/Usage`	样本摄取率单位：每秒计数有效统计数据：平均值、最小值、最大值
ResourceCount	RuleEvaluationInterval	`AWS/Usage`	最小规则评估间隔
ResourceCount	RuleGroupNamespaceDefinitionSizeBytes	`AWS/Usage`	一个规则组命名空间定义文件的最大大小（以字节为单位）。
ResourceCount	TemplatesInAlertManagerDefinition	`AWS/Usage`	警报管理器定义文件中的最大模板数。
ResourceCount	WorkspaceCount	`AWS/Usage`	每个区域、每个账户的最大工作区数量。
ResourceCount	SizeOfAlerts	`AWS/Usage`	工作区中所有警报的总大小，以字节为单位单位：字节有效统计数据：平均值、最小值、最大值
ResourceCount	SuppressedAlerts	`AWS/Usage`	每个工作区处于抑制状态的警报数量。可以通过静默或抑制来抑制警报。单位：计数有效统计数据：平均值、最小值、最大值
ResourceCount	UnprocessedAlerts	`AWS/Usage`	每个工作区处于未处理状态的警报数量。警报一经接收，即处于未处理状态 AlertManager，但正在等待下一次聚合组评估。单位：计数有效统计数据：平均值、最小值、最大值
ResourceCount	AllAlerts	`AWS/Usage`	每个工作区处于任何状态的警报数量单位：计数有效统计数据：平均值、最小值、最大值
ResourceCount	AllRules	`AWS/Usage`	每个工作区处于任何状态的规则数量单位：计数有效统计数据：平均值、最小值、最大值
ResourceCount	NativeHistogramActiveSeries	`AWS/Usage`	每个工作空间中唯一的原生直方图活动序列数单位：计数有效统计数据：平均值、最小值、最大值
ResourceCount	NativeHistogramIngestionRate	`AWS/Usage`	每个工作空间每秒的原生直方图样本摄取速率单位：每秒计数有效统计数据：平均值、最小值、最大值
ActiveSeriesPerLabelSet	-	`AWS/Prometheus`	每个用户定义的标签集的当前活动系列使用情况单位：计数有效统计数据：Average、Minimum、Maximum、Sum
ActiveSeriesLimitPerLabelSet	-	`AWS/Prometheus`	每个用户定义的标签集的当前活动系列限制值单位：计数有效统计数据：Average、Minimum、Maximum、Sum
AlertManagerAlertsReceived	-	`AWS/Prometheus`	警报管理器收到的成功警报总数单位：计数有效统计数据：Average、Minimum、Maximum、Sum
AlertManagerNotificationsFailed	-	`AWS/Prometheus`	发送失败的警报数量单位：计数有效统计数据：Average、Minimum、Maximum、Sum
AlertManagerNotificationsThrottled	-	`AWS/Prometheus`	限制的警报数量单位：计数有效统计数据：Average、Minimum、Maximum、Sum
AnomalyDetectors	WorkspaceId	`AWS/Prometheus`	给定工作区的异常检测器总数单位：计数有效统计数据：平均值、最小值、最大值
AnomalyDetectorEvaluations	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	异常检测器评估总数单位：计数有效统计数据：Average、Minimum、Maximum、Sum
AnomalyDetectorEvaluationFailures	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	间隔内异常检测器失败的次数单位：计数有效统计数据：Average、Minimum、Maximum、Sum
AnomalyDetectorLastEvaluationDuration	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	异常检测器上次评估的持续时间单位：秒有效统计数据：Average、Minimum、Maximum、Sum
AnomalyDetectorMissedEvaluations	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	间隔内错过的异常检测器评估次数单位：计数有效统计数据：Average、Minimum、Maximum、Sum
DiscardedSamples^**	-	`AWS/Prometheus`	按原因划分的丢弃样本数量单位：计数有效统计数据：Average、Minimum、Maximum、Sum
DiscardedSeries^**	-	`AWS/Prometheus`	按原因包含丢弃样本的序列数单位：计数有效统计数据：Average、Minimum、Maximum、Sum
DiscardedSamplesPerLabelSet	-	`AWS/Prometheus`	每个用户定义的标签集的丢弃样本计数单位：计数有效统计数据：Average、Minimum、Maximum、Sum
DiscardedSeriesPerLabelSet	-	`AWS/Prometheus`	包含每个用户定义标签集的已丢弃样本的系列计数单位：计数有效统计数据：Average、Minimum、Maximum、Sum
IngestionRatePerLabelSet	-	`AWS/Prometheus`	每个用户定义的标签集的摄取率单位：计数有效统计数据：Average、Minimum、Maximum、Sum
NativeHistogramIngestedBucketsRate	-	`AWS/Prometheus`	所有原生直方图样本中每秒收到的已填充存储桶的速率。不包括被拒绝的存储桶。单位：每秒计数有效统计数据：平均值、最小值、最大值
NativeHistogramReducedResolutionCount	-	`AWS/Prometheus`	自动降低存储桶分辨率的原生直方图样本数量。当样本超过最大桶数限制时，分辨率会降低。单位：计数有效统计数据：Average、Minimum、Maximum、Sum
OutOfOrderIngestionRate	-	`AWS/Prometheus`	Out-of-order 样本摄取率单位：每秒计数有效统计数据：Average、Minimum、Maximum、Sum
OutOfOrderSampleAge^***	-	`AWS/Prometheus`	乱序样本的时间戳与其摄取时间之间的差异，它表示采集时样本的年龄。单位：秒有效统计数据：Average、Minimum、Maximum、Sum
QuerySamplesProcessed	-	`AWS/Prometheus`	处理的查询样本数单位：计数有效统计数据：Average、Minimum、Maximum、Sum
RuleEvaluations	-	`AWS/Prometheus`	规则评估总数单位：计数有效统计数据：Average、Minimum、Maximum、Sum
RuleEvaluationFailures	-	`AWS/Prometheus`	间隔内规则评估失败的次数单位：计数有效统计数据：Average、Minimum、Maximum、Sum
RuleGroupIterationsMissed	-	`AWS/Prometheus`	间隔内错过的规则组迭代次数。单位：计数有效统计数据：Average、Minimum、Maximum、Sum
RuleGroupLastEvaluationDuration	-	`AWS/Prometheus`	规则组的上次评估的持续时间。单位：秒有效统计数据：Average、Minimum、Maximum、Sum

^*TPS 指标每分钟生成一次，并且是该分钟内的每秒平均值。TPS 指标中不会捕捉到短暂的爆发期间。

^**导致样本被丢弃的一些原因如下。并非以下所有原因都出现在 DiscardedSeries 指标中。

Reason	含义
greater_than_max_sample_age	丢弃超过一小时的样本。
new-value-for-timestamp	发送重复样本的时间戳与上一个样本的时间戳相同，但值不同。
per_labelset_series_limit	用户已达到每标签集的活跃系列总数上限。
per_metric_series_limit	用户已达到每个指标活跃系列数上限。
per_user_series_limit	用户已达到活跃系列总数上限。
rate_limited	摄取率受限制。
sample-out-of-order	样本发送顺序混乱，无法处理。
样本太陈旧了	样本早于配置的失序时间窗口，因此无法处理。
失序速率限制	Out-of-order 已达到摄取速率限制，无法处理样本。有关更多信息，请参阅 Amazon Managed Service for Prometheus 服务配额。
label_value_too_long	标签值超过支持的字符限制。
max_label_names_per_series	用户已达到每个指标的标签名称数。
missing_metric_name	未提供指标名称。
metric_name_invalid	提供的指标名称无效。
label_invalid	提供的标签无效。
duplicate_label_names	提供的标签名称重复。
已超出原生直方图样本大小字节	原生直方图样本超过允许的最大样本大小（以字节为单位）。
原生直方图无效架构	本机直方图的架构值无效。有效架构的范围从 -4 到 8。
原生直方图无效	原生直方图未能通过验证（例如，存储桶计数为负、存储桶计数不匹配或存储桶跨度格式错误）。
已超出原生直方图存储桶	原生直方图超过了最大存储桶数量限制，无法自动降低分辨率。
本机直方图速率有限	原生直方图样本被拒绝，因为已达到原生直方图摄取速率限制。
每用户本机直方图系列限制	用户已达到每个工作空间的本机直方图活动序列限制。

^*** 该OutOfOrderSampleAge指标包括一个Percentile维度。您可以使用此指标来确定工作空间的相应失误时间窗口。该Percentile维度的有效值如下所示。

百分位数	说明
p50	乱序样本的第 50 个百分位数年龄。
p99	乱序样本的第 99 个百分位数年龄。
max	乱序样本的最大使用年限。

注意

指标不存在或缺失等同于该指标的值为 0。

注意

RuleGroupIterationsMissed、RuleEvaluations、RuleEvaluationFailures 和 RuleGroupLastEvaluationDuration 具有以下结构的 RuleGroup 维度：

RuleGroupNamespace;RuleGroup

对 Prometheus 出售的指标设置 CloudWatch 警报

您可以使用警报监控 Prometheus 资源的使用情况。 CloudWatch

要在数量上设置警报 ActiveSeries 在 Prometheus 中

选择 “图表化指标” 选项卡，然后向下滚动到ActiveSeries标签。

在 Graphed 指标视图中，只会显示当前所摄取的指标。
在操作列中选择通知图标。
在指定指标和条件中的条件值字段中输入阈值条件，然后选择下一步。
在配置操作中，选择现有的 SNS 主题或创建一个新 SNS 主题以将通知发送到该 SNS 主题。
在添加名称和描述中，添加警报的名称和可选描述。
选择创建警报。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

监控工作区

CloudWatch 日志