使用 CloudWatch 指標監控 Amazon Managed Service for Prometheus 資源

Amazon Managed Service for Prometheus 將用量指標出售給 CloudWatch。這些指標提供有關工作區使用率的可見性。您可以在 CloudWatch 中的 AWS/Usage 和 AWS/Prometheus 命名空間中找到付費指標。CloudWatch 中的這些指標可免費使用。如需有關用量指標的詳細資訊，請參閱 CloudWatch 用量指標。

CloudWatch 指標名稱	資源名稱	CloudWatch 命名空間	說明
ResourceCount^*	CreateAlertManagerAlertsTPS	`AWS/Usage`	每個工作區每秒的 `CreateAlertManagerAlerts` API 操作數目上限
ResourceCount^*	DeleteAlertManagerSilencesTPS	`AWS/Usage`	每個工作區每秒的 `DeleteAlertManagerSilences` API 操作數目上限
ResourceCount^*	GetAlertManagerSilenceTPS	`AWS/Usage`	每個工作區每秒的 `GetAlertManagerSilence` API 操作數目上限
ResourceCount^*	GetAlertManagerStatusTPS	`AWS/Usage`	每個工作區每秒的 `GetAlertManagerStatus` API 操作數目上限
ResourceCount^*	GetLabelsTPS	`AWS/Usage`	每個工作區每秒的 `GetLabels` API 操作數目上限
ResourceCount^*	GetMetricMetadataTPS	`AWS/Usage`	每個工作區每秒的 `GetMetricMetadata` API 操作數目上限
ResourceCount^*	GetSeriesTPS	`AWS/Usage`	每個工作區每秒的 `GetSeries` API 操作數目上限
ResourceCount	InhibitionRulesInAlertManagerDefinition	`AWS/Usage`	警示管理員定義檔案中抑制規則的數量上限。
ResourceCount^*	ListAlertManagerAlertGroupInfosTPS	`AWS/Usage`	每個工作區每秒的 `ListAlertManagerAlertGroupInfos` API 操作數目上限
ResourceCount^*	ListAlertManagerAlertGroupsTPS	`AWS/Usage`	每個工作區每秒的 `ListAlertManagerAlertGroups` API 操作數目上限
ResourceCount^*	ListAlertManagerAlertsTPS	`AWS/Usage`	每個工作區每秒的 `ListAlertManagerAlerts` API 操作數目上限
ResourceCount^*	ListAlertManagerReceiversTPS	`AWS/Usage`	每個工作區每秒的 `ListAlertManagerReceivers` API 操作數目上限
ResourceCount^*	ListAlertManagerSilencesTPS	`AWS/Usage`	每個工作區每秒的 `ListAlertManagerSilences` API 操作數目上限
ResourceCount^*	ListAlertsTPS	`AWS/Usage`	每個工作區每秒的 `ListAlerts` API 操作數目上限
ResourceCount^*	ListRulesTPS	`AWS/Usage`	每個工作區每秒的 `ListRules` API 操作數目上限
ResourceCount^*	PutAlertManagerSilencesTPS	`AWS/Usage`	每個工作區每秒的 `PutAlertManagerSilences` API 操作數目上限
ResourceCount	HAReplicaGroupCount	`AWS/Usage`	高可用性複本群組的數量
ResourceCount^*	QueryMetricsTPS	`AWS/Usage`	每秒查詢操作數
ResourceCount^*	RemoteWriteTPS	`AWS/Usage`	每秒遠端寫入操作
ResourceCount	ActiveAlerts	`AWS/Usage`	每個工作區的啟用中警示數量單位：Count 有效統計資料：平均、最小值、最大值
ResourceCount	ActiveSeries	`AWS/Usage`	每個工作區的啟用中序列數量單位：Count 有效統計資料：平均、最小值、最大值
ResourceCount	AlertAggregationGroupSize	`AWS/Usage`	警示管理員定義檔案中警示彙總群組的大小上限。的每個標籤值組合`group_by`都會建立彙總群組。
ResourceCount	AlertManagerDefinitionSizeBytes	`AWS/Usage`	警示管理員定義檔案的大小上限，以位元組為單位。
ResourceCount	AllSilences	`AWS/Usage`	每個工作區的靜音數量上限，包括過期、作用中和待定的靜音。
ResourceCount	IngestionRate	`AWS/Usage`	範例擷取速率單位：每秒計數有效統計資料：平均、最小值、最大值
ResourceCount	RuleEvaluationInterval	`AWS/Usage`	規則評估間隔下限
ResourceCount	RuleGroupNamespaceDefinitionSizeBytes	`AWS/Usage`	規則群組命名空間定義檔案的大小上限，以位元組為單位。
ResourceCount	TemplatesInAlertManagerDefinition	`AWS/Usage`	警示管理員定義檔案中的範本數量上限。
ResourceCount	WorkspaceCount	`AWS/Usage`	每個帳戶每個區域的工作區數量上限c.
ResourceCount	SizeOfAlerts	`AWS/Usage`	工作區中所有提醒的總大小，以位元組為單位單位：位元組有效統計資料：平均、最小值、最大值
ResourceCount	SuppressedAlerts	`AWS/Usage`	每個工作區處於隱藏狀態的警示數量。警示可透過靜音或抑制來隱藏。單位：Count 有效統計資料：平均、最小值、最大值
ResourceCount	UnprocessedAlerts	`AWS/Usage`	每個工作區處於未處理狀態的警示數量。一旦 AlertManager 收到警示，但正在等待下一個彙總群組評估，便會處於未處理狀態。單位：Count 有效統計資料：平均、最小值、最大值
ResourceCount	AllAlerts	`AWS/Usage`	每個工作區處於任何狀態的提醒數量單位：Count 有效統計資料：平均、最小值、最大值
ResourceCount	AllRules	`AWS/Usage`	每個工作區處於任何狀態的規則數量單位：Count 有效統計資料：平均、最小值、最大值
ResourceCount	NativeHistogramActiveSeries	`AWS/Usage`	每個工作區的唯一原生長條圖作用中序列數量單位：Count 有效統計資料：平均、最小值、最大值
ResourceCount	NativeHistogramIngestionRate	`AWS/Usage`	每秒每個工作區的原生長條圖範例擷取速率單位：每秒計數有效統計資料：平均、最小值、最大值
ActiveSeriesPerLabelSet	-	`AWS/Prometheus`	每個使用者定義標籤集的目前作用中序列用量單位：Count 有效統計資訊：平均數、下限、上限、總和
ActiveSeriesLimitPerLabelSet	-	`AWS/Prometheus`	每個使用者定義標籤集的目前作用中序列限制值單位：Count 有效統計資訊：平均數、下限、上限、總和
AlertManagerAlertsReceived	-	`AWS/Prometheus`	提醒管理員收到的成功提醒總數單位：Count 有效統計資訊：平均數、下限、上限、總和
AlertManagerNotificationsFailed	-	`AWS/Prometheus`	失敗警示傳送數量單位：Count 有效統計資訊：平均數、下限、上限、總和
AlertManagerNotificationsThrottled	-	`AWS/Prometheus`	限流的警示數量單位：Count 有效統計資訊：平均數、下限、上限、總和
AnomalyDetectors	WorkspaceId	`AWS/Prometheus`	指定工作區的異常偵測器總數單位：Count 有效統計資料：平均、最小值、最大值
AnomalyDetectorEvaluations	WorkspaceId、AnomalyDetectorId	`AWS/Prometheus`	異常偵測器評估的總數單位：Count 有效統計資訊：平均數、下限、上限、總和
AnomalyDetectorEvaluationFailures	WorkspaceId、AnomalyDetectorId	`AWS/Prometheus`	間隔中異常偵測器故障的數量單位：Count 有效統計資訊：平均數、下限、上限、總和
AnomalyDetectorLastEvaluationDuration	WorkspaceId、AnomalyDetectorId	`AWS/Prometheus`	異常偵測器上次評估的持續時間單位：秒有效統計資訊：平均數、下限、上限、總和
AnomalyDetectorMissedEvaluations	WorkspaceId、AnomalyDetectorId	`AWS/Prometheus`	間隔中遺漏的異常偵測器評估次數單位：Count 有效統計資訊：平均數、下限、上限、總和
DiscardedSamples^**	-	`AWS/Prometheus`	按原因排列的廢棄範例數量單位：Count 有效統計資訊：平均數、下限、上限、總和
DiscardedSeries^**	-	`AWS/Prometheus`	依原因包含捨棄範例的序列數目單位：Count 有效統計資訊：平均數、下限、上限、總和
DiscardedSamplesPerLabelSet	-	`AWS/Prometheus`	每個使用者定義標籤集的捨棄範例計數單位：Count 有效統計資訊：平均數、下限、上限、總和
DiscardedSeriesPerLabelSet	-	`AWS/Prometheus`	包含每個使用者定義標籤集捨棄範例的序列計數單位：Count 有效統計資訊：平均數、下限、上限、總和
IngestionRatePerLabelSet	-	`AWS/Prometheus`	每個使用者定義標籤集的擷取率單位：Count 有效統計資訊：平均數、下限、上限、總和
NativeHistogramIngestedBucketsRate	-	`AWS/Prometheus`	所有原生長條圖範例每秒收到的填入儲存貯體速率。排除遭拒的儲存貯體。單位：每秒計數有效統計資料：平均、最小值、最大值
NativeHistogramReducedResolutionCount	-	`AWS/Prometheus`	自動降低儲存貯體解析度的原生長條圖範例計數。當範例超過儲存貯體計數上限時，解析度會降低。單位：Count 有效統計資訊：平均數、下限、上限、總和
OutOfOrderIngestionRate	-	`AWS/Prometheus`	Out-of-order的範例擷取率單位：每秒計數有效統計資訊：平均數、下限、上限、總和
OutOfOrderSampleAge^***	-	`AWS/Prometheus`	out-of-order樣本的時間戳記與其擷取時間之間的差異，這表示樣本在擷取時的存留期。單位：秒有效統計資訊：平均數、下限、上限、總和
QuerySamplesProcessed	-	`AWS/Prometheus`	處理的查詢範例數量單位：Count 有效統計資訊：平均數、下限、上限、總和
RuleEvaluations	-	`AWS/Prometheus`	規則評估總數量單位：Count 有效統計資訊：平均數、下限、上限、總和
RuleEvaluationFailures	-	`AWS/Prometheus`	間隔中的規則評估失敗次數單位：Count 有效統計資訊：平均數、下限、上限、總和
RuleGroupIterationsMissed	-	`AWS/Prometheus`	間隔中缺少的規則群組迭代次數。單位：Count 有效統計資訊：平均數、下限、上限、總和
RuleGroupLastEvaluationDuration	-	`AWS/Prometheus`	規則群組上次評估的持續時間。單位：秒有效統計資訊：平均數、下限、上限、總和

^*TPS 指標每分鐘產生一次，是該分鐘的每秒平均值。TPS 指標中不會擷取短爆量期間。

^**造成捨棄樣本的一些原因如下。並非所有下列原因都會顯示在 DiscardedSeries 指標中。

Reason	意義
greater_than_max_sample_age	捨棄超過一小時的樣本。
new-value-for-timestamp	重複的範例會以與先前範例相同的時間戳記傳送，但具有不同的值。
per_labelset_series_limit	使用者已達到每個標籤集的作用中系列總數限制。
per_metric_series_limit	使用者已達到每個指標的作用中序列限制。
per_user_series_limit	使用者已達到作用中序列限制的總數。
rate_limited	擷取速率受限。
sample-out-of-order	範例會按順序傳送，且無法處理。
sample-too-old	範例早於設定的out-of-order時段，且無法處理。
out-of-order-rate-limit	已達到Out-of-order擷取速率限制，且無法處理範例。如需詳細資訊，請參閱Amazon Managed Service for Prometheus Service Quotas。
label_value_too_long	標籤值超過允許的字元限制。
max_label_names_per_series	使用者已達到每個指標的標籤名稱。
missing_metric_name	未提供指標名稱。
metric_name_invalid	提供的指標名稱無效。
label_invalid	提供的標籤無效。
duplicate_label_names	提供的標籤名稱重複。
native_histogram_sample_size_bytes_exceeded	原生長條圖範例超過允許的樣本大小上限，以位元組為單位。
native_histogram_invalid_schema	原生長條圖具有無效的結構描述值。有效結構描述範圍為 -4 到 8。
native_histogram_invalid	原生長條圖驗證失敗（例如，負儲存貯體計數、不相符的儲存貯體計數或格式不正確的儲存貯體跨度）。
native_histogram_buckets_exceeded	原生長條圖超過儲存貯體計數上限，無法自動降低解析度。
native_histogram_rate_limited	原生長條圖範例已被拒絕，因為已達到原生長條圖擷取速率限制。
per_user_native_histogram_series_limit	使用者已達到每個工作區的原生長條圖作用中序列限制。

^*** OutOfOrderSampleAge 指標包含Percentile維度。您可以使用此指標來判斷工作區的適當不按順序時段。Percentile 維度的有效值如下所示。

百分位數	說明
p50	out-of-order樣本的第 50 個百分位數存留期。
p99	out-of-order樣本的第 99 個百分位數年齡。
max	out-of-order範例的最長存留期。

注意

不存在或遺漏的指標與該指標為 0 的值相同。

注意

RuleGroupIterationsMissed、RuleEvaluationFailures、 RuleEvaluations和 RuleGroupLastEvaluationDuration具有下列結構的RuleGroup維度：

RuleGroupNamespace; RuleGroup

為 Prometheus 付款指標設定 CloudWatch 警示

您可以使用 CloudWatch 警示來監控 Prometheus 資源的使用量。

在 Prometheus 中設定 ActiveSeries 數量的警示

選擇圖形化指標標籤，然後向下捲動至 ActiveSeries 標籤。

在圖形化指標檢視中，只會顯示目前擷取的指標。
在動作欄中選擇通知圖示。
在指定指標和條件中，於條件值欄位中輸入門檻值條件，然後選擇下一步。
在設定動作中，選取現有 SNS 主題，或建立新 SNS 主題以將通知傳送至其中。
在新增名稱和說明中，新增警示名稱和選用說明。
選擇 Create alarm (建立警示)。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

監控工作區

CloudWatch Logs