使用 CloudWatch 指標監控 Amazon Managed Service for Prometheus 資源 - Amazon Managed Service for Prometheus

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 CloudWatch 指標監控 Amazon Managed Service for Prometheus 資源

Amazon Managed Service for Prometheus 將用量指標出售給 CloudWatch。這些指標提供有關工作區使用率的可見性。您可以在 CloudWatch 中的 AWS/UsageAWS/Prometheus 命名空間中找到付費指標。CloudWatch 中的這些指標可免費使用。如需有關用量指標的詳細資訊,請參閱 CloudWatch 用量指標

CloudWatch 指標名稱 資源名稱 CloudWatch 命名空間 描述

ResourceCount*

RemoteWriteTPS

AWS/Usage

每秒遠端寫入操作

ResourceCount*

QueryMetricsTPS

AWS/Usage

每秒查詢操作數

ResourceCount

IngestionRate

AWS/Usage

範例擷取速率

單位:每秒計數

有效統計資訊:平均數、下限、上限、總和

ResourceCount

ActiveSeries

AWS/Usage

每個工作區的啟用中序列數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

ResourceCount

ActiveAlerts

AWS/Usage

每個工作區的啟用中警示數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

ResourceCount

SizeOfAlerts

AWS/Usage

工作區中所有提醒的總大小,以位元組為單位

單位:位元組

有效統計資訊:平均數、下限、上限、總和

ResourceCount

SuppressedAlerts

AWS/Usage

每個工作區處於隱藏狀態的警示數量。警示可透過靜音或抑制來隱藏。

單位:計數

有效統計資訊:平均數、下限、上限、總和

ResourceCount

UnprocessedAlerts

AWS/Usage

每個工作區處於未處理狀態的警示數量。一旦 AlertManager 收到警示,但正在等待下一個彙總群組評估,便會處於未處理狀態。

單位:計數

有效統計資訊:平均數、下限、上限、總和

ResourceCount

AllAlerts

AWS/Usage

每個工作區處於任何狀態的警示數量。

單位:計數

有效統計資訊:平均數、下限、上限、總和

ActiveSeriesPerLabelSet

-

AWS/Prometheus

每個使用者定義標籤集的目前作用中序列用量

單位:計數

有效統計資訊:平均數、下限、上限、總和

ActiveSeriesLimitPerLabelSet

-

AWS/Prometheus

每個使用者定義標籤集的目前作用中序列限制值

單位:計數

有效統計資訊:平均數、下限、上限、總和

AlertManagerAlertsReceived

-

AWS/Prometheus

提醒管理員收到的成功提醒總數

單位:計數

有效統計資訊:平均數、下限、上限、總和

AlertManagerNotificationsFailed

-

AWS/Prometheus

失敗警示傳送數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

AlertManagerNotificationsThrottled

-

AWS/Prometheus

限流的警示數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

DiscardedSamples**

-

AWS/Prometheus

按原因排列的廢棄範例數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

DiscardedSamplesPerLabelSet

-

AWS/Prometheus

每個使用者定義標籤集的捨棄範例計數

單位:計數

有效統計資訊:平均數、下限、上限、總和

IngestionRatePerLabelSet

-

AWS/Prometheus

每個使用者定義標籤集的擷取率

單位:計數

有效統計資訊:平均數、下限、上限、總和

QuerySamplesProcessed

-

AWS/Prometheus

處理的查詢範例數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

RuleEvaluations

-

AWS/Prometheus

規則評估總數量

單位:計數

有效統計資訊:平均數、下限、上限、總和

RuleEvaluationFailures

-

AWS/Prometheus

間隔中的規則評估失敗次數

單位:計數

有效統計資訊:平均數、下限、上限、總和

RuleGroupIterationsMissed

-

AWS/Prometheus

間隔中缺少的規則群組迭代次數。

單位:計數

有效統計資訊:平均數、下限、上限、總和

RuleGroupLastEvaluationDuration

-

AWS/Prometheus

規則群組上次評估的持續時間。

單位:秒

有效統計資訊:平均數、下限、上限、總和

*TPS 指標每分鐘產生一次,是該分鐘的每秒平均值。TPS 指標中不會擷取短爆量期間。

**造成捨棄樣本的一些原因如下。

原因

意義

greater_than_max_sample_age

捨棄超過一小時的樣本。

new-value-for-timestamp

重複範例的傳送時間戳記與先前記錄的時間戳記不同。

per_labelset_series_limit

使用者已達到每個標籤集的作用中系列總數限制。

per_metric_series_limit

使用者已達到每個指標的作用中序列限制。

per_user_series_limit

使用者已達到作用中序列限制的總數。

rate_limited

擷取速率受限。

sample-out-of-order

範例會按順序傳送,且無法處理。

label_value_too_long

標籤值超過允許的字元限制。

max_label_names_per_series

使用者已達到每個指標的標籤名稱。

missing_metric_name

未提供指標名稱。

metric_name_invalid

提供的指標名稱無效。

label_invalid

提供的標籤無效。

duplicate_label_names

提供的標籤名稱重複。

注意

不存在或遺漏的指標與該指標為 0 的值相同。

注意

RuleGroupIterationsMissedRuleEvaluationFailuresRuleEvaluationsRuleGroupLastEvaluationDuration具有下列結構的RuleGroup維度:

RuleGroupNamespace; RuleGroup

為 Prometheus 付款指標設定 CloudWatch 警示

您可以使用 CloudWatch 警示來監控 Prometheus 資源的使用量。

在 Prometheus 中設定 ActiveSeries 數量的警示
  1. 選擇圖形化指標標籤,然後向下捲動至 ActiveSeries 標籤。

    圖形化指標檢視中,只會顯示目前擷取的指標。

  2. 動作欄中選擇通知圖示。

  3. 指定指標和條件中,於條件值欄位中輸入門檻值條件,然後選擇下一步

  4. 設定動作中,選取現有 SNS 主題,或建立新 SNS 主題以將通知傳送至其中。

  5. 新增名稱和說明中,新增警示名稱和選用說明。

  6. 選擇 Create alarm (建立警示)。