Usa CloudWatch métricas para monitorear los recursos de Amazon Managed Service for Prometheus - Servicio administrado por Amazon para Prometheus

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Usa CloudWatch métricas para monitorear los recursos de Amazon Managed Service for Prometheus

Amazon Managed Service for Prometheus envía métricas de uso a. CloudWatch Estas métricas proporcionan visibilidad sobre la utilización del espacio de trabajo. Las métricas vendidas se encuentran en los espacios de nombres y deAWS/Usage. AWS/Prometheus CloudWatch Estas métricas están disponibles de forma gratuita CloudWatch. Para obtener más información sobre las métricas de uso, consulte Métricas de uso de CloudWatch .

CloudWatch nombre de la métrica Nombre del recurso CloudWatch espacio de nombres Description (Descripción)

ResourceCount*

CreateAlertManagerAlertsTPS

AWS/Usage

Número máximo de operaciones de la API CreateAlertManagerAlerts por segundo y por región

ResourceCount*

DeleteAlertManagerSilencesTPS

AWS/Usage

Número máximo de operaciones de la API DeleteAlertManagerSilences por segundo y por región

ResourceCount*

GetAlertManagerSilenceTPS

AWS/Usage

Número máximo de operaciones de la API GetAlertManagerSilence por segundo y por región

ResourceCount*

GetAlertManagerStatusTPS

AWS/Usage

Número máximo de operaciones de la API GetAlertManagerStatus por segundo y por región

ResourceCount*

GetLabelsTPS

AWS/Usage

Número máximo de operaciones de la API GetLabels por segundo y por región

ResourceCount*

GetMetricMetadataTPS

AWS/Usage

Número máximo de operaciones de la API GetMetricMetadata por segundo y por región

ResourceCount*

GetSeriesTPS

AWS/Usage

Número máximo de operaciones de la API GetSeries por segundo y por región

ResourceCount

InhibitionRulesInAlertManagerDefinition

AWS/Usage

El número máximo de reglas de inhibición en el archivo de definición del administrador de alertas.

ResourceCount*

ListAlertManagerAlertGroupInfosTPS

AWS/Usage

Número máximo de operaciones de la API ListAlertManagerAlertGroupInfos por segundo y por región

ResourceCount*

ListAlertManagerAlertGroupsTPS

AWS/Usage

Número máximo de operaciones de la API ListAlertManagerAlertGroups por segundo y por región

ResourceCount*

ListAlertManagerAlertsTPS

AWS/Usage

Número máximo de operaciones de la API ListAlertManagerAlerts por segundo y por región

ResourceCount*

ListAlertManagerReceiversTPS

AWS/Usage

Número máximo de operaciones de la API ListAlertManagerReceivers por segundo y por región

ResourceCount*

ListAlertManagerSilencesTPS

AWS/Usage

Número máximo de operaciones de la API ListAlertManagerSilences por segundo y por región

ResourceCount*

ListAlertsTPS

AWS/Usage

Número máximo de operaciones de la API ListAlerts por segundo y por región

ResourceCount*

ListRulesTPS

AWS/Usage

Número máximo de operaciones de la API ListRules por segundo y por región

ResourceCount*

PutAlertManagerSilencesTPS

AWS/Usage

Número máximo de operaciones de la API PutAlertManagerSilences por segundo y por región

ResourceCount

HAReplicaGroupCount

AWS/Usage

Número de grupos de réplicas de alta disponibilidad

ResourceCount*

QueryMetricsTPS

AWS/Usage

Operaciones de consulta por segundo

ResourceCount*

RemoteWriteTPS

AWS/Usage

Operaciones de escritura remota por segundo

ResourceCount

ActiveAlerts

AWS/Usage

Número de alertas activas por espacio de trabajo

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

ResourceCount

ActiveSeries

AWS/Usage

Número de series activas por espacio de trabajo

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

ResourceCount

AlertAggregationGroupSize

AWS/Usage

El tamaño máximo de un grupo de agregación de alertas en el archivo de definición del administrador de alertas. Cada combinación de valores de etiqueta de group_by crearía un grupo de agregación.

ResourceCount

AlertManagerDefinitionSizeBytes

AWS/Usage

El tamaño máximo de un archivo de definición del administrador de alertas, en bytes.

ResourceCount

AllSilences

AWS/Usage

Número máximo de silencios, incluidos los caducados, activos y pendientes, por espacio de trabajo.

ResourceCount

AllAlerts

AWS/Usage

Número de alertas en cualquier estado por espacio de trabajo.

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

ResourceCount

IngestionRate

AWS/Usage

Tasa de ingesta de muestras

Unidades: recuento por segundo

Estadísticas válidas: promedio, mínimo, máximo, suma

ResourceCount

RuleEvaluationInterval

AWS/Usage

Intervalo mínimo de evaluación de la regla.

ResourceCount

RuleGroupNamespaceDefinitionSizeBytes

AWS/Usage

Tamaño máximo de un archivo de definición de espacio de nombres de grupos de reglas, en bytes.

ResourceCount

TemplatesInAlertManagerDefinition

AWS/Usage

El número máximo de plantillas del archivo de definición del administrador de alertas.

ResourceCount

WorkspaceCount

AWS/Usage

Número máximo de espacios de trabajo por región y cuenta

ResourceCount

SizeOfAlerts

AWS/Usage

Tamaño total de todas las alertas del espacio de trabajo, en bytes

Unidades: bytes

Estadísticas válidas: promedio, mínimo, máximo, suma

ResourceCount

SuppressedAlerts

AWS/Usage

Número de alertas en estado suprimido por espacio de trabajo. Una alerta puede suprimirse mediante un silencio o una inhibición.

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

ResourceCount

UnprocessedAlerts

AWS/Usage

Número de alertas en estado sin procesar por espacio de trabajo. Una alerta está en estado sin procesar una vez que la recibe AlertManager, pero está a la espera de la siguiente evaluación del grupo de agregación.

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

ResourceCount

AllAlerts

AWS/Usage

Número de alertas en cualquier estado por espacio de trabajo.

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

ResourceCount

AllRules

AWS/Usage

Número de reglas en cualquier estado por espacio de trabajo.

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

ActiveSeriesPerLabelSet

-

AWS/Prometheus

Uso actual de la serie activa para cada conjunto de etiquetas definido por el usuario

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

ActiveSeriesLimitPerLabelSet

-

AWS/Prometheus

Valor límite actual de la serie activa para cada conjunto de etiquetas definido por el usuario

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

AlertManagerAlertsReceived

-

AWS/Prometheus

Total de alertas correctas que ha recibido el administrador de alertas

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

AlertManagerNotificationsFailed

-

AWS/Prometheus

Número de entregas de alertas con errores

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

AlertManagerNotificationsThrottled

-

AWS/Prometheus

Número de alertas limitadas

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

AnomalyDetectors

WorkspaceId

AWS/Prometheus

Número total de detectores de anomalías para un espacio de trabajo determinado

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

AnomalyDetectorEvaluations

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

Número total de evaluaciones del detector de anomalías

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

AnomalyDetectorEvaluationFailures

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

Número de errores del detector de anomalías en el intervalo

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

AnomalyDetectorLastEvaluationDuration

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

Duración de la última evaluación de un detector de anomalías

Unidades: segundos

Estadísticas válidas: promedio, mínimo, máximo, suma

AnomalyDetectorMissedEvaluations

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

Número de evaluaciones del detector de anomalías omitidas en el intervalo

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

DiscardedSamples**

-

AWS/Prometheus

Número de muestras descartadas por motivo

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

DiscardedSeries**

-

AWS/Prometheus

Número de series que contienen una muestra descartada por el motivo

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

DiscardedSamplesPerLabelSet

-

AWS/Prometheus

Recuento de muestras descartadas para cada conjunto de etiquetas definido por el usuario

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

DiscardedSeriesPerLabelSet

-

AWS/Prometheus

El recuento de series que contienen una muestra descartada para cada conjunto de etiquetas definido por el usuario

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

IngestionRatePerLabelSet

-

AWS/Prometheus

La tasa de ingesta de cada conjunto de etiquetas definido por el usuario

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

QuerySamplesProcessed

-

AWS/Prometheus

Número de muestras de consultas procesadas

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

RuleEvaluations

-

AWS/Prometheus

Número total de evaluaciones de reglas

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

RuleEvaluationFailures

-

AWS/Prometheus

Número de errores de evaluación de reglas en el intervalo

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

RuleGroupIterationsMissed

-

AWS/Prometheus

Número de iteraciones del grupo de reglas omitidas en el intervalo.

Unidades: recuento

Estadísticas válidas: promedio, mínimo, máximo, suma

RuleGroupLastEvaluationDuration

-

AWS/Prometheus

Duración de la última evaluación de un grupo de reglas.

Unidades: segundos

Estadísticas válidas: promedio, mínimo, máximo, suma

* Las métricas de TPS se generan cada minuto y representan un promedio por segundo durante ese minuto. Los períodos de ráfaga cortos no se incluirán en las métricas del TPS.

** Algunas de las razones por las que se descartan las muestras son las siguientes. No todos los motivos que aparecen a continuación aparecen en la DiscardedSeries métrica.

Motivo

Significado

greater_than_max_sample_age

Se descartan las muestras que tengan más de una hora de antigüedad.

new-value-for-timestamp

Las muestras duplicadas se envían con la misma marca de tiempo que la muestra anterior, pero con valores diferentes.

per_labelset_series_limit

El usuario ha alcanzado el número total de series activas por límite de conjuntos de etiquetas.

per_metric_series_limit

El usuario ha alcanzado el límite de series activas por métrica.

per_user_series_limit

El usuario ha alcanzado el límite total de series activas.

rate_limited

Tasa de ingesta limitada.

sample-out-of-order

Las muestras se envían de forma desordenada y no se pueden procesar.

label_value_too_long

El valor de la etiqueta supera el límite de caracteres permitido.

max_label_names_per_series

El usuario ha seleccionado los nombres de las etiquetas por métrica.

missing_metric_name

No se ha proporcionado el nombre de la métrica.

metric_name_invalid

El nombre de la métrica proporcionado no es válido.

label_invalid

Se ha proporcionado una etiqueta no válida.

duplicate_label_names

Se han proporcionado nombres de etiqueta duplicados.

nota

Que una métrica no exista o falte equivale a que el valor de dicha métrica sea 0.

nota

RuleGroupIterationsMissed, RuleEvaluations, RuleEvaluationFailures y RuleGroupLastEvaluationDuration tienen la dimensión RuleGroup de la siguiente estructura:

RuleGroupNamespace;RuleGroup

Configurar una CloudWatch alarma en las métricas vendidas de Prometheus

Puede monitorizar el uso de los recursos de Prometheus mediante alarmas. CloudWatch

Para configurar una alarma en el número de ActiveSeriesPrometheus
  1. Selecciona la pestaña Métricas graficadas y desplázate hacia abajo hasta la etiqueta. ActiveSeries

    En la vista Métricas diagramadas, solo aparecerán las métricas que se estén ingiriendo en ese momento.

  2. Seleccione el icono Notificación en la columna Acciones.

  3. En Especifique la métrica y las condiciones, introduzca la condición de umbral en el campo Valor de las condiciones y elija Siguiente.

  4. En Configurar acciones, seleccione un tema de SNS existente o cree un nuevo tema de SNS al que enviar la notificación.

  5. En Agregar nombre y descripción, agregue el nombre de la alarma y una descripción opcional.

  6. Elija Crear alarma.