Usa CloudWatch métricas para monitorear los recursos de Amazon Managed Service for Prometheus

Amazon Managed Service for Prometheus envía métricas de uso a. CloudWatch Estas métricas proporcionan visibilidad sobre la utilización del espacio de trabajo. Las métricas vendidas se encuentran en los espacios de nombres y deAWS/Usage. AWS/Prometheus CloudWatch Estas métricas están disponibles de forma gratuita CloudWatch. Para obtener más información sobre las métricas de uso, consulte Métricas de uso de CloudWatch .

CloudWatch nombre de la métrica	Nombre del recurso	CloudWatch espacio de nombres	Description (Descripción)
ResourceCount^*	CreateAlertManagerAlertsTPS	`AWS/Usage`	Número máximo de operaciones de la API `CreateAlertManagerAlerts` por segundo y por región
ResourceCount^*	DeleteAlertManagerSilencesTPS	`AWS/Usage`	Número máximo de operaciones de la API `DeleteAlertManagerSilences` por segundo y por región
ResourceCount^*	GetAlertManagerSilenceTPS	`AWS/Usage`	Número máximo de operaciones de la API `GetAlertManagerSilence` por segundo y por región
ResourceCount^*	GetAlertManagerStatusTPS	`AWS/Usage`	Número máximo de operaciones de la API `GetAlertManagerStatus` por segundo y por región
ResourceCount^*	GetLabelsTPS	`AWS/Usage`	Número máximo de operaciones de la API `GetLabels` por segundo y por región
ResourceCount^*	GetMetricMetadataTPS	`AWS/Usage`	Número máximo de operaciones de la API `GetMetricMetadata` por segundo y por región
ResourceCount^*	GetSeriesTPS	`AWS/Usage`	Número máximo de operaciones de la API `GetSeries` por segundo y por región
ResourceCount	InhibitionRulesInAlertManagerDefinition	`AWS/Usage`	El número máximo de reglas de inhibición en el archivo de definición del administrador de alertas.
ResourceCount^*	ListAlertManagerAlertGroupInfosTPS	`AWS/Usage`	Número máximo de operaciones de la API `ListAlertManagerAlertGroupInfos` por segundo y por región
ResourceCount^*	ListAlertManagerAlertGroupsTPS	`AWS/Usage`	Número máximo de operaciones de la API `ListAlertManagerAlertGroups` por segundo y por región
ResourceCount^*	ListAlertManagerAlertsTPS	`AWS/Usage`	Número máximo de operaciones de la API `ListAlertManagerAlerts` por segundo y por región
ResourceCount^*	ListAlertManagerReceiversTPS	`AWS/Usage`	Número máximo de operaciones de la API `ListAlertManagerReceivers` por segundo y por región
ResourceCount^*	ListAlertManagerSilencesTPS	`AWS/Usage`	Número máximo de operaciones de la API `ListAlertManagerSilences` por segundo y por región
ResourceCount^*	ListAlertsTPS	`AWS/Usage`	Número máximo de operaciones de la API `ListAlerts` por segundo y por región
ResourceCount^*	ListRulesTPS	`AWS/Usage`	Número máximo de operaciones de la API `ListRules` por segundo y por región
ResourceCount^*	PutAlertManagerSilencesTPS	`AWS/Usage`	Número máximo de operaciones de la API `PutAlertManagerSilences` por segundo y por región
ResourceCount	HAReplicaGroupCount	`AWS/Usage`	Número de grupos de réplicas de alta disponibilidad
ResourceCount^*	QueryMetricsTPS	`AWS/Usage`	Operaciones de consulta por segundo
ResourceCount^*	RemoteWriteTPS	`AWS/Usage`	Operaciones de escritura remota por segundo
ResourceCount	ActiveAlerts	`AWS/Usage`	Número de alertas activas por espacio de trabajo Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo
ResourceCount	ActiveSeries	`AWS/Usage`	Número de series activas por espacio de trabajo Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo
ResourceCount	AlertAggregationGroupSize	`AWS/Usage`	El tamaño máximo de un grupo de agregación de alertas en el archivo de definición del administrador de alertas. Cada combinación de valores de etiqueta de `group_by` crearía un grupo de agregación.
ResourceCount	AlertManagerDefinitionSizeBytes	`AWS/Usage`	El tamaño máximo de un archivo de definición del administrador de alertas.
ResourceCount	AllSilences	`AWS/Usage`	Número máximo de silencios, incluidos los silencios caducados, activos y pendientes, por espacio de trabajo.
ResourceCount	IngestionRate	`AWS/Usage`	Tasa de ingesta de muestras Unidades: recuento por segundo Estadísticas válidas: promedio, mínimo, máximo
ResourceCount	RuleEvaluationInterval	`AWS/Usage`	Intervalo mínimo de evaluación de la regla.
ResourceCount	RuleGroupNamespaceDefinitionSizeBytes	`AWS/Usage`	El tamaño máximo de un archivo de definición de espacio de nombres de grupos de reglas.
ResourceCount	TemplatesInAlertManagerDefinition	`AWS/Usage`	El número máximo de plantillas del archivo de definición del administrador de alertas.
ResourceCount	WorkspaceCount	`AWS/Usage`	Número máximo de espacios de trabajo por región y cuenta
ResourceCount	SizeOfAlerts	`AWS/Usage`	Tamaño total de todas las alertas del espacio de trabajo, en bytes Unidades: bytes Estadísticas válidas: promedio, mínimo, máximo
ResourceCount	SuppressedAlerts	`AWS/Usage`	Número de alertas en estado suprimido por espacio de trabajo. Una alerta puede suprimirse mediante un silencio o una inhibición. Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo
ResourceCount	UnprocessedAlerts	`AWS/Usage`	Número de alertas en estado sin procesar por espacio de trabajo. Una alerta está en estado sin procesar una vez que la recibe AlertManager, pero está a la espera de la siguiente evaluación del grupo de agregación. Unidades: recuento Estadísticas válidas: media, mínima y máxima
ResourceCount	AllAlerts	`AWS/Usage`	Número de alertas en cualquier estado por espacio de trabajo Unidades: recuento Estadísticas válidas: media, mínima y máxima
ResourceCount	AllRules	`AWS/Usage`	Número de reglas en cualquier estado por espacio de trabajo Unidades: recuento Estadísticas válidas: media, mínima y máxima
ResourceCount	NativeHistogramActiveSeries	`AWS/Usage`	Número de series activas de histogramas nativos únicos por espacio de trabajo Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo
ResourceCount	NativeHistogramIngestionRate	`AWS/Usage`	Tasa de ingesta de muestras de histogramas nativos por espacio de trabajo por segundo Unidades: recuento por segundo Estadísticas válidas: media, mínima y máxima
ActiveSeriesPerLabelSet	-	`AWS/Prometheus`	Uso actual de la serie activa para cada conjunto de etiquetas definido por el usuario Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
ActiveSeriesLimitPerLabelSet	-	`AWS/Prometheus`	Valor límite actual de la serie activa para cada conjunto de etiquetas definido por el usuario Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
AlertManagerAlertsReceived	-	`AWS/Prometheus`	Total de alertas correctas que ha recibido el administrador de alertas Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
AlertManagerNotificationsFailed	-	`AWS/Prometheus`	Número de entregas de alertas con errores Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
AlertManagerNotificationsThrottled	-	`AWS/Prometheus`	Número de alertas limitadas Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
AnomalyDetectors	WorkspaceId	`AWS/Prometheus`	Número total de detectores de anomalías para un espacio de trabajo determinado Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo
AnomalyDetectorEvaluations	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Número total de evaluaciones del detector de anomalías Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
AnomalyDetectorEvaluationFailures	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Número de errores del detector de anomalías en el intervalo Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
AnomalyDetectorLastEvaluationDuration	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Duración de la última evaluación de un detector de anomalías Unidades: segundos Estadísticas válidas: promedio, mínimo, máximo, suma
AnomalyDetectorMissedEvaluations	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Número de evaluaciones del detector de anomalías omitidas en el intervalo Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
DiscardedSamples^**	-	`AWS/Prometheus`	Número de muestras descartadas por motivo Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
DiscardedSeries^**	-	`AWS/Prometheus`	Número de series que contienen una muestra descartada por motivo Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
DiscardedSamplesPerLabelSet	-	`AWS/Prometheus`	Recuento de muestras descartadas para cada conjunto de etiquetas definido por el usuario Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
DiscardedSeriesPerLabelSet	-	`AWS/Prometheus`	El recuento de series que contienen una muestra descartada para cada conjunto de etiquetas definido por el usuario Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
IngestionRatePerLabelSet	-	`AWS/Prometheus`	La tasa de ingesta de cada conjunto de etiquetas definido por el usuario Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
NativeHistogramIngestedBucketsRate	-	`AWS/Prometheus`	Porcentaje de cubos rellenados recibidos por segundo en todas las muestras de histogramas nativos. Excluye los cubos rechazados. Unidades: recuento por segundo Estadísticas válidas: media, mínima y máxima
NativeHistogramReducedResolutionCount	-	`AWS/Prometheus`	Recuento de muestras de histogramas nativos con una resolución de segmento reducida automáticamente. La resolución se reduce cuando una muestra supera el límite máximo de recuento de cubos. Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
OutOfOrderIngestionRate	-	`AWS/Prometheus`	Out-of-order tasa de ingestión de muestras Unidades: recuento por segundo Estadísticas válidas: promedio, mínimo, máximo, suma
OutOfOrderSampleAge^***	-	`AWS/Prometheus`	La diferencia entre la marca de tiempo de una muestra desfasada y su hora de ingesta, que indica la antigüedad de la muestra cuando se ingirió. Unidades: segundos Estadísticas válidas: promedio, mínimo, máximo, suma
QuerySamplesProcessed	-	`AWS/Prometheus`	Número de muestras de consultas procesadas Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
RuleEvaluations	-	`AWS/Prometheus`	Número total de evaluaciones de reglas Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
RuleEvaluationFailures	-	`AWS/Prometheus`	Número de errores de evaluación de reglas en el intervalo Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
RuleGroupIterationsMissed	-	`AWS/Prometheus`	Número de iteraciones del grupo de reglas omitidas en el intervalo. Unidades: recuento Estadísticas válidas: promedio, mínimo, máximo, suma
RuleGroupLastEvaluationDuration	-	`AWS/Prometheus`	Duración de la última evaluación de un grupo de reglas. Unidades: segundos Estadísticas válidas: promedio, mínimo, máximo, suma

^* Las métricas de TPS se generan cada minuto y representan un promedio por segundo durante ese minuto. Los períodos de ráfaga cortos no se incluirán en las métricas del TPS.

^** Algunas de las razones por las que se desechan las muestras son las siguientes. No todos los motivos que aparecen a continuación aparecen en la DiscardedSeries métrica.

Motivo	Significado
greater_than_max_sample_age	Se descartan las muestras que tengan más de una hora de antigüedad.
new-value-for-timestamp	Las muestras duplicadas se envían con la misma marca de tiempo que la muestra anterior, pero con valores diferentes.
per_labelset_series_limit	El usuario ha alcanzado el número total de series activas por límite de conjuntos de etiquetas.
per_metric_series_limit	El usuario ha alcanzado el límite de series activas por métrica.
per_user_series_limit	El usuario ha alcanzado el límite total de series activas.
rate_limited	Tasa de ingesta limitada.
sample-out-of-order	Las muestras se envían de forma desordenada y no se pueden procesar.
muestra demasiado antigua	La muestra es más antigua que el intervalo de tiempo desfasado configurado y no se puede procesar.
límite de tarifas fuera del pedido	Out-of-order se alcanzó el límite de tasa de ingestión y la muestra no se puede procesar. Para obtener más información, consulte Cuotas de servicio de Amazon Managed Service para Prometheus.
label_value_too_long	El valor de la etiqueta supera el límite de caracteres permitido.
max_label_names_per_series	El usuario ha seleccionado los nombres de las etiquetas por métrica.
missing_metric_name	No se ha proporcionado el nombre de la métrica.
metric_name_invalid	El nombre de la métrica proporcionado no es válido.
label_invalid	Se ha proporcionado una etiqueta no válida.
duplicate_label_names	Se han proporcionado nombres de etiqueta duplicados.
tamaño de la muestra del histograma nativo superado	La muestra de histograma nativa supera el tamaño de muestra máximo permitido en bytes.
histogram_native_invalid_schema	El histograma nativo tiene un valor de esquema no válido. Los esquemas válidos oscilan entre -4 y 8.
histogram_nativo inválido	El histograma nativo no pasa la validación (por ejemplo, recuentos de cubos negativos, recuentos de cubos no coincidentes o tramos de cubos mal formados).
Se ha superado el histograma nativo	El histograma nativo supera el límite máximo de recuento de cubos y la resolución no se puede reducir automáticamente.
native_histogram_rate_limited	Se rechazó la muestra de histograma nativo porque se alcanzó el límite de tasa de ingesta de histogramas nativos.
por_user_native_histogram_series_limit	El usuario ha alcanzado el límite de series activas del histograma nativo por espacio de trabajo.

^*** La OutOfOrderSampleAge métrica incluye una Percentile dimensión. Puedes usar esta métrica para determinar el intervalo de tiempo de inactividad adecuado para tu espacio de trabajo. Los valores válidos para la Percentile dimensión son los siguientes.

Percentil	Description (Descripción)
p50	La edad del percentil 50 de las muestras desordenadas.
p99	La edad del percentil 99 de las muestras desordenadas.
max	La antigüedad máxima de las muestras no solicitadas.

nota

Que una métrica no exista o falte equivale a que el valor de dicha métrica sea 0.

nota

RuleGroupIterationsMissed, RuleEvaluations, RuleEvaluationFailures y RuleGroupLastEvaluationDuration tienen la dimensión RuleGroup de la siguiente estructura:

RuleGroupNamespace;RuleGroup

Configurar una CloudWatch alarma en las métricas vendidas de Prometheus

Puede monitorizar el uso de los recursos de Prometheus mediante alarmas. CloudWatch

Para configurar una alarma en el número de ActiveSeries en Prometheus

Selecciona la pestaña Métricas gráficas y desplázate hacia abajo hasta la etiqueta. ActiveSeries

En la vista Métricas diagramadas, solo aparecerán las métricas que se estén ingiriendo en ese momento.
Seleccione el icono Notificación en la columna Acciones.
En Especifique la métrica y las condiciones, introduzca la condición de umbral en el campo Valor de las condiciones y elija Siguiente.
En Configurar acciones, seleccione un tema de SNS existente o cree un nuevo tema de SNS al que enviar la notificación.
En Agregar nombre y descripción, agregue el nombre de la alarma y una descripción opcional.
Elija Crear alarma.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Supervisión de espacios de trabajo

CloudWatch Registros