Use CloudWatch métricas para monitorar os recursos do Amazon Managed Service for Prometheus

O Amazon Managed Service para Prometheus vende métricas de uso para. CloudWatch Essas métricas fornecem visibilidade sobre a utilização do seu espaço de trabalho. As métricas vendidas podem ser encontradas nos AWS/Prometheus namespaces AWS/Usage e em. CloudWatch Essas métricas estão disponíveis CloudWatch gratuitamente. Para obter mais informações sobre métricas de uso, consulte Métricas de uso da CloudWatch .

CloudWatch nome da métrica	Nome do recurso	CloudWatch namespace	Description
ResourceCount^*	CreateAlertManagerAlertsTPS	`AWS/Usage`	Número máximo de operações da API `CreateAlertManagerAlerts` por segundo, por espaço de trabalho.
ResourceCount^*	DeleteAlertManagerSilencesTPS	`AWS/Usage`	Número máximo de operações da API `DeleteAlertManagerSilences` por segundo, por espaço de trabalho.
ResourceCount^*	GetAlertManagerSilenceTPS	`AWS/Usage`	Número máximo de operações da API `GetAlertManagerSilence` por segundo, por espaço de trabalho.
ResourceCount^*	GetAlertManagerStatusTPS	`AWS/Usage`	Número máximo de operações da API `GetAlertManagerStatus` por segundo, por espaço de trabalho.
ResourceCount^*	GetLabelsTPS	`AWS/Usage`	Número máximo de operações da API `GetLabels` por segundo, por espaço de trabalho.
ResourceCount^*	GetMetricMetadataTPS	`AWS/Usage`	Número máximo de operações da API `GetMetricMetadata` por segundo, por espaço de trabalho.
ResourceCount^*	GetSeriesTPS	`AWS/Usage`	Número máximo de operações da API `GetSeries` por segundo, por espaço de trabalho.
ResourceCount	InhibitionRulesInAlertManagerDefinition	`AWS/Usage`	Número máximo de regras de inibição no arquivo de definição do gerenciador de alertas.
ResourceCount^*	ListAlertManagerAlertGroupInfosTPS	`AWS/Usage`	Número máximo de operações da API `ListAlertManagerAlertGroupInfos` por segundo, por espaço de trabalho.
ResourceCount^*	ListAlertManagerAlertGroupsTPS	`AWS/Usage`	Número máximo de operações da API `ListAlertManagerAlertGroups` por segundo, por espaço de trabalho.
ResourceCount^*	ListAlertManagerAlertsTPS	`AWS/Usage`	Número máximo de operações da API `ListAlertManagerAlerts` por segundo, por espaço de trabalho.
ResourceCount^*	ListAlertManagerReceiversTPS	`AWS/Usage`	Número máximo de operações da API `ListAlertManagerReceivers` por segundo, por espaço de trabalho.
ResourceCount^*	ListAlertManagerSilencesTPS	`AWS/Usage`	Número máximo de operações da API `ListAlertManagerSilences` por segundo, por espaço de trabalho.
ResourceCount^*	ListAlertsTPS	`AWS/Usage`	Número máximo de operações da API `ListAlerts` por segundo, por espaço de trabalho.
ResourceCount^*	ListRulesTPS	`AWS/Usage`	Número máximo de operações da API `ListRules` por segundo, por espaço de trabalho.
ResourceCount^*	PutAlertManagerSilencesTPS	`AWS/Usage`	Número máximo de operações da API `PutAlertManagerSilences` por segundo, por espaço de trabalho.
ResourceCount	HAReplicaGroupCount	`AWS/Usage`	Número de grupos de réplicas de alta disponibilidade
ResourceCount^*	QueryMetricsTPS	`AWS/Usage`	Operações de solicitação por segundo
ResourceCount^*	RemoteWriteTPS	`AWS/Usage`	Operações de gravação remota por segundo.
ResourceCount	ActiveAlerts	`AWS/Usage`	Número de alertas ativos por espaço de trabalho Unidades: contagem Estatísticas válidas: média, mínima, máxima
ResourceCount	ActiveSeries	`AWS/Usage`	Número de séries ativas por espaço de trabalho Unidades: contagem Estatísticas válidas: média, mínima, máxima
ResourceCount	AlertAggregationGroupSize	`AWS/Usage`	Tamanho máximo do grupo de agregação de alertas no arquivo de definição do gerenciador de alertas. Cada combinação de valores de rótulo de `group_by` cria um grupo de agregação.
ResourceCount	AlertManagerDefinitionSizeBytes	`AWS/Usage`	Tamanho máximo de um arquivo de definição do gerenciador de alertas, em bytes.
ResourceCount	AllSilences	`AWS/Usage`	Número máximo de silêncios, incluindo silêncios expirados, ativos e pendentes, por espaço de trabalho.
ResourceCount	IngestionRate	`AWS/Usage`	Taxa de ingestão da amostra Unidades: contagem por segundo Estatísticas válidas: média, mínima, máxima
ResourceCount	RuleEvaluationInterval	`AWS/Usage`	O intervalo mínimo de avaliação de regras
ResourceCount	RuleGroupNamespaceDefinitionSizeBytes	`AWS/Usage`	O tamanho máximo de um arquivo de definição de namespace de grupo de regras, em bytes.
ResourceCount	TemplatesInAlertManagerDefinition	`AWS/Usage`	O número máximo de modelos no arquivo de definição do gerenciador de alertas.
ResourceCount	WorkspaceCount	`AWS/Usage`	O número máximo de espaços de trabalho por Região, por conta.
ResourceCount	SizeOfAlerts	`AWS/Usage`	Tamanho total de todos os alertas no espaço de trabalho, em bytes Unidade: bytes Estatísticas válidas: média, mínima, máxima
ResourceCount	SuppressedAlerts	`AWS/Usage`	Número de alertas em estado suprimido por espaço de trabalho. Um alerta pode ser suprimido por um silêncio ou uma inibição. Unidades: contagem Estatísticas válidas: média, mínima, máxima
ResourceCount	UnprocessedAlerts	`AWS/Usage`	Número de alertas em estado não processado por espaço de trabalho. Um alerta fica em estado não processado depois de recebido AlertManager, mas aguarda a próxima avaliação do grupo de agregação. Unidades: contagem Estatísticas válidas: média, mínima, máxima
ResourceCount	AllAlerts	`AWS/Usage`	Número de alertas em qualquer estado por espaço de trabalho Unidades: contagem Estatísticas válidas: média, mínima, máxima
ResourceCount	AllRules	`AWS/Usage`	Número de regras em qualquer estado por espaço de trabalho Unidades: contagem Estatísticas válidas: média, mínima, máxima
ActiveSeriesPerLabelSet	-	`AWS/Prometheus`	O uso atual da série ativa para cada conjunto de rótulos definido pelo usuário Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
ActiveSeriesLimitPerLabelSet	-	`AWS/Prometheus`	O valor atual do limite de séries ativas para cada conjunto de rótulos definido pelo usuário. Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
AlertManagerAlertsReceived	-	`AWS/Prometheus`	Total de alertas concluídos recebidos pelo gerenciador de alertas Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
AlertManagerNotificationsFailed	-	`AWS/Prometheus`	Número de entregas de alertas com falha Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
AlertManagerNotificationsThrottled	-	`AWS/Prometheus`	Número de alertas com controle de utilização Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
AnomalyDetectors	WorkspaceId	`AWS/Prometheus`	Número total de detectores de anomalias para um determinado espaço de trabalho Unidades: contagem Estatísticas válidas: média, mínima, máxima
AnomalyDetectorEvaluations	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Número total de avaliações de detectores de anomalias Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
AnomalyDetectorEvaluationFailures	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Número de falhas no detector de anomalias no intervalo Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
AnomalyDetectorLastEvaluationDuration	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Duração da última avaliação de um detector de anomalias Unidades: segundos Estatísticas válidas: média, mínimo, máximo, soma
AnomalyDetectorMissedEvaluations	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Número de avaliações perdidas de detectores de anomalias no intervalo Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
DiscardedSamples^**	-	`AWS/Prometheus`	Número de amostras descartadas por motivo Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
DiscardedSeries^**	-	`AWS/Prometheus`	Número de séries que contêm uma amostra descartada por motivo Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
DiscardedSamplesPerLabelSet	-	`AWS/Prometheus`	A contagem de amostras descartadas para cada conjunto de etiquetas definido pelo usuário Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
DiscardedSeriesPerLabelSet	-	`AWS/Prometheus`	A contagem de séries que contêm uma amostra descartada para cada conjunto de rótulos definido pelo usuário Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
IngestionRatePerLabelSet	-	`AWS/Prometheus`	A taxa de ingestão para cada conjunto de rótulos definido pelo usuário Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
QuerySamplesProcessed	-	`AWS/Prometheus`	Número de amostras de consulta processadas. Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
RuleEvaluations	-	`AWS/Prometheus`	Número total de avaliações de regras Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
RuleEvaluationFailures	-	`AWS/Prometheus`	Número de falhas na avaliação de regras no intervalo Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
RuleGroupIterationsMissed	-	`AWS/Prometheus`	Número de iterações de grupos de regras perdidas no intervalo. Unidades: contagem Estatísticas válidas: média, mínimo, máximo, soma
RuleGroupLastEvaluationDuration	-	`AWS/Prometheus`	Duração da última avaliação de um grupo de regras. Unidades: segundos Estatísticas válidas: média, mínimo, máximo, soma

^*As métricas do TPS são geradas a cada minuto e são uma média por segundo durante esse minuto. Períodos curtos de intermitência não serão capturados nas métricas do TPS.

^** Alguns dos motivos que fazem com que as amostras sejam descartadas são os seguintes. Nem todos os motivos abaixo aparecem na DiscardedSeries métrica.

Motivo	Significado
greater_than_max_sample_age	Descarte de amostras com mais de uma hora.
new-value-for-timestamp	As amostras duplicadas são enviadas com o mesmo carimbo de data/hora da amostra anterior, mas com valores diferentes.
per_labelset_series_limit	O usuário atingiu o limite total de séries ativas por conjunto de rótulos.
per_metric_series_limit	O usuário atingiu o limite ativo da série por métrica.
per_user_series_limit	O usuário atingiu o limite total de séries ativas.
rate_limited	Taxa de ingestão limitada.
sample-out-of-order	As amostras são enviadas fora de ordem e não podem ser processadas.
label_value_too_long	O valor do rótulo é maior do que o limite permitido de caracteres.
max_label_names_per_series	O usuário atingiu o limite de nomes dos rótulos por métrica.
missing_metric_name	O nome da métrica não foi fornecido.
metric_name_invalid	Nome da métrica inválido fornecido.
label_invalid	Rótulo inválido fornecido.
duplicate_label_names	Nomes de rótulos duplicados fornecidos.

nota

Uma métrica inexistente ou ausente é o mesmo que o valor dessa métrica ser 0.

nota

RuleGroupIterationsMissed, RuleEvaluations, RuleEvaluationFailures e RuleGroupLastEvaluationDuration têm a dimensão RuleGroup da seguinte estrutura:

RuleGroupNamespace;RuleGroup

Definindo um CloudWatch alarme nas métricas vendidas do Prometheus

Você pode monitorar o uso dos recursos do Prometheus usando alarmes. CloudWatch

Para definir um alarme para o número de ActiveSeries em Prometheus

Escolha a guia Métricas representadas graficamente e role para baixo até o ActiveSeriesrótulo.

Na visualização de Métricas gráficas, somente as métricas que estão sendo ingeridas no momento aparecerão.
Escolha o ícone de notificação na coluna Ações.
Em Especificar métrica e condições, insira a condição limite no campo Valor das condições e escolha Avançar.
Em Configurar ações, selecione um tópico existente do SNS ou crie um novo tópico do SNS para o qual enviar a notificação.
Em Adicionar nome e descrição, adicione o nome do alarme e uma descrição opcional.
Selecione Criar alarme.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Monitoramento de espaços de trabalho

CloudWatch Registros