Utilisez CloudWatch des métriques pour surveiller les ressources Amazon Managed Service for Prometheus

Amazon Managed Service for Prometheus envoie des statistiques d'utilisation à. CloudWatch Ces métriques fournissent une visibilité sur l’utilisation de votre espace de travail. Les métriques vendues se trouvent dans les AWS/Prometheus espaces de noms AWS/Usage et dans. CloudWatch Ces statistiques sont disponibles CloudWatch gratuitement. Pour plus d’informations sur les métriques, consultez Métriques d’utilisation d’CloudWatch .

CloudWatch nom de la métrique	Nom de la ressource	CloudWatch espace de noms	Description
ResourceCount^*	CreateAlertManagerAlertsTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`CreateAlertManagerAlerts`API par seconde, par espace de travail
ResourceCount^*	DeleteAlertManagerSilencesTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`DeleteAlertManagerSilences`API par seconde, par espace de travail
ResourceCount^*	GetAlertManagerSilenceTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`GetAlertManagerSilence`API par seconde, par espace de travail
ResourceCount^*	GetAlertManagerStatusTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`GetAlertManagerStatus`API par seconde, par espace de travail
ResourceCount^*	GetLabelsTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`GetLabels`API par seconde, par espace de travail
ResourceCount^*	GetMetricMetadataTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`GetMetricMetadata`API par seconde, par espace de travail
ResourceCount^*	GetSeriesTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`GetSeries`API par seconde, par espace de travail
ResourceCount	InhibitionRulesInAlertManagerDefinition	`AWS/Usage`	Nombre maximal de règles d’inhibition dans le fichier de définition du gestionnaire d’alertes.
ResourceCount^*	ListAlertManagerAlertGroupInfosTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`ListAlertManagerAlertGroupInfos`API par seconde, par espace de travail
ResourceCount^*	ListAlertManagerAlertGroupsTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`ListAlertManagerAlertGroups`API par seconde, par espace de travail
ResourceCount^*	ListAlertManagerAlertsTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`ListAlertManagerAlerts`API par seconde, par espace de travail
ResourceCount^*	ListAlertManagerReceiversTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`ListAlertManagerReceivers`API par seconde, par espace de travail
ResourceCount^*	ListAlertManagerSilencesTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`ListAlertManagerSilences`API par seconde, par espace de travail
ResourceCount^*	ListAlertsTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`ListAlerts`API par seconde, par espace de travail
ResourceCount^*	ListRulesTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`ListRules`API par seconde, par espace de travail
ResourceCount^*	PutAlertManagerSilencesTPS	`AWS/Usage`	Le nombre maximum d'opérations d'`PutAlertManagerSilences`API par seconde, par espace de travail
ResourceCount	HAReplicaGroupCount	`AWS/Usage`	Nombre de groupes de répliques à haute disponibilité
ResourceCount^*	QueryMetricsTPS	`AWS/Usage`	Opérations de requête par seconde
ResourceCount^*	RemoteWriteTPS	`AWS/Usage`	Opérations d'écriture à distance par seconde
ResourceCount	ActiveAlerts	`AWS/Usage`	Nombre d’alertes actives par espace de travail Unités : nombre Statistiques valides : moyenne, minimale, maximale
ResourceCount	ActiveSeries	`AWS/Usage`	Nombre de séries actives par espace de travail Unités : nombre Statistiques valides : moyenne, minimale, maximale
ResourceCount	AlertAggregationGroupSize	`AWS/Usage`	Taille maximale d’un groupe d’agrégation d’alertes dans le fichier de définition du gestionnaire d’alertes. Chaque combinaison de valeurs d'étiquette `group_by` créerait un groupe d'agrégation.
ResourceCount	AlertManagerDefinitionSizeBytes	`AWS/Usage`	Taille maximale d'un fichier de définition du gestionnaire d'alertes, en octets.
ResourceCount	AllSilences	`AWS/Usage`	Nombre maximum de silences, y compris les silences expirés, actifs et en attente, par espace de travail.
ResourceCount	IngestionRate	`AWS/Usage`	Taux d’ingestion d’échantillons Unités : nombre par seconde Statistiques valides : moyenne, minimale, maximale
ResourceCount	RuleEvaluationInterval	`AWS/Usage`	Intervalle minimal d'évaluation des règles
ResourceCount	RuleGroupNamespaceDefinitionSizeBytes	`AWS/Usage`	Taille maximale d'un fichier de définition d'espace de noms de groupe de règles, en octets.
ResourceCount	TemplatesInAlertManagerDefinition	`AWS/Usage`	Nombre maximal de modèles dans le fichier de définition du gestionnaire d’alertes.
ResourceCount	WorkspaceCount	`AWS/Usage`	Le nombre maximum d'espaces de travail par région, par compte.
ResourceCount	SizeOfAlerts	`AWS/Usage`	Taille totale de toutes les alertes de l'espace de travail, en octets Unités : octets Statistiques valides : moyenne, minimale, maximale
ResourceCount	SuppressedAlerts	`AWS/Usage`	Nombre d’alertes supprimées par espace de travail. Une alerte peut être supprimée par un silence ou une inhibition. Unités : nombre Statistiques valides : moyenne, minimale, maximale
ResourceCount	UnprocessedAlerts	`AWS/Usage`	Nombre d’alertes non traitées par espace de travail. Une alerte n'est pas traitée une fois reçue par AlertManager, mais elle attend la prochaine évaluation du groupe d'agrégation. Unités : nombre Statistiques valides : moyenne, minimale, maximale
ResourceCount	AllAlerts	`AWS/Usage`	Nombre d'alertes par espace de travail, quel que soit l'état Unités : nombre Statistiques valides : moyenne, minimale, maximale
ResourceCount	AllRules	`AWS/Usage`	Nombre de règles par état par espace de travail Unités : nombre Statistiques valides : moyenne, minimale, maximale
ResourceCount	NativeHistogramActiveSeries	`AWS/Usage`	Le nombre de séries actives d'histogrammes natifs uniques par espace de travail Unités : nombre Statistiques valides : moyenne, minimale, maximale
ResourceCount	NativeHistogramIngestionRate	`AWS/Usage`	Taux d'ingestion d'échantillons d'histogrammes natifs par espace de travail et par seconde Unités : nombre par seconde Statistiques valides : moyenne, minimale, maximale
ActiveSeriesPerLabelSet	-	`AWS/Prometheus`	L'utilisation actuelle de la série active pour chaque jeu d'étiquettes défini par l'utilisateur Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
ActiveSeriesLimitPerLabelSet	-	`AWS/Prometheus`	La valeur limite de série active actuelle pour chaque jeu d'étiquettes défini par l'utilisateur Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
AlertManagerAlertsReceived	-	`AWS/Prometheus`	Nombre total d'alertes réussies reçues par le gestionnaire d'alertes Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
AlertManagerNotificationsFailed	-	`AWS/Prometheus`	Nombre de livraisons d’alertes ayant échoué Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
AlertManagerNotificationsThrottled	-	`AWS/Prometheus`	Nombre d’alertes bloquées Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
AnomalyDetectors	WorkspaceId	`AWS/Prometheus`	Nombre total de détecteurs d'anomalies pour un espace de travail donné Unités : nombre Statistiques valides : moyenne, minimale, maximale
AnomalyDetectorEvaluations	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Nombre total d'évaluations de détecteurs d'anomalies Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
AnomalyDetectorEvaluationFailures	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Nombre de défaillances des détecteurs d'anomalies dans l'intervalle Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
AnomalyDetectorLastEvaluationDuration	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Durée de la dernière évaluation d'un détecteur d'anomalies Unités : secondes Statistiques valides : moyenne, minimum, maximum, somme
AnomalyDetectorMissedEvaluations	WorkspaceId, AnomalyDetectorId	`AWS/Prometheus`	Nombre d'évaluations de détecteurs d'anomalies manquées dans l'intervalle Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
DiscardedSamples^**	-	`AWS/Prometheus`	Nombre d’échantillons rejetés par motif Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
DiscardedSeries^**	-	`AWS/Prometheus`	Nombre de séries contenant un échantillon jeté pour une raison Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
DiscardedSamplesPerLabelSet	-	`AWS/Prometheus`	Le nombre d'échantillons rejetés pour chaque jeu d'étiquettes défini par l'utilisateur Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
DiscardedSeriesPerLabelSet	-	`AWS/Prometheus`	Nombre de séries contenant un échantillon jeté pour chaque jeu d'étiquettes défini par l'utilisateur Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
IngestionRatePerLabelSet	-	`AWS/Prometheus`	Le taux d'ingestion pour chaque jeu d'étiquettes défini par l'utilisateur Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
NativeHistogramIngestedBucketsRate	-	`AWS/Prometheus`	Taux de compartiments remplis reçus par seconde sur tous les échantillons d'histogrammes natifs. Exclut les seaux rejetés. Unités : nombre par seconde Statistiques valides : moyenne, minimale, maximale
NativeHistogramReducedResolutionCount	-	`AWS/Prometheus`	Nombre d'échantillons d'histogrammes natifs avec une résolution de compartiment automatiquement réduite. La résolution est réduite lorsqu'un échantillon dépasse la limite maximale du nombre de compartiments. Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
OutOfOrderIngestionRate	-	`AWS/Prometheus`	Out-of-order taux d'ingestion d'échantillons Unités : nombre par seconde Statistiques valides : moyenne, minimum, maximum, somme
OutOfOrderSampleAge^***	-	`AWS/Prometheus`	Différence entre l'horodatage d'un échantillon en rupture de commande et son heure d'ingestion, qui indique l'âge de l'échantillon au moment de son ingestion. Unités : secondes Statistiques valides : moyenne, minimum, maximum, somme
QuerySamplesProcessed	-	`AWS/Prometheus`	Nombre d'échantillons de requêtes traités Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
RuleEvaluations	-	`AWS/Prometheus`	Nombre total d’évaluations de règles Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
RuleEvaluationFailures	-	`AWS/Prometheus`	Nombre d’échecs d’évaluation des règles dans l’intervalle Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
RuleGroupIterationsMissed	-	`AWS/Prometheus`	Nombre d’itérations de groupes de règles manquées dans l’intervalle. Unités : nombre Statistiques valides : moyenne, minimum, maximum, somme
RuleGroupLastEvaluationDuration	-	`AWS/Prometheus`	Durée de la dernière évaluation d'un groupe de règles. Unités : secondes Statistiques valides : moyenne, minimum, maximum, somme

^* Les métriques TPS sont générées chaque minute et sont une moyenne par seconde sur cette minute. Les courtes périodes de rafale ne seront pas capturées dans les métriques TPS.

^** Certaines des raisons pour lesquelles les échantillons sont jetés sont les suivantes. Les raisons ci-dessous n'apparaissent pas toutes dans la DiscardedSeries métrique.

Raison	Signification
greater_than_max_sample_age	Jeter les échantillons datant de plus d'une heure.
new-value-for-timestamp	Les échantillons dupliqués sont envoyés avec le même horodatage que l'échantillon précédent, mais avec des valeurs différentes.
per_labelset_series_limit	L'utilisateur a atteint le nombre total de séries actives par limite définie d'étiquettes.
per_metric_series_limit	L'utilisateur a atteint la limite de séries actives par métrique.
per_user_series_limit	L'utilisateur a atteint la limite du nombre total de séries actives.
rate_limited	Taux d'ingestion limité.
sample-out-of-order	Les échantillons sont envoyés hors commande et ne peuvent pas être traités.
échantillon trop vieux	L'échantillon est plus ancien que la période de rupture configurée et ne peut pas être traité.
limite de taux de commande hors limite	Out-of-order la limite de taux d'ingestion a été atteinte et l'échantillon ne peut pas être traité. Pour de plus amples informations, veuillez consulter Service Quotas d’Amazon Managed Service for Prometheus.
label_value_too long	La valeur de l'étiquette est supérieure à la limite de caractères autorisée.
max_label_names_per_series	L'utilisateur a sélectionné les noms des libellés par métrique.
missing_metric_name	Le nom de la métrique n'est pas fourni.
metric_name_invalid	Nom de métrique non valide fourni.
label_invalid	Libellé fourni non valide.
duplicate_label_names	Des noms d'étiquettes dupliqués ont été fournis.
histogramme_native_sample_size_bytes_exceeded	L'échantillon d'histogramme natif dépasse la taille d'échantillon maximale autorisée en octets.
Schéma d'histogramme natif non valide	La valeur de schéma de l'histogramme natif n'est pas valide. Les schémas valides sont compris entre -4 et 8.
histogramme_natif invalide	L'histogramme natif échoue à la validation (par exemple, nombre de compartiments négatif, nombre de compartiments non concordant ou travées de compartiments mal formées).
native_histogram_buckets_exceeded	L'histogramme natif dépasse le nombre maximal de compartiments et la résolution ne peut pas être réduite automatiquement.
native_histogram_rate_limited	L'échantillon d'histogramme natif a été rejeté car la limite de taux d'ingestion de l'histogramme natif a été atteinte.
par utilisateur_native_histogram_series_limit	L'utilisateur a atteint la limite de séries actives de l'histogramme natif par espace de travail.

^*** La OutOfOrderSampleAge métrique inclut une Percentile dimension. Vous pouvez utiliser cette métrique pour déterminer le créneau horaire hors service approprié pour votre espace de travail. Les valeurs valides pour la Percentile dimension sont les suivantes.

Percentile	Description
p50	L'âge du 50e centile des échantillons en rupture de commande.
p99	L'âge du 99e centile des échantillons en rupture de commande.
max	Âge maximum des échantillons en rupture de commande.

Note

Une métrique inexistante ou manquante est identique à la valeur de cette métrique égale à 0.

Note

RuleGroupIterationsMissed, RuleEvaluationsRuleEvaluationFailures, et RuleGroupLastEvaluationDuration ont la RuleGroup dimension de la structure suivante :

RuleGroupNamespace;RuleGroup

Régler une CloudWatch alarme sur les métriques vendues par Prometheus

Vous pouvez surveiller l'utilisation des ressources Prometheus à l'aide d'alarmes. CloudWatch

Pour régler une alarme sur le nombre de ActiveSeries dans Prometheus

Choisissez l'onglet Graphed metrics et faites défiler l'écran vers le bas jusqu'à l'ActiveSeriesétiquette.

Dans la vue Graphed metrics, seules les métriques actuellement ingérées apparaissent.
Sélectionnez l’icône de notification dans la colonne Actions.
Dans Specify metric and conditions, entrez la condition de seuil dans le champ Conditions value et choisissez Suivant.
Dans Configure actions, sélectionnez une rubrique SNS existante ou créez-en une nouvelle à laquelle envoyer la notification.
Dans Add name and description, ajoutez le nom de l’alarme et une description facultative.
Sélectionnez Créer une alerte.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Surveillance des espaces de travail

CloudWatch Journaux