View a markdown version of this page

Utilisez CloudWatch des métriques pour surveiller les ressources Amazon Managed Service for Prometheus - Amazon Managed Service for Prometheus

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisez CloudWatch des métriques pour surveiller les ressources Amazon Managed Service for Prometheus

Amazon Managed Service for Prometheus envoie des statistiques d'utilisation à. CloudWatch Ces métriques fournissent une visibilité sur l’utilisation de votre espace de travail. Les métriques vendues se trouvent dans les AWS/Prometheus espaces de noms AWS/Usage et dans. CloudWatch Ces statistiques sont disponibles CloudWatch gratuitement. Pour plus d’informations sur les métriques, consultez Métriques d’utilisation d’CloudWatch .

CloudWatch nom de la métrique Nom de la ressource CloudWatch espace de noms Description

ResourceCount*

CreateAlertManagerAlertsTPS

AWS/Usage

Le nombre maximum d'opérations d'CreateAlertManagerAlertsAPI par seconde, par espace de travail

ResourceCount*

DeleteAlertManagerSilencesTPS

AWS/Usage

Le nombre maximum d'opérations d'DeleteAlertManagerSilencesAPI par seconde, par espace de travail

ResourceCount*

GetAlertManagerSilenceTPS

AWS/Usage

Le nombre maximum d'opérations d'GetAlertManagerSilenceAPI par seconde, par espace de travail

ResourceCount*

GetAlertManagerStatusTPS

AWS/Usage

Le nombre maximum d'opérations d'GetAlertManagerStatusAPI par seconde, par espace de travail

ResourceCount*

GetLabelsTPS

AWS/Usage

Le nombre maximum d'opérations d'GetLabelsAPI par seconde, par espace de travail

ResourceCount*

GetMetricMetadataTPS

AWS/Usage

Le nombre maximum d'opérations d'GetMetricMetadataAPI par seconde, par espace de travail

ResourceCount*

GetSeriesTPS

AWS/Usage

Le nombre maximum d'opérations d'GetSeriesAPI par seconde, par espace de travail

ResourceCount

InhibitionRulesInAlertManagerDefinition

AWS/Usage

Nombre maximal de règles d’inhibition dans le fichier de définition du gestionnaire d’alertes.

ResourceCount*

ListAlertManagerAlertGroupInfosTPS

AWS/Usage

Le nombre maximum d'opérations d'ListAlertManagerAlertGroupInfosAPI par seconde, par espace de travail

ResourceCount*

ListAlertManagerAlertGroupsTPS

AWS/Usage

Le nombre maximum d'opérations d'ListAlertManagerAlertGroupsAPI par seconde, par espace de travail

ResourceCount*

ListAlertManagerAlertsTPS

AWS/Usage

Le nombre maximum d'opérations d'ListAlertManagerAlertsAPI par seconde, par espace de travail

ResourceCount*

ListAlertManagerReceiversTPS

AWS/Usage

Le nombre maximum d'opérations d'ListAlertManagerReceiversAPI par seconde, par espace de travail

ResourceCount*

ListAlertManagerSilencesTPS

AWS/Usage

Le nombre maximum d'opérations d'ListAlertManagerSilencesAPI par seconde, par espace de travail

ResourceCount*

ListAlertsTPS

AWS/Usage

Le nombre maximum d'opérations d'ListAlertsAPI par seconde, par espace de travail

ResourceCount*

ListRulesTPS

AWS/Usage

Le nombre maximum d'opérations d'ListRulesAPI par seconde, par espace de travail

ResourceCount*

PutAlertManagerSilencesTPS

AWS/Usage

Le nombre maximum d'opérations d'PutAlertManagerSilencesAPI par seconde, par espace de travail

ResourceCount

HAReplicaGroupCount

AWS/Usage

Nombre de groupes de répliques à haute disponibilité

ResourceCount*

QueryMetricsTPS

AWS/Usage

Opérations de requête par seconde

ResourceCount*

RemoteWriteTPS

AWS/Usage

Opérations d'écriture à distance par seconde

ResourceCount

ActiveAlerts

AWS/Usage

Nombre d’alertes actives par espace de travail

Unités : nombre

Statistiques valides : moyenne, minimale, maximale

ResourceCount

ActiveSeries

AWS/Usage

Nombre de séries actives par espace de travail

Unités : nombre

Statistiques valides : moyenne, minimale, maximale

ResourceCount

AlertAggregationGroupSize

AWS/Usage

Taille maximale d’un groupe d’agrégation d’alertes dans le fichier de définition du gestionnaire d’alertes. Chaque combinaison de valeurs d'étiquette group_by créerait un groupe d'agrégation.

ResourceCount

AlertManagerDefinitionSizeBytes

AWS/Usage

Taille maximale d'un fichier de définition du gestionnaire d'alertes, en octets.

ResourceCount

AllSilences

AWS/Usage

Nombre maximum de silences, y compris les silences expirés, actifs et en attente, par espace de travail.

ResourceCount

IngestionRate

AWS/Usage

Taux d’ingestion d’échantillons

Unités : nombre par seconde

Statistiques valides : moyenne, minimale, maximale

ResourceCount

RuleEvaluationInterval

AWS/Usage

Intervalle minimal d'évaluation des règles

ResourceCount

RuleGroupNamespaceDefinitionSizeBytes

AWS/Usage

Taille maximale d'un fichier de définition d'espace de noms de groupe de règles, en octets.

ResourceCount

TemplatesInAlertManagerDefinition

AWS/Usage

Nombre maximal de modèles dans le fichier de définition du gestionnaire d’alertes.

ResourceCount

WorkspaceCount

AWS/Usage

Le nombre maximum d'espaces de travail par région, par compte.

ResourceCount

SizeOfAlerts

AWS/Usage

Taille totale de toutes les alertes de l'espace de travail, en octets

Unités : octets

Statistiques valides : moyenne, minimale, maximale

ResourceCount

SuppressedAlerts

AWS/Usage

Nombre d’alertes supprimées par espace de travail. Une alerte peut être supprimée par un silence ou une inhibition.

Unités : nombre

Statistiques valides : moyenne, minimale, maximale

ResourceCount

UnprocessedAlerts

AWS/Usage

Nombre d’alertes non traitées par espace de travail. Une alerte n'est pas traitée une fois reçue par AlertManager, mais elle attend la prochaine évaluation du groupe d'agrégation.

Unités : nombre

Statistiques valides : moyenne, minimale, maximale

ResourceCount

AllAlerts

AWS/Usage

Nombre d'alertes par espace de travail, quel que soit l'état

Unités : nombre

Statistiques valides : moyenne, minimale, maximale

ResourceCount

AllRules

AWS/Usage

Nombre de règles par état par espace de travail

Unités : nombre

Statistiques valides : moyenne, minimale, maximale

ResourceCount

NativeHistogramActiveSeries

AWS/Usage

Le nombre de séries actives d'histogrammes natifs uniques par espace de travail

Unités : nombre

Statistiques valides : moyenne, minimale, maximale

ResourceCount

NativeHistogramIngestionRate

AWS/Usage

Taux d'ingestion d'échantillons d'histogrammes natifs par espace de travail et par seconde

Unités : nombre par seconde

Statistiques valides : moyenne, minimale, maximale

ActiveSeriesPerLabelSet

-

AWS/Prometheus

L'utilisation actuelle de la série active pour chaque jeu d'étiquettes défini par l'utilisateur

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

ActiveSeriesLimitPerLabelSet

-

AWS/Prometheus

La valeur limite de série active actuelle pour chaque jeu d'étiquettes défini par l'utilisateur

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

AlertManagerAlertsReceived

-

AWS/Prometheus

Nombre total d'alertes réussies reçues par le gestionnaire d'alertes

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

AlertManagerNotificationsFailed

-

AWS/Prometheus

Nombre de livraisons d’alertes ayant échoué

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

AlertManagerNotificationsThrottled

-

AWS/Prometheus

Nombre d’alertes bloquées

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

AnomalyDetectors

WorkspaceId

AWS/Prometheus

Nombre total de détecteurs d'anomalies pour un espace de travail donné

Unités : nombre

Statistiques valides : moyenne, minimale, maximale

AnomalyDetectorEvaluations

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

Nombre total d'évaluations de détecteurs d'anomalies

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

AnomalyDetectorEvaluationFailures

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

Nombre de défaillances des détecteurs d'anomalies dans l'intervalle

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

AnomalyDetectorLastEvaluationDuration

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

Durée de la dernière évaluation d'un détecteur d'anomalies

Unités : secondes

Statistiques valides : moyenne, minimum, maximum, somme

AnomalyDetectorMissedEvaluations

WorkspaceId, AnomalyDetectorId

AWS/Prometheus

Nombre d'évaluations de détecteurs d'anomalies manquées dans l'intervalle

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

DiscardedSamples**

-

AWS/Prometheus

Nombre d’échantillons rejetés par motif

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

DiscardedSeries**

-

AWS/Prometheus

Nombre de séries contenant un échantillon jeté pour une raison

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

DiscardedSamplesPerLabelSet

-

AWS/Prometheus

Le nombre d'échantillons rejetés pour chaque jeu d'étiquettes défini par l'utilisateur

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

DiscardedSeriesPerLabelSet

-

AWS/Prometheus

Nombre de séries contenant un échantillon jeté pour chaque jeu d'étiquettes défini par l'utilisateur

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

IngestionRatePerLabelSet

-

AWS/Prometheus

Le taux d'ingestion pour chaque jeu d'étiquettes défini par l'utilisateur

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

NativeHistogramIngestedBucketsRate

-

AWS/Prometheus

Taux de compartiments remplis reçus par seconde sur tous les échantillons d'histogrammes natifs. Exclut les seaux rejetés.

Unités : nombre par seconde

Statistiques valides : moyenne, minimale, maximale

NativeHistogramReducedResolutionCount

-

AWS/Prometheus

Nombre d'échantillons d'histogrammes natifs avec une résolution de compartiment automatiquement réduite. La résolution est réduite lorsqu'un échantillon dépasse la limite maximale du nombre de compartiments.

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

OutOfOrderIngestionRate

-

AWS/Prometheus

Out-of-order taux d'ingestion d'échantillons

Unités : nombre par seconde

Statistiques valides : moyenne, minimum, maximum, somme

OutOfOrderSampleAge***

-

AWS/Prometheus

Différence entre l'horodatage d'un échantillon en rupture de commande et son heure d'ingestion, qui indique l'âge de l'échantillon au moment de son ingestion.

Unités : secondes

Statistiques valides : moyenne, minimum, maximum, somme

QuerySamplesProcessed

-

AWS/Prometheus

Nombre d'échantillons de requêtes traités

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

RuleEvaluations

-

AWS/Prometheus

Nombre total d’évaluations de règles

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

RuleEvaluationFailures

-

AWS/Prometheus

Nombre d’échecs d’évaluation des règles dans l’intervalle

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

RuleGroupIterationsMissed

-

AWS/Prometheus

Nombre d’itérations de groupes de règles manquées dans l’intervalle.

Unités : nombre

Statistiques valides : moyenne, minimum, maximum, somme

RuleGroupLastEvaluationDuration

-

AWS/Prometheus

Durée de la dernière évaluation d'un groupe de règles.

Unités : secondes

Statistiques valides : moyenne, minimum, maximum, somme

* Les métriques TPS sont générées chaque minute et sont une moyenne par seconde sur cette minute. Les courtes périodes de rafale ne seront pas capturées dans les métriques TPS.

** Certaines des raisons pour lesquelles les échantillons sont jetés sont les suivantes. Les raisons ci-dessous n'apparaissent pas toutes dans la DiscardedSeries métrique.

Raison

Signification

greater_than_max_sample_age

Jeter les échantillons datant de plus d'une heure.

new-value-for-timestamp

Les échantillons dupliqués sont envoyés avec le même horodatage que l'échantillon précédent, mais avec des valeurs différentes.

per_labelset_series_limit

L'utilisateur a atteint le nombre total de séries actives par limite définie d'étiquettes.

per_metric_series_limit

L'utilisateur a atteint la limite de séries actives par métrique.

per_user_series_limit

L'utilisateur a atteint la limite du nombre total de séries actives.

rate_limited

Taux d'ingestion limité.

sample-out-of-order

Les échantillons sont envoyés hors commande et ne peuvent pas être traités.

échantillon trop vieux

L'échantillon est plus ancien que la période de rupture configurée et ne peut pas être traité.

limite de taux de commande hors limite

Out-of-order la limite de taux d'ingestion a été atteinte et l'échantillon ne peut pas être traité. Pour de plus amples informations, veuillez consulter Service Quotas d’Amazon Managed Service for Prometheus.

label_value_too long

La valeur de l'étiquette est supérieure à la limite de caractères autorisée.

max_label_names_per_series

L'utilisateur a sélectionné les noms des libellés par métrique.

missing_metric_name

Le nom de la métrique n'est pas fourni.

metric_name_invalid

Nom de métrique non valide fourni.

label_invalid

Libellé fourni non valide.

duplicate_label_names

Des noms d'étiquettes dupliqués ont été fournis.

histogramme_native_sample_size_bytes_exceeded

L'échantillon d'histogramme natif dépasse la taille d'échantillon maximale autorisée en octets.

Schéma d'histogramme natif non valide

La valeur de schéma de l'histogramme natif n'est pas valide. Les schémas valides sont compris entre -4 et 8.

histogramme_natif invalide

L'histogramme natif échoue à la validation (par exemple, nombre de compartiments négatif, nombre de compartiments non concordant ou travées de compartiments mal formées).

native_histogram_buckets_exceeded

L'histogramme natif dépasse le nombre maximal de compartiments et la résolution ne peut pas être réduite automatiquement.

native_histogram_rate_limited

L'échantillon d'histogramme natif a été rejeté car la limite de taux d'ingestion de l'histogramme natif a été atteinte.

par utilisateur_native_histogram_series_limit

L'utilisateur a atteint la limite de séries actives de l'histogramme natif par espace de travail.

*** La OutOfOrderSampleAge métrique inclut une Percentile dimension. Vous pouvez utiliser cette métrique pour déterminer le créneau horaire hors service approprié pour votre espace de travail. Les valeurs valides pour la Percentile dimension sont les suivantes.

Percentile

Description

p50

L'âge du 50e centile des échantillons en rupture de commande.

p99

L'âge du 99e centile des échantillons en rupture de commande.

max

Âge maximum des échantillons en rupture de commande.

Note

Une métrique inexistante ou manquante est identique à la valeur de cette métrique égale à 0.

Note

RuleGroupIterationsMissed, RuleEvaluationsRuleEvaluationFailures, et RuleGroupLastEvaluationDuration ont la RuleGroup dimension de la structure suivante :

RuleGroupNamespace;RuleGroup

Régler une CloudWatch alarme sur les métriques vendues par Prometheus

Vous pouvez surveiller l'utilisation des ressources Prometheus à l'aide d'alarmes. CloudWatch

Pour régler une alarme sur le nombre de ActiveSeries dans Prometheus
  1. Choisissez l'onglet Graphed metrics et faites défiler l'écran vers le bas jusqu'à l'ActiveSeriesétiquette.

    Dans la vue Graphed metrics, seules les métriques actuellement ingérées apparaissent.

  2. Sélectionnez l’icône de notification dans la colonne Actions.

  3. Dans Specify metric and conditions, entrez la condition de seuil dans le champ Conditions value et choisissez Suivant.

  4. Dans Configure actions, sélectionnez une rubrique SNS existante ou créez-en une nouvelle à laquelle envoyer la notification.

  5. Dans Add name and description, ajoutez le nom de l’alarme et une description facultative.

  6. Sélectionnez Créer une alerte.