Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Évaluation des alarmes
États d'alerte de métrique
Une alerte de métrique peut avoir les états suivants :
-
OK– La métrique ou l'expression se trouve dans le seuil défini. -
ALARM– La métrique ou l'expression se trouve à l'extérieur du seuil défini. -
INSUFFICIENT_DATA– L'alerte vient de commencer, la métrique n'est pas disponible, ou la quantité de données n'est pas suffisante pour permettre à la métrique de déterminer le statut de l'alerte.
État d'évaluation de l'alarme
Outre l'état de l'alarme, chaque alarme possède un état d'évaluation qui fournit des informations sur le processus d'évaluation des alarmes. Les états suivants peuvent se produire :
-
PARTIAL_DATA— Indique que toutes les données disponibles n'ont pas pu être récupérées en raison des limites de quotas. Pour de plus amples informations, veuillez consulter Comment les données partielles sont traitées. -
EVALUATION_ERROR— Indique les erreurs de configuration dans la configuration des alarmes qui nécessitent un examen et une correction. Reportez-vous au StateReason champ de l'alarme pour plus de détails. -
EVALUATION_FAILURE— Indique des CloudWatch problèmes temporaires. Nous recommandons une surveillance manuelle jusqu'à ce que le problème soit résolu
Vous pouvez consulter l'état de l'évaluation dans les détails de l'alarme dans la console, ou à l'aide de la commande describe-alarms CLI ou de DescribeAlarms l'API.
Paramètres d'évaluation des alarmes
Lorsque vous créez une alarme, vous spécifiez trois paramètres à activer pour évaluer CloudWatch à quel moment il convient de modifier l'état de l'alarme :
-
La Période est la durée nécessaire pour évaluer la métrique ou l'expression afin de créer chaque point de données pour une alerte. Elle est exprimée en secondes.
-
Evaluation Periods (Périodes d'évaluation) est le nombre de périodes, ou de points de données, les plus récents à évaluer pour déterminer l'état de l'alerte.
-
Datapoints to Alarm (Points de données avant l'alerte) est le nombre de points de données pendant les périodes d'évaluation qui doit être dépassé pour que l'alerte passe à l'état
ALARM. Les points de données au-delà du seuil n'ont pas besoin d'être consécutifs, mais ils doivent simplement tous correspondre au dernier nombre de points de données correspondant à la valeur Evaluation Period (Période d'évaluation).
Pour toute période d'une minute ou plus, une alerte est évaluée toutes les minutes et l'évaluation est basée sur la fenêtre de temps définie par la Période et les Périodes d'évaluation. Par exemple, si la Période est de 5 minutes (300 secondes) et que les Périodes d'évaluation sont de 1, alors à la fin de la cinquième minute, l'alerte est évaluée en fonction des données des minutes 1 à 5. Ensuite, à la fin de la minute 6, l'alerte est évaluée en fonction des données des minutes 2 à 6.
Si la période de l’alarme est de 10 secondes, 20 secondes ou 30 secondes, l’alarme est évaluée toutes les 10 secondes. Pour de plus amples informations, veuillez consulter alertes haute résolution.
Si le nombre de périodes d’évaluation multiplié par la durée de chaque période d’évaluation dépasse un jour, l’alarme est évaluée une fois par heure. Pour plus de détails sur la façon dont ces alarmes de plusieurs jours sont évaluées, consultezExemple d’évaluation d’une alarme sur plusieurs jours.
Dans la figure suivante, le seuil d'alerte d'une alerte de métrique est défini sur trois unités. Evaluation Period (Période d'évaluation) et Datapoints to Alarm (Points de données à l'alerte)sont définis sur 3. Cela signifie que lorsque les trois points de données des trois périodes consécutives les plus récentes sont au-dessus du seuil, l'alerte passe à l'état ALARM. Dans le schéma, cela se produit entre la troisième et la cinquième période. À la sixième période, la valeur repasse sous le seuil. L'une des périodes évaluées n'est donc pas en dépassement et l'état de l'alerte revient à l'état OK. Au cours de la neuvième période, le seuil est dépassé à nouveau, mais pendant une seule période. Par conséquent, le statut de l'alerte reste OK.
Lorsque vous configurez différentes valeurs pour Evaluation Periods (Périodes d'évaluation) et Datapoints to Alarm (Points de données avant l'alerte), vous définissez une alerte « M sur N ». Les points de données vers l'alarme sont (« M ») et les périodes d'évaluation (« N »). L'intervalle d'évaluation est le nombre de périodes d'évaluation multiplié par la durée de la période. Par exemple, si vous configurez 4 points de données sur 5 avec une période de 1 minute, l'intervalle d'évaluation est de 5 minutes. Si vous configurez 3 points de données sur 3 avec une période de 10 minutes, l'intervalle d'évaluation est de 30 minutes.
Note
Si des points de données sont manquants peu après la création d'une alarme et que la métrique a été signalée CloudWatch avant que vous ne créiez l'alarme, CloudWatch récupère les points de données les plus récents avant la création de l'alarme lors de l'évaluation de l'alarme.
alertes haute résolution
Si vous réglez une alarme sur une métrique haute résolution, vous pouvez spécifier une alarme haute résolution d'une durée de 10 secondes, 20 secondes ou 30 secondes. Les frais engendrés par des alertes haute résolution sont plus élevés. Pour plus d'informations sur les métriques haute résolution, consultez Publication de métriques personnalisées.
Exemple d’évaluation d’une alarme sur plusieurs jours
Une alarme est considérée comme une alarme sur plusieurs jours si le nombre de périodes d’évaluation multiplié par la durée de chaque période d’évaluation dépasse un jour. Les alarmes sur plusieurs jours sont évaluées une fois par heure. Lorsque des alarmes de plusieurs jours sont évaluées, seules les mesures CloudWatch prises en compte jusqu'à l'heure en cours à la minute 00 sont prises en compte lors de l'évaluation.
Prenons l’exemple d’une alarme qui surveille une tâche s’exécutant tous les 3 jours à 10 h 00.
-
À 10 h 02, la tâche échoue
-
À 10 h 03, l’alarme s’évalue et reste dans son état
OK, car l’évaluation ne prend en compte que les données jusqu’à 10 h 00. -
À 11 h 03, l’alarme prend en compte les données jusqu’à 11 h 00 et passe dans l’état
ALARM. -
À 11 h 43, vous corrigez l’erreur et la tâche s’exécute désormais correctement.
-
À 12 h 03, l’alarme s’évalue de nouveau, détecte que la tâche s’est exécutée avec succès et revient à l’état
OK.