Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Objectifs de niveau de service (SLOs)
Vous pouvez utiliser les signaux d'application pour créer des objectifs de niveau de service pour les services relatifs à vos activités commerciales ou à vos dépendances critiques. En créant SLOs sur ces services, vous pourrez les suivre sur le tableau de bord SLO, ce qui vous donnera une at-a-glance vue d'ensemble de vos opérations les plus importantes.
En plus de créer un aperçu rapide que vos opérateurs peuvent utiliser pour connaître l'état actuel des opérations critiques, vous pouvez l'utiliser SLOs pour suivre les performances à long terme de vos services, afin de vous assurer qu'ils répondent à vos attentes. Si vous avez conclu des accords de niveau de service avec des clients, ils SLOs constituent un excellent outil pour vous assurer qu'ils sont respectés.
L'évaluation de l'état de santé de vos services SLOs commence par la définition d'objectifs clairs et mesurables basés sur des indicateurs de performance clés, à savoir des indicateurs de niveau de service (SLIs). Un SLO suit les performances du SLI par rapport au seuil et à l’objectif que vous avez définis, et indique dans quelle mesure les performances de votre application se situent par rapport au seuil.
Application Signals vous aide SLOs à définir vos indicateurs de performance clés. Application Signals collecte Latency
et Availability
mesure automatiquement chaque service et chaque opération qu'elle découvre, et ces indicateurs sont souvent idéaux à utiliser comme tels SLIs. Avec l'assistant de création de SLO, vous pouvez utiliser ces métriques pour votre SLOs. Vous pouvez ensuite suivre l'état de chacun de vos appareils à l' SLOs aide des tableaux de bord des signaux d'application.
Vous pouvez définir SLOs des opérations ou des dépendances spécifiques que votre service appelle ou utilise. Vous pouvez utiliser n'importe quelle CloudWatch métrique ou expression métrique comme SLI, en plus d'utiliser les Availability
métriques Latency
et.
La création SLOs est très importante pour tirer le meilleur parti des signaux CloudWatch d'application. Une fois que vous les avez créés SLOs, vous pouvez consulter leur état dans la console Application Signals pour voir rapidement lesquels de ces services et opérations critiques fonctionnent bien et lesquels ne le sont pas. Le fait SLOs d'avoir à effectuer le suivi présente les principaux avantages suivants :
Il est plus facile pour vos opérateurs de services de voir l’état de fonctionnement actuel des services critiques par rapport au SLI. Ils peuvent ensuite rapidement trier et identifier les services et les opérations non saines.
Vous pouvez suivre les performances de vos services par rapport à des objectifs métier mesurables sur de longues périodes.
En choisissant ce que vous voulez SLOs faire, vous priorisez ce qui est important pour vous. Les tableaux de bord d’Application Signals présentent automatiquement des informations sur ce que vous avez priorisé.
Lorsque vous créez un SLO, vous pouvez également choisir de créer des CloudWatch alarmes en même temps pour surveiller le SLOs. Vous pouvez définir des alarmes qui surveillent les dépassements du seuil, ainsi que les niveaux d’alerte. Ces alarmes peuvent vous avertir automatiquement si les métriques SLO dépassent le seuil que vous avez défini ou s’approchent d’un seuil d’avertissement. Par exemple, un SLO proche de son seuil d’alerte peut vous indiquer que votre équipe devra peut-être ralentir le taux de désabonnement de l’application pour s’assurer que les objectifs de performance à long terme sont atteints.
Rubriques
Concepts SLO
Un SLO comprend les composants suivants :
Un indicateur de niveau de service (SLI), qui est une métrique de performance clé que vous spécifiez. Il représente le niveau de performance souhaité pour votre application. Application Signals collecte automatiquement les indicateurs clés
Latency
ainsi queAvailability
les services et opérations qu'elle découvre, et ces indicateurs peuvent souvent être idéaux SLOs à définir.Vous choisissez le seuil à utiliser pour votre SLI. Par exemple, 200 ms pour la latence.
Un objectif ou un objectif de réalisation, qui est le pourcentage de temps ou de demandes pendant lesquels le SLI est censé atteindre le seuil sur chaque intervalle de temps. Les intervalles de temps peuvent être de quelques heures ou d’une année.
Les intervalles peuvent être des intervalles calendaires ou des intervalles glissants.
Les intervalles du calendrier sont alignés sur le calendrier, par exemple pour un SLO suivi par mois. CloudWatch ajuste automatiquement les chiffres de santé, de budget et de réussite en fonction du nombre de jours par mois. Les intervalles calendaires sont mieux adaptés aux objectifs métier mesurés sur une base alignée sur le calendrier.
Les intervalles glissants sont calculés sur une base continue. Les intervalles glissants sont mieux adaptés au suivi de l’expérience utilisateur récente de votre application.
La période est une unité de temps plus courte, et plusieurs périodes constituent un intervalle. Les performances de l’application sont comparées au SLI pendant chaque période comprise dans l’intervalle. Pour chaque période, il est déterminé que l’application a atteint ou non les performances nécessaires.
Par exemple, un objectif de 99 % avec un intervalle calendaire d’un jour et une période d’une minute signifie que l’application doit atteindre ou atteindre le seuil de réussite pendant 99 % des périodes d’une minute de la journée. Si c’est le cas, le SLO est atteint pour ce jour-là. Le jour suivant correspond à un nouvel intervalle d’évaluation, et l’application doit atteindre ou atteindre le seuil de réussite pendant 99 % des périodes d’une minute du deuxième jour pour atteindre le SLO du deuxième jour.
Un SLI peut être basé sur l’une des nouvelles métriques d’application standard collectées par Application Signals. Il peut également s'agir de n'importe quelle CloudWatch métrique ou expression métrique. Les métriques d’application standard que vous pouvez utiliser pour un SLI sont Latency
et Availability
. Availability
représente le nombre de réponses réussies divisé par le nombre total de demandes. Il est calculé sous la forme (1 - taux de défaillance) * 100, les réponses aux défaillances étant des erreurs 5xx
. Les réponses positives sont des réponses sans erreur 5XX
. Les réponses 4XX
sont considérées comme réussies.
Calculer le budget d'erreur et le résultat atteint en fonction des périodes SLOs
Lorsque vous consultez les informations relatives à un SLO, vous pouvez voir son état de santé actuel et son budget d’erreurs. Le budget d’erreur est le laps de temps compris dans l’intervalle pendant lequel il est possible de dépasser le seuil tout en permettant d’atteindre le SLO. Le budget d’erreurs total est la quantité totale de temps de dépassement qui peut être tolérée sur l’ensemble de l’intervalle. Le budget d’erreurs restant est le temps de dépassement restant qui peut être toléré pendant l’intervalle en cours. Ceci après avoir soustrait du budget d’erreur total le temps de dépassement qui s’est déjà produit.
La figure suivante illustre les concepts de budget de réalisation et d’erreur pour un objectif avec un intervalle de 30 jours, des périodes d’une minute et un objectif de réalisation de 99 %. 30 jours comprennent 43 200 périodes d’une minute. 99 % de 43 200, c’est 42 768, donc 42 768 minutes par mois doivent être saines pour que le SLO soit atteint. Jusqu’à présent, dans l’intervalle actuel, 130 des périodes d’une minute n’étaient pas saines.

Détermination du succès au cours de chaque période
Au cours de chaque période, les données du SLI sont agrégées en un seul point de données sur la base des statistiques utilisées pour le SLI. Ce point de données représente la durée totale de la période. Ce point de données unique est comparé au seuil SLI pour déterminer si la période est saine. L’affichage sur le tableau de bord des périodes non saines pendant l’intervalle de temps en cours peut avertir vos opérateurs de services que le service doit être trié.
S’il est déterminé que la période n’est pas saine, la durée totale de la période est prise en compte comme un échec dans le calcul du budget d’erreur. Le suivi du budget d’erreurs vous permet de savoir si le service atteint les performances souhaitées sur une longue période.
Exclusions liées aux fenêtres horaires
Les exclusions de créneaux horaires sont des blocs de temps dont les dates de début et de fin sont définies. Cette période est exclue des indicateurs de performance du SLO et vous pouvez planifier des fenêtres d'exclusion ponctuelles ou récurrentes. Par exemple, maintenance planifiée.
Note
Pour les données basées sur les périodes SLOs, les données SLI figurant dans la fenêtre d'exclusion sont considérées comme non violées.
Pour les demandes basées sur des demandes SLOs, toutes les bonnes et mauvaises demandes de la fenêtre d'exclusion sont exclues.
Lorsqu'un intervalle pour un SLO basé sur des demandes est complètement exclu, une métrique de taux d'atteinte par défaut de 100 % est publiée.
Vous ne pouvez spécifier que des fenêtres temporelles dont la date de début est future.
Calculez le budget d'erreur et le résultat atteint en fonction des demandes SLOs
Une fois que vous avez créé un SLO, vous pouvez récupérer les rapports budgétaires relatifs aux erreurs correspondantes. Un budget d'erreur est le nombre de demandes pour lesquelles votre application peut ne pas être conforme à l'objectif du SLO, tout en permettant à votre application d'atteindre cet objectif. Pour un SLO basé sur les demandes, le budget d'erreurs restant est dynamique et peut augmenter ou diminuer, en fonction du ratio entre le nombre de bonnes demandes et le nombre total de demandes
Le tableau suivant illustre le calcul d'un SLO basé sur les demandes avec un intervalle de 5 jours et un objectif d'atteinte de 85 %. Dans cet exemple, nous supposons qu'il n'y a aucun trafic avant le jour 1. Le SLO n'a pas atteint son objectif lors de la dixième journée.
Heure | Total requests (Nombre total de requêtes) | Mauvaises demandes | Nombre total cumulé de demandes au cours des 5 derniers jours | Total cumulé des bonnes demandes au cours des 5 derniers jours | Réalisation basée sur les demandes | Total des demandes de budget | Demandes de budget restantes |
---|---|---|---|---|---|---|---|
Jour 1 |
10 | 1 |
10 |
9 |
9/10 = 90 % |
1.5 |
0.5 |
Jour 2 |
5 |
1 |
15 |
13 |
13/15 = 86 % |
2.3 |
0.3 |
Jour 3 |
1 |
1 |
16 |
13 |
13/16 = 81 % |
2,4 |
-0,6 |
Jour 4 |
24 |
0 |
40 |
37 |
37/40 = 92 % |
6.0 |
3.0 |
Jour 5 |
20 |
5 |
60 |
52 |
52/60 = 87 % |
9.0 |
1.0 |
Jour 6 |
6 |
2 |
56 |
47 |
47/56 = 84 % |
8,4 |
-0,6 |
Jour 7 |
10 |
3 |
61 |
50 |
50/61 = 82 % |
9,2 |
-1,8 |
8ème jour |
15 |
6 |
75 |
59 |
59/75 = 79 % |
11,3 |
-4,7 |
Jour 9 |
12 |
1 |
63 |
46 |
46/63 = 73 % |
9,5 |
-7,5 |
10ème jour |
5 |
57 |
40 |
40/57 = 70 % |
8,5 |
-8,5 | |
Résultat final des 5 derniers jours |
|
70 % |
Calculez les taux de combustion et configurez éventuellement des alarmes de taux de combustion
Vous pouvez utiliser les signaux d'application pour calculer les taux de combustion correspondant à vos objectifs de niveau de service. Un taux de combustion est une métrique qui indique à quelle vitesse le service consomme le budget d'erreurs, par rapport à l'objectif d'atteinte du SLO. Il est exprimé sous la forme d'un facteur multiple du taux d'erreur de référence.
Le taux de combustion est calculé en fonction du taux d'erreur de référence, qui dépend de l'objectif atteint. L'objectif d'atteinte est le pourcentage de périodes normales ou de demandes réussies qui doivent être atteintes pour atteindre l'objectif du SLO. Le taux d'erreur de référence est de (100 % - pourcentage de l'objectif atteint), et ce chiffre épuiserait le budget d'erreurs complet exact à la fin de l'intervalle de temps du SLO. Ainsi, un SLO avec un objectif d'atteinte de 99 % aurait un taux d'erreur de référence de 1 %.
La surveillance du taux de combustion nous indique à quel point nous nous situons par rapport au taux d'erreur de référence. Encore une fois, si l'on prend l'exemple d'un objectif de réalisation de 99 %, ce qui suit est vrai :
Taux de combustion = 1 : Si le taux de combustion reste exactement au taux d'erreur de référence en permanence, nous atteignons exactement l'objectif du SLO.
Taux de combustion < 1 : Si le taux de combustion est inférieur au taux d'erreur de référence, nous sommes sur la bonne voie pour dépasser l'objectif du SLO.
Taux de combustion > 1 : Si le taux de combustion est supérieur au taux d'erreur de référence, nous avons une chance de ne pas atteindre l'objectif SLO.
Lorsque vous créez des taux de combustion pour votre SLOs, vous pouvez également choisir de créer des CloudWatch alarmes en même temps pour surveiller les taux de combustion. Vous pouvez définir un seuil pour les taux de combustion et les alarmes peuvent automatiquement vous avertir si les indicateurs de taux de combustion dépassent le seuil que vous avez défini. Par exemple, un taux de combustion proche de son seuil peut vous indiquer que le SLO élimine le budget d'erreurs plus rapidement que votre équipe ne peut le tolérer et que votre équipe devra peut-être ralentir le taux de désabonnement de l'application pour s'assurer que les objectifs de performance à long terme sont atteints.
La création d’alarmes entraîne des frais. Pour plus d'informations sur CloudWatch les tarifs, consultez Amazon CloudWatch Pricing
Calculez le taux de combustion
Pour calculer le taux de combustion, vous devez définir une fenêtre rétrospective. La fenêtre rétrospective correspond à la durée pendant laquelle le taux d'erreur doit être mesuré.
burn rate = error rate over the look-back window / (100% - attainment goal)
Note
Lorsqu'aucune donnée n'est disponible pour la période de combustion, Application Signals calcule la vitesse de combustion en fonction de l'atteinte.
Le taux d'erreur est calculé comme le rapport entre le nombre d'événements défectueux et le nombre total d'événements pendant la fenêtre de taux de combustion :
Pour les périodes SLOs, le taux d'erreur est calculé en divisant les mauvaises périodes par le nombre total de périodes. Le total des périodes représente l'ensemble des périodes pendant la fenêtre rétrospective.
Pour les demandes basées sur les demandes SLOs, il s'agit d'une mesure du nombre de mauvaises demandes divisée par le nombre total de demandes. Le nombre total de demandes est le nombre de demandes pendant la fenêtre de rétrospective.
La fenêtre rétrospective doit être un multiple de la durée de la période SLO et doit être inférieure à l'intervalle SLO.
Déterminer le seuil approprié pour une alarme de taux de combustion
Lorsque vous configurez une alarme de vitesse de combustion, vous devez choisir une valeur pour la vitesse de combustion comme seuil d'alarme. La valeur de ce seuil dépend de la durée de l'intervalle SLO et de la fenêtre rétrospective, ainsi que de la méthode ou du modèle mental que votre équipe souhaite adopter. Il existe deux méthodes principales pour déterminer le seuil.
Méthode 1 : déterminez le pourcentage du budget d'erreur total estimé que votre équipe est prête à dépenser dans la fenêtre rétrospective.
Si vous souhaitez vous inquiéter lorsque X % du budget d'erreur estimé est dépensé au cours des dernières heures passées à examiner le taux de combustion, le seuil de taux de combustion est le suivant :
burn rate threshold = X% * SLO interval length / look-back window size
Par exemple, 5 % d'un budget d'erreur de 30 jours (720 heures) passé plus d'une heure nécessite un taux de combustion de. 5% * 720 / 1 = 36
Par conséquent, si la fenêtre rétrospective de la vitesse de combustion est d'une heure, nous fixons le seuil de vitesse de combustion à 36.
Vous pouvez utiliser la CloudWatch console pour créer des alarmes de taux de combustion à l'aide de cette méthode. Vous pouvez spécifier le nombre X, et le seuil est déterminé à l'aide de la formule ci-dessus.
La durée de l'intervalle SLO est déterminée en fonction du type d'intervalle SLO :
Dans le SLOs cas d'un intervalle continu, il s'agit de la durée de l'intervalle en heures.
Pour SLOs les intervalles basés sur le calendrier :
Si l'unité est le jour ou la semaine, il s'agit de la durée de l'intervalle en heures.
Si l'unité est un mois, nous prenons 30 jours comme durée estimée et la convertissons en heures.
Méthode 2 : Déterminer le délai jusqu'à épuisement du budget pour le prochain intervalle
Pour que l'alarme vous avertisse lorsque le taux d'erreur actuel affiché dans la dernière fenêtre rétrospective indique qu'il ne reste plus que X heures avant l'épuisement du budget (en supposant que le budget restant est actuellement de 100 %), vous pouvez utiliser la formule suivante pour déterminer le seuil de consommation.
burn rate threshold = SLO interval length / X
Nous soulignons que le délai jusqu'à l'épuisement du budget (X) dans la formule ci-dessus suppose que le budget total restant est actuellement de 100 % et ne tient donc pas compte du montant du budget déjà dépensé pendant cet intervalle. Nous pouvons également considérer cela comme le délai avant l'épuisement du budget pour le prochain intervalle.
Procédures pas à pas pour les alarmes de combustion
Prenons l'exemple d'un SLO avec un intervalle continu de 28 jours. Le réglage d'une alarme de taux de combustion pour ce SLO se fait en deux étapes :
Réglez le taux de combustion et la fenêtre de rétrospective.
Créez une CloudWatch alarme qui surveille le taux de combustion.
Pour commencer, déterminez la part du budget total d'erreurs que le service est prêt à absorber dans un délai donné. En d'autres termes, énoncez votre objectif en utilisant cette phrase : « Je veux être alerté lorsque X % de mon budget d'erreurs total est consommé en M minutes. »
Par exemple, vous pouvez définir l'objectif d'être alerté lorsque 2 % du budget d'erreurs total sont consommés dans les 60 minutes.
Pour définir le taux de combustion, vous devez d'abord définir la fenêtre rétrospective. La fenêtre rétrospective est M, soit 60 minutes dans cet exemple.
Ensuite, vous créez l' CloudWatch alarme. Dans ce cas, vous devez définir un seuil pour le taux de combustion. Si le taux de combustion dépasse ce seuil, l'alarme vous en informera. Pour trouver le seuil, utilisez la formule suivante :
burn rate threshold = X% * SLO interval length/ look-back window size
Dans cet exemple, X vaut 2 car nous voulons être alertés si 2 % du budget d'erreurs est consommé dans les 60 minutes. La durée de l'intervalle est de 40 320 minutes (28 jours), et la fenêtre rétrospective est de 60 minutes. La réponse est donc la suivante :
burn rate threshold = 2% * 40,320 / 60 = 13.44.
Dans cet exemple, vous devez définir 13,44 comme seuil d'alarme.
Plusieurs alarmes avec différentes fenêtres
En configurant des alarmes sur plusieurs fenêtres rétrospectives, vous pouvez rapidement détecter les fortes augmentations du taux d'erreur liées à la courte fenêtre, tout en détectant des augmentations plus faibles du taux d'erreur qui finissent par épuiser le budget d'erreurs si elles passent inaperçues.
En outre, vous pouvez régler une alarme composite sur une vitesse de combustion avec une fenêtre longue et sur une vitesse de combustion avec une fenêtre courte (1/12e de la longue fenêtre), et être informé uniquement lorsque les deux taux de combustion dépassent un seuil. De cette façon, vous pouvez vous assurer de n'être alerté que pour les situations qui se produisent toujours. Pour plus d'informations sur les alarmes composites dans CloudWatch, consultezCombinaison d'alarmes.
Note
Vous pouvez définir une alarme métrique sur une vitesse de combustion lorsque vous créez la vitesse de combustion. Pour configurer une alarme composite sur plusieurs alarmes de vitesse de combustion, vous devez suivre les instructions fournies dans. Créer une alerte composite
Une stratégie d'alarme composite recommandée dans le manuel d'ingénierie de fiabilité des sites de Google
Une alarme composite qui surveille deux alarmes, l'une avec une fenêtre d'une heure et l'autre avec une fenêtre de cinq minutes.
Une deuxième alarme composite qui surveille deux alarmes, l'une avec une fenêtre de six heures et l'autre avec une fenêtre de 30 minutes.
Une troisième alarme composite qui surveille deux alarmes, l'une avec une fenêtre de trois jours et l'autre avec une fenêtre de six heures.
Les étapes pour effectuer cette configuration sont les suivantes :
-
Créez cinq taux de combustion, avec des fenêtres de cinq minutes, 30 minutes, une heure, six heures et trois jours.
Créez les trois paires d' CloudWatch alarmes suivantes. Chaque paire comprend une fenêtre longue et une fenêtre courte représentant 1/12e de la fenêtre longue, et les seuils sont déterminés à l'aide des étapes de saisie. Déterminer le seuil approprié pour une alarme de taux de combustion Lorsque vous calculez le seuil pour chaque alarme de la paire, utilisez la fenêtre rétrospective la plus longue de la paire dans votre calcul.
Alarmes relatives aux taux de combustion d'une heure et d'une durée de 5 minutes (le seuil est déterminé par 2 % du budget total)
Alarmes relatives aux taux de combustion en 6 heures et 30 minutes (le seuil est déterminé par 5 % du budget total)
Alarmes relatives aux taux de combustion sur 3 jours et 6 heures (le seuil est déterminé par 10 % du budget total)
Pour chacune de ces paires, créez une alarme composite pour être alerté lorsque les deux alarmes individuelles passent en état ALARM. Pour plus d'informations sur la création d'alarmes composites, consultezCréer une alerte composite.
Par exemple, si vos alarmes pour la première paire (fenêtre d'une heure et fenêtre de cinq minutes) sont nommées
OneHourBurnRate
etFiveMinuteBurnRate
que la règle d'alarme CloudWatch composite seraitALARM(OneHourBurnRate) AND ALARM(FiveMinuteBurnRate)
La stratégie précédente n'est possible que pour SLOs une durée d'intervalle d'au moins trois heures. Pour SLOs les intervalles plus courts, nous vous recommandons de commencer par une paire d'alarmes de taux de combustion, l'une d'entre elles ayant une fenêtre rétrospective égale à 1/12e de la fenêtre rétrospective de l'autre alarme. Réglez ensuite une alarme composite sur cette paire.
Création d’un SLO
Nous vous recommandons de définir à la fois la latence et SLOs la disponibilité de vos applications critiques. Ces indicateurs collectés par Application Signals correspondent aux objectifs métier communs.
Vous pouvez également définir SLOs n'importe quelle CloudWatch métrique ou toute expression mathématique de métrique qui aboutit à une seule série chronologique.
La première fois que vous créez un SLO dans votre compte, le rôle AWSServiceRoleForCloudWatchApplicationSignalslié au service est CloudWatch automatiquement créé dans votre compte, s'il n'existe pas déjà. Ce rôle lié au service permet de CloudWatch collecter des données de CloudWatch journal, des données de suivi X-Ray, des données CloudWatch métriques et des données de balisage à partir des applications de votre compte. Pour plus d'informations sur les rôles CloudWatch liés à un service, consultez. Utilisation des rôles liés aux services pour CloudWatch
Lorsque vous créez un SLO, vous spécifiez s'il s'agit d'un SLO basé sur des périodes ou d'un SLO basé sur des demandes. Chaque type de SLO dispose d'une méthode différente pour évaluer les performances de votre application par rapport à son objectif d'atteinte.
Un SLO basé sur des périodes utilise des périodes définies dans un intervalle de temps total spécifié. Pour chaque période, Application Signals détermine si l'application a atteint son objectif. Le taux de réussite est calculé comme suit :
number of good periods/number of total periods
Par exemple, pour un SLO basé sur des périodes, atteindre un objectif de 99,9 % signifie que dans votre intervalle, votre application doit atteindre son objectif de performance pendant au moins 99,9 % des périodes.
Un SLO basé sur les demandes n'utilise pas de périodes prédéfinies. Au lieu de cela, le SLO mesure
number of good requests/number of total requests
pendant l'intervalle. À tout moment, vous pouvez trouver le rapport entre les bonnes demandes et le nombre total de demandes pour l'intervalle allant jusqu'à l'horodatage que vous spécifiez, et mesurer ce ratio par rapport à l'objectif défini dans votre SLO.
Créez un SLO basé sur les périodes
Utilisez la procédure suivante pour créer un SLO basé sur des périodes.
Pour créer un SLO basé sur les périodes
Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/
. Dans le panneau de navigation, sélectionnez Objectifs de niveau de service (SLO).
Choisissez Créer un SLO.
Saisissez un nom pour le SLO. L’inclusion du nom d’un service ou d’une opération, ainsi que des mots clés appropriés tels que la latence ou la disponibilité, vous aidera à identifier rapidement ce que l’état du SLO indique lors du triage.
Pour Définir un indicateur de niveau de service (SLI), procédez de l’une des manières suivantes :
Pour définir le SLO sur l’une des métriques d’application standard
Latency
ouAvailability
:Choisissez Opération de service.
Sélectionnez un compte que ce SLO surveillera.
Sélectionnez le service que ce SLO surveillera.
Sélectionnez l’opération que ce SLO surveillera.
Pour Sélectionner une méthode de calcul, choisissez Périodes.
Les listes déroulantes Sélectionner un service et Sélectionner une opération contiennent les services et les opérations qui ont été actifs au cours des dernières 24 heures.
Choisissez Disponibilité ou Latence, puis définissez le seuil.
Pour définir le SLO sur une CloudWatch métrique ou une expression mathématique de CloudWatch métrique, procédez comme suit :
Choisissez CloudWatch Metric.
Choisissez Sélectionner une CloudWatch métrique.
L’écran Sélectionner une métrique apparaît. Utilisez les onglets Parcourir ou Requête pour trouver la métrique souhaitée, ou créez une expression mathématique de métrique.
Après avoir sélectionné la métrique souhaitée, choisissez l’onglet Graphiques des métriques et sélectionnez la Statistique et la Période à utiliser pour le SLO. Ensuite, choisissez Select metric (Sélectionner une métrique).
Pour plus d’informations sur ces écrans, veuillez consulter Représenter graphiquement une métrique et Ajouter une expression mathématique à un CloudWatch graphique.
Pour Sélectionner une méthode de calcul, choisissez Périodes.
Pour Définir la condition, sélectionnez un opérateur de comparaison et un seuil que le SLO utilisera comme indicateur de réussite.
Pour définir le SLO en fonction de la dépendance d'un service par rapport à l'une des métriques d'application standard
Latency
ouAvailability
:Choisissez Service Dependency.
Sous Sélectionnez un service, sélectionnez le service que ce SLO surveillera.
En fonction du service sélectionné, sous Sélectionner une opération, vous pouvez sélectionner une opération spécifique ou sélectionner Toutes les opérations pour utiliser les métriques de toutes les opérations de ce service qui appellent une dépendance.
Sous Sélectionnez une dépendance, vous pouvez rechercher et sélectionner la dépendance requise dont vous souhaitez mesurer la fiabilité.
Après avoir sélectionné la dépendance, vous pouvez afficher le graphique mis à jour et les données historiques en fonction de la dépendance.
Si vous avez sélectionné Service Operation ou Service Dependency à l'étape 5, définissez la durée de la période pour ce SLO.
Définissez l’intervalle et l’objectif de réalisation pour le SLO. Pour plus d’informations sur les intervalles et les objectifs de réalisation et la manière dont ils fonctionnent ensemble, veuillez consulter.la rubrique Concepts SLO.
(Facultatif) Pour définir les taux de combustion SLO, procédez comme suit :
Définissez la durée (en minutes) de la fenêtre de rétrospective pour la vitesse de combustion. Pour plus d'informations sur le choix de cette longueur, consultezProcédures pas à pas pour les alarmes de combustion.
Pour créer des taux de combustion supplémentaires pour ce SLO, choisissez Ajouter des taux de combustion supplémentaires et définissez la fenêtre rétrospective pour les taux de combustion supplémentaires.
(Facultatif) Créez des alarmes de taux de combustion en procédant comme suit :
Sous Définir les alarmes de vitesse de combustion, cochez la case correspondant à chaque fréquence de combustion pour laquelle vous souhaitez créer une alarme. Pour chacune de ces alarmes, procédez comme suit :
Spécifiez la rubrique Amazon SNS à utiliser pour les notifications lorsque l'alarme passe à l'état ALARM.
Définissez un seuil de consommation ou spécifiez le pourcentage du budget total estimé dépensé dans la dernière fenêtre rétrospective en dessous de laquelle vous souhaitez rester. Si vous définissez le pourcentage du budget total estimé dépensé, le seuil de consommation est calculé pour vous et utilisé dans l'alarme. Pour décider du seuil à définir ou pour comprendre comment cette option est utilisée pour calculer le seuil de vitesse de combustion, voirDéterminer le seuil approprié pour une alarme de taux de combustion.
(Facultatif) Définissez une ou plusieurs CloudWatch alarmes ou un seuil d'avertissement pour le SLO.
CloudWatch les alarmes peuvent utiliser Amazon SNS pour vous avertir de manière proactive si une application est défectueuse en fonction de ses performances SLI.
Pour créer une alarme, cochez l’une des cases d’alarme et saisissez ou créez la rubrique Amazon SNS à utiliser pour les notifications lorsque l’alarme passe à l’état
ALARM
. Pour plus d'informations sur les CloudWatch alarmes, consultez Utilisation des CloudWatch alarmes Amazon. La création d’alarmes entraîne des frais. Pour plus d'informations sur CloudWatch les tarifs, consultez Amazon CloudWatch Pricing. Si vous définissez un seuil d'avertissement, celui-ci apparaît sur les écrans des signaux d'application pour vous aider à identifier ceux SLOs qui risquent de ne pas être atteints, même s'ils sont actuellement sains.
Pour définir un seuil d’avertissement, saisissez la valeur du seuil dans Seuil d’avertissement. Lorsque le budget d’erreur du SLO est inférieur au seuil d’avertissement, le SLO est marqué d’un Avertissement sur plusieurs écrans d’Application Signals. Les seuils d’avertissement apparaissent également sur les graphiques du budget d’erreur. Vous pouvez également créer une Alarme d’avertissement SLO basée sur le seuil d’avertissement.
(Facultatif) Pour définir l'exclusion de la fenêtre horaire SLO, procédez comme suit :
Sous Exclure la fenêtre temporelle, définissez la fenêtre temporelle à exclure des mesures de performance du SLO.
Vous pouvez choisir Définir la fenêtre horaire et entrer dans la fenêtre de démarrage pour chaque heure ou chaque mois ou vous pouvez choisir Définir la fenêtre horaire avec CRON et saisir l'expression CRON.
Sous Répéter, définissez si cette exclusion de fenêtre horaire est récurrente ou non.
(Facultatif) Sous Ajouter un motif, vous pouvez choisir de saisir le motif de l'exclusion de la fenêtre horaire. Par exemple, maintenance planifiée.
Sélectionnez Ajouter une fenêtre horaire pour ajouter jusqu'à 10 fenêtres d'exclusion horaire.
Pour ajouter des tags à ce SLO, choisissez l’onglet Balises, puis choisissez Ajouter une nouvelle balise. Les balises peuvent vous aider à gérer, identifier, organiser, rechercher et filtrer des ressources. Pour plus d’informations sur le balisage, veuillez consulter la rubrique Tagging your AWS resources.
Note
Si l'application à laquelle cette SLO est associée est enregistrée AWS Service Catalog AppRegistry, vous pouvez utiliser la
awsApplication
balise pour associer cette SLO à cette application AppRegistry. Pour plus d'informations, voir Qu'est-ce que c'est AppRegistry ?Choisissez Créer un SLO. Si vous avez également choisi de créer une ou plusieurs alarmes, le nom du bouton change en conséquence.
Création d'un SLO basé sur les demandes
Utilisez la procédure suivante pour créer un SLO basé sur les demandes.
Pour créer un SLO basé sur les demandes
Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/
. Dans le panneau de navigation, sélectionnez Objectifs de niveau de service (SLO).
Choisissez Créer un SLO.
Saisissez un nom pour le SLO. L’inclusion du nom d’un service ou d’une opération, ainsi que des mots clés appropriés tels que la latence ou la disponibilité, vous aidera à identifier rapidement ce que l’état du SLO indique lors du triage.
Pour Définir un indicateur de niveau de service (SLI), procédez de l’une des manières suivantes :
Pour définir le SLO sur l’une des métriques d’application standard
Latency
ouAvailability
:Choisissez Opération de service.
Sélectionnez le service que ce SLO surveillera.
Sélectionnez l’opération que ce SLO surveillera.
Pour Sélectionner une méthode de calcul, choisissez Demandes.
-
Les listes déroulantes Sélectionner un service et Sélectionner une opération contiennent les services et les opérations qui ont été actifs au cours des dernières 24 heures.
Choisissez Disponibilité ou Latence. Si vous choisissez Latence, définissez le seuil.
Pour définir le SLO sur une CloudWatch métrique ou une expression mathématique de CloudWatch métrique, procédez comme suit :
Choisissez CloudWatch Metric.
-
Pour Définir les demandes cibles, procédez comme suit :
Choisissez si vous souhaitez mesurer les bonnes demandes ou les mauvaises demandes.
-
Choisissez Sélectionner une CloudWatch métrique. Cette métrique sera le numérateur du rapport entre les demandes cibles et le nombre total de demandes. Si vous utilisez une métrique de latence, utilisez les statistiques du nombre réduit (TC). Si le seuil est de 9 ms et que vous utilisez l'opérateur de comparaison inférieur à (<), utilisez le seuil TC (:threshold - 1). Pour plus d'informations sur TC, voirSyntaxe.
L’écran Sélectionner une métrique apparaît. Utilisez les onglets Parcourir ou Requête pour trouver la métrique souhaitée, ou créez une expression mathématique de métrique.
-
Pour Définir le nombre total de demandes, choisissez la CloudWatch métrique que vous souhaitez utiliser pour la source. Cette métrique sera le dénominateur du ratio de demandes cibles par rapport au nombre total de demandes.
L’écran Sélectionner une métrique apparaît. Utilisez les onglets Parcourir ou Requête pour trouver la métrique souhaitée, ou créez une expression mathématique de métrique.
Après avoir sélectionné la métrique souhaitée, choisissez l’onglet Graphiques des métriques et sélectionnez la Statistique et la Période à utiliser pour le SLO. Ensuite, choisissez Select metric (Sélectionner une métrique).
Si vous utilisez une métrique de latence qui émet un point de données par demande, utilisez les statistiques relatives au nombre d'échantillons pour compter le nombre total de demandes.
Pour plus d’informations sur ces écrans, veuillez consulter Représenter graphiquement une métrique et Ajouter une expression mathématique à un CloudWatch graphique.
Pour définir le SLO en fonction de la dépendance d'un service par rapport à l'une des métriques d'application standard
Latency
ouAvailability
:Choisissez Service Dependency.
Sous Sélectionnez un service, sélectionnez le service que ce SLO surveillera.
En fonction du service sélectionné, sous Sélectionner une opération, vous pouvez sélectionner une opération spécifique ou sélectionner Toutes les opérations pour utiliser les métriques de toutes les opérations de ce service qui appellent une dépendance.
Sous Sélectionnez une dépendance, vous pouvez rechercher et sélectionner la dépendance requise dont vous souhaitez mesurer la fiabilité.
Après avoir sélectionné la dépendance, vous pouvez afficher le graphique mis à jour et les données historiques en fonction de la dépendance.
Définissez l’intervalle et l’objectif de réalisation pour le SLO. Pour plus d’informations sur les intervalles et les objectifs de réalisation et la manière dont ils fonctionnent ensemble, veuillez consulter.la rubrique Concepts SLO.
(Facultatif) Pour définir les taux de combustion SLO, procédez comme suit :
Définissez la durée (en minutes) de la fenêtre de rétrospective pour la vitesse de combustion. Pour plus d'informations sur le choix de cette longueur, consultezProcédures pas à pas pour les alarmes de combustion.
Pour créer des taux de combustion supplémentaires pour ce SLO, choisissez Ajouter des taux de combustion supplémentaires et définissez la fenêtre rétrospective pour les taux de combustion supplémentaires.
(Facultatif) Créez des alarmes de taux de combustion en procédant comme suit :
Sous Définir les alarmes de vitesse de combustion, cochez la case correspondant à chaque fréquence de combustion pour laquelle vous souhaitez créer une alarme. Pour chacune de ces alarmes, procédez comme suit :
Spécifiez la rubrique Amazon SNS à utiliser pour les notifications lorsque l'alarme passe à l'état ALARM.
Définissez un seuil de consommation ou spécifiez le pourcentage du budget total estimé dépensé dans la dernière fenêtre rétrospective en dessous de laquelle vous souhaitez rester. Si vous définissez le pourcentage du budget total estimé dépensé, le seuil de consommation est calculé pour vous et utilisé dans l'alarme. Pour décider du seuil à définir ou pour comprendre comment cette option est utilisée pour calculer le seuil de vitesse de combustion, voirDéterminer le seuil approprié pour une alarme de taux de combustion.
(Facultatif) Définissez une ou plusieurs CloudWatch alarmes ou un seuil d'avertissement pour le SLO.
CloudWatch les alarmes peuvent utiliser Amazon SNS pour vous avertir de manière proactive si une application est défectueuse en fonction de ses performances SLI.
Pour créer une alarme, cochez l’une des cases d’alarme et saisissez ou créez la rubrique Amazon SNS à utiliser pour les notifications lorsque l’alarme passe à l’état
ALARM
. Pour plus d'informations sur les CloudWatch alarmes, consultez Utilisation des CloudWatch alarmes Amazon. La création d’alarmes entraîne des frais. Pour plus d'informations sur CloudWatch les tarifs, consultez Amazon CloudWatch Pricing. Si vous définissez un seuil d'avertissement, celui-ci apparaît sur les écrans des signaux d'application pour vous aider à identifier ceux SLOs qui risquent de ne pas être atteints, même s'ils sont actuellement sains.
Pour définir un seuil d’avertissement, saisissez la valeur du seuil dans Seuil d’avertissement. Lorsque le budget d’erreur du SLO est inférieur au seuil d’avertissement, le SLO est marqué d’un Avertissement sur plusieurs écrans d’Application Signals. Les seuils d’avertissement apparaissent également sur les graphiques du budget d’erreur. Vous pouvez également créer une Alarme d’avertissement SLO basée sur le seuil d’avertissement.
(Facultatif) Pour définir l'exclusion de la fenêtre horaire SLO, procédez comme suit :
Sous Exclure la fenêtre temporelle, définissez la fenêtre temporelle à exclure des mesures de performance du SLO.
Vous pouvez choisir Définir la fenêtre horaire et entrer dans la fenêtre de démarrage pour chaque heure ou chaque mois ou vous pouvez choisir Définir la fenêtre horaire avec CRON et saisir l'expression CRON.
Sous Répéter, définissez si cette exclusion de fenêtre horaire est récurrente ou non.
(Facultatif) Sous Ajouter un motif, vous pouvez choisir de saisir le motif de l'exclusion de la fenêtre horaire. Par exemple, maintenance planifiée.
Sélectionnez Ajouter une fenêtre horaire pour ajouter jusqu'à 10 fenêtres d'exclusion horaire.
Pour ajouter des tags à ce SLO, choisissez l’onglet Balises, puis choisissez Ajouter une nouvelle balise. Les balises peuvent vous aider à gérer, identifier, organiser, rechercher et filtrer des ressources. Pour plus d’informations sur le balisage, veuillez consulter la rubrique Tagging your AWS resources.
Note
Si l'application à laquelle cette SLO est associée est enregistrée AWS Service Catalog AppRegistry, vous pouvez utiliser la
awsApplication
balise pour associer cette SLO à cette application AppRegistry. Pour plus d'informations, voir Qu'est-ce que c'est AppRegistry ?Choisissez Créer un SLO. Si vous avez également choisi de créer une ou plusieurs alarmes, le nom du bouton change en conséquence.
Afficher et trier le statut du SLO
Vous pouvez rapidement vérifier votre état de santé à SLOs l'aide des objectifs de niveau de service ou des options de services de la CloudWatch console. La vue Services fournit un aperçu at-a-glance du ratio de services insalubres, calculé sur la base de SLOs ce que vous avez défini. Pour plus d’informations sur l’utilisation de l’option Services, veuillez consulter la rubrique Surveillez l’état de fonctionnement de vos applications avec Application Signals.
La vue des Objectifs de niveau de service fournit une vue macro de votre organisation. Vous pouvez voir les résultats atteints et non satisfaits SLOs dans leur ensemble. Cela vous donne une idée du nombre de vos services et opérations qui répondent à vos attentes sur de longues périodes, en fonction de SLIs ce que vous avez choisi.
Pour tout afficher à l' SLOs aide de la vue des objectifs de niveau de service
-
Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/
. Dans le panneau de navigation, sélectionnez Objectifs de niveau de service (SLO).
La liste des Objectifs de niveau de service (SLO) apparaît.
Vous pouvez rapidement voir l'état actuel de votre appareil SLOs dans la colonne d'état du SLI. Pour trier les éléments de SLOs manière à ce que tous ceux qui ne sont pas sains figurent en haut de la liste, choisissez la colonne d'état du SLI jusqu'à ce que les éléments non sains SLOs apparaissent tous en haut de la liste.
La table SLO comporte les colonnes par défaut suivantes. Vous pouvez ajuster les colonnes affichées en choisissant l’icône représentant un engrenage au-dessus de la liste. Pour plus d'informations sur les objectifs SLIs, les résultats atteints et les intervalles, consultezConcepts SLO.
Le nom du SLO.
La colonne Objectif affiche le pourcentage de périodes pendant chaque intervalle qui doivent atteindre le seuil SLI pour que l’objectif SLO soit atteint. Elle affiche également la durée de l’intervalle pour le SLO.
État du SLI indique si l’état de fonctionnement actuel de l’application est sain ou non. Si une période quelconque de l’intervalle de temps sélectionné n’était pas saine pour le SLO, État du SLI indique Non sain.
Si ce SLO est configuré pour surveiller une dépendance, les colonnes Dépendance et Opération à distance afficheront les détails de cette relation de dépendance.
Le Niveau final est le niveau de réalisation atteint à la fin de l’intervalle de temps sélectionné. Triez selon cette colonne pour voir SLOs ceux qui risquent le plus de ne pas être atteints.
Le Delta d’atteinte est la différence de niveau de réalisation entre le début et la fin de l’intervalle de temps sélectionné. Un delta négatif signifie que la métrique suit une tendance à la baisse. Triez selon cette colonne pour voir les dernières tendances du SLOs.
Le budget d’erreur de fin (%) est le pourcentage du temps total de la période pendant laquelle il peut y avoir des périodes non saines tout en atteignant le SLO avec succès. Si vous définissez ce paramètre sur 5 % et que le SLI est défectueux pendant 5 % ou moins des périodes restantes de l’intervalle, le SLO est toujours atteint avec succès.
Le Delta du budget d’erreur est la différence du budget d’erreur entre le début et la fin de l’intervalle de temps sélectionné. Un delta négatif signifie que la métrique suit une tendance défavorable.
Le Budget d’erreur de fin (temps) est la durée réelle au sein de l’intervalle qui peut être non saine tout en permettant d’atteindre le SLO avec succès. Par exemple, si ce délai est de 14 minutes, si le SLI est non sain pendant moins de 14 minutes pendant l’intervalle restant, le SLO sera toujours atteint avec succès.
-
Le budget d'erreur de fin (demandes) est le nombre de demandes dans l'intervalle qui peuvent être malsaines tout en ayant le SLO atteint avec succès. Pour les demandes basées sur les demandes SLOs, cette valeur est dynamique et peut fluctuer à mesure que le nombre total cumulé de demandes change au fil du temps.
Les colonnes Service, Opération et Type affichent des informations sur le service et l’opération pour lesquels ce SLO est configuré.
Pour afficher les graphiques du budget d’atteinte et d’erreur pour un SLO, choisissez la case d’option en regard du nom du SLO.
Les graphiques en haut de la page indiquent le degré de réalisation du SLO et l’état du budget d’erreur. Un graphique concernant la métrique SLI associée à ce SLO est également affiché.
Pour poursuivre le tri d'un SLO qui n'atteint pas son objectif, choisissez le nom du service, le nom de l'opération ou le nom de dépendance associé à ce SLO. Vous êtes redirigé vers la page de détails où vous pouvez effectuer un tri plus approfondi. Pour de plus amples informations, veuillez consulter Consultez le détail de l'activité des services et de l'état de fonctionnement sur la page détaillée des services.
Pour modifier la plage temporelle des graphiques et des tableaux de la page, choisissez un nouvel intervalle de temps en haut de l’écran.
Modification d’un SLO existant
Suivez ces étapes pour modifier un SLO existant. Lorsque vous modifiez un SLO, vous ne pouvez modifier que le seuil, l’intervalle, l’objectif de réalisation et les balises. Pour modifier d’autres aspects tels que le service, le fonctionnement ou les métriques, créez un SLO au lieu d’en modifier un existant.
La modification d’une partie de la configuration de base d’un SLO, telle que la période ou le seuil, invalide tous les points de données et évaluations précédents concernant les résultats et l’état de santé. En réalité, cela supprime et recrée le SLO.
Note
Si vous modifiez un SLO, les alarmes associées à ce SLO ne sont pas automatiquement mises à jour. Vous devrez peut-être mettre à jour les alarmes pour qu’elles restent synchronisées avec le SLO.
Pour modifier un SLO existant
-
Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/
. Dans le panneau de navigation, sélectionnez Objectifs de niveau de service (SLO).
Choisissez la case d’option en regard du SLO que vous souhaitez modifier, puis choisissez Actions, Modifier le SLO.
Effectuez les modifications, puis choisissez Enregistrer les modifications.
Suppression d’un SLO
Suivez ces étapes pour supprimer un SLO existant.
Note
Si vous supprimez un SLO, les alarmes associées à ce SLO ne sont pas automatiquement supprimées. Vous devrez les supprimer vous-même. Pour de plus amples informations, veuillez consulter Gérer les alarmes.
Pour supprimer un SLO
-
Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/
. Dans le panneau de navigation, sélectionnez Objectifs de niveau de service (SLO).
Choisissez la case d’option en regard du SLO que vous souhaitez modifier, puis choisissez Actions, Supprimer le SLO.
Choisissez Confirmer.