Objetivos de nível de serviço (SLOs)
Você pode usar o Application Signals para criar objetivos de nível de serviço para os serviços das suas dependências ou operações críticas de negócios. Ao criar SLOs nesses serviços, você poderá rastreá-los no painel do SLO, obtendo uma visualização à primeira vista das suas operações mais importantes.
Além de criar uma visualização rápida que seus operadores podem usar para ver o status atual das operações críticas, você pode usar os SLOs para monitorar a performance de longo prazo dos seus serviços para garantir que eles estejam atendendo às suas expectativas. Se você tem acordos de serviço com clientes, os SLOs são uma excelente ferramenta para garantir que eles sejam cumpridos.
A avaliação da integridade dos serviços com SLOs começa com a definição de objetivos claros e mensuráveis com base nas principais métricas de performance: indicadores de nível de serviço (SLIs). Um SLO rastreia a performance do SLI em comparação com o limite e com a meta que você definiu e informa o ponto em que a performance da aplicação se encontra com relação ao limite.
O Application Signals ajuda você a definir SLOs nas principais métricas de performance. O Application Signals coleta automaticamente métricas de Latency
e Availability
para cada serviço e operação que ele descobre, e essas métricas muitas vezes são ideais para uso como SLIs. Com o assistente de criação de SLO, você pode usar essas métricas para seus SLOs. Em seguida, você pode rastrear o status de todos os seus SLOs com os painéis do Application Signals.
É possível definir SLOs em operações ou dependências específicas que seu serviço chama ou usa. Você pode usar qualquer métrica ou expressão métrica do CloudWatch como SLI, além de usar as métricas Latency
e Availability
.
Criar SLOs é muito importante para obter o máximo benefício do CloudWatch Application Signals. Depois de criar SLOs, você pode visualizar o status deles no console do Application Signals para ver rapidamente quais desses serviços e operações essenciais estão apresentando boa performance e quais não estão íntegros. Ter SLOs para rastrear oferece os seguintes benefícios principais:
É mais fácil para seus operadores de serviços ver a integridade operacional atual dos serviços essenciais medida em relação ao SLI. Em seguida, eles podem rapidamente fazer uma triagem e identificar serviços e operações não íntegros.
Você pode rastrear a performance do seu serviço em relação a metas de negócios mensuráveis por longos períodos.
Ao escolher no que definir SLOs, você está priorizando o que é importante para você. Os painéis do Application Signals apresentam automaticamente informações sobre o que você priorizou.
Ao criar um SLO, você também pode optar por criar alarmes do CloudWatch ao mesmo tempo para monitorar os SLOs. Você pode definir alarmes que monitorem violações do limite e também os níveis de aviso. Esses alarmes podem avisar automaticamente se as métricas de SLO estão ultrapassando o limite que você definiu ou se estão se aproximando de um limite de aviso. Por exemplo, um SLO próximo do limite de aviso pode informar que sua equipe talvez precise diminuir a rotatividade da aplicação para garantir que as metas de performance de longo prazo sejam cumpridas.
Tópicos
Conceitos de SLO
Um SLO inclui os seguintes componentes:
Um indicador de nível de serviço (SLI), que é uma métrica essencial de performance que você especifica. Ele representa o nível de performance desejado para sua aplicação. O Application Signals coleta automaticamente as métricas essenciais de
Latency
eAvailability
para os serviços e operações que ele descobre, e essas métricas muitas vezes são ideais para se definir SLOs.Você escolhe o limite a ser usado para o SLI. Por exemplo, 200 ms para latência.
Uma meta ou uma meta de realização, que representa a porcentagem de tempo ou de solicitações que o SLI deve alcançar dentro do limite estabelecido em cada intervalo de tempo. Os intervalos de tempo podem ser de algumas horas ou até de um ano.
Os intervalos podem ser intervalos do calendário ou intervalos contínuos.
Os intervalos do calendário estão alinhados com o calendário, como um SLO que é rastreado por mês. O CloudWatch ajusta automaticamente a integridade, o orçamento e os números de realizações com base no número de dias em um mês. Os intervalos do calendário são mais adequados para metas de negócios que são avaliadas de acordo com o calendário.
Os intervalos contínuos são calculados em uma base contínua. Os intervalos contínuos são mais adequados para rastrear a experiência recente do usuário na aplicação.
O período é um intervalo de tempo mais curto, e muitos períodos formam um intervalo. A performance da aplicação é comparada ao SLI durante cada período dentro do intervalo. Para cada período, é determinado se a aplicação atingiu ou não a performance necessária.
Por exemplo, uma meta de 99% com um intervalo do calendário de um dia e um período de um minuto significa que a aplicação deve cumprir ou atingir o limite de sucesso durante 99% dos períodos de um minuto durante o dia. Se isso acontecer, o SLO terá sido alcançado nesse dia. O dia seguinte é um novo intervalo de avaliação, e a aplicação deve cumprir ou atingir o limite de sucesso durante 99% dos períodos de um minuto durante o segundo dia para alcançar o SLO desse segundo dia.
Um SLI pode ser baseado em uma das novas métricas de aplicação padrão coletadas pelo Application Signals. Como alternativa, pode ser qualquer métrica ou expressão métrica do CloudWatch. As métricas de aplicação padrão que você pode usar para um SLI são Latency
e Availability
. Availability
representa o número de respostas bem-sucedidas dividido pelo total de solicitações. Essa métrica é calculada como (1 - Taxa de falha)*100, em que as respostas à falha são erros 5xx
. Respostas de sucesso são respostas sem erros 5XX
. Respostas 4XX
são tratadas como com êxito.
Cálculo do orçamento de erro e da meta de realização para SLOs baseados em períodos
Ao visualizar informações sobre um SLO, você vê o status atual de integridade e o orçamento de erros dele. O orçamento de erros é a quantidade de tempo dentro do intervalo que pode violar o limite, mas ainda permitir que o SLO seja alcançado. O orçamento total de erros é o tempo total de violação que pode ser tolerado durante todo o intervalo. O orçamento restante de erros é o tempo restante de violação que pode ser tolerado durante o intervalo atual. Isso ocorre depois que a quantidade de tempo de violação que já ocorreu foi subtraída do orçamento total de erros.
A figura a seguir ilustra os conceitos de realização e orçamento de erro para uma meta com um intervalo de 30 dias, períodos de um minuto e uma meta de realização de 99%. Trinta dias incluem 43.200 períodos de um minuto e 99% de 43.200 são 42.768. Portanto, 42.768 minutos durante o mês devem estar íntegros para que o SLO seja alcançado. Até agora, no intervalo atual, 130 dos períodos de um minuto não estão íntegros.

Determinar o sucesso em cada período
Em cada período, os dados do SLI são agregados em um único ponto de dados com base na estatística usada para o SLI. Esse ponto de dados representa toda a duração do período. Esse único ponto de dados é comparado ao limite do SLI para determinar se o período está íntegro. Ver períodos não íntegros durante o intervalo de tempo atual no painel pode alertar seus operadores de serviços de que o serviço precisa ser submetido a uma triagem.
Se o período for determinado como não íntegro, toda a duração do período será contabilizada como falha no orçamento de erros. O rastreamento do orçamento de erros permite que você saiba se o serviço está atingindo a performance desejada por um longo período.
Exclusões de janela de tempo
Exclusões de janela de tempo é um bloco de tempo com datas de início e término definidas. Esse período é excluído das métricas de desempenho do SLO e você pode programar janelas de exclusão únicas ou recorrentes. Por exemplo, manutenção programada.
nota
Para SLOs baseados em períodos, os dados de SLI na janela de exclusão são considerados como não violadores.
Para SLOs baseados em solicitações, todas as solicitações boas e ruins na janela de exclusão são excluídas.
Quando um intervalo para um SLO baseado em solicitações é completamente excluído, publica-se uma métrica de taxa de realização padrão de 100%.
Você só pode especificar janelas de tempo com uma data de início no futuro.
Cálculo do orçamento de erro e da meta de realização para SLOs baseados em solicitações
Após criar um SLO, é possível recuperar os relatórios de orçamento de erro correspondentes. Um orçamento de erro representa o número de solicitações em que a aplicação pode não estar em conformidade com a meta do SLO, mas, ainda assim, conseguir atingir a meta estabelecida. Para um SLO baseado em solicitações, o orçamento de erro remanescente é dinâmico e pode aumentar ou diminuir, dependendo da proporção de solicitações válidas em relação ao total de solicitações.
A tabela apresentada a seguir ilustra o cálculo para um SLO baseado em solicitações com um intervalo de cinco dias e uma meta de realização de 85%. Neste exemplo, consideramos que não havia tráfego antes do Dia 1. O SLO não atingiu a meta no Dia 10.
Tempo | Total requests | Solicitações inválidas | Total de solicitações acumuladas nos últimos cinco dias | Total de solicitações válidas acumuladas nos últimos cinco dias | Meta de realização baseada em solicitações | Total de solicitações de orçamento | Solicitações de orçamento remanescentes |
---|---|---|---|---|---|---|---|
Dia 1 |
10 | 1 |
10 |
9 |
9/10 = 90% |
1.5 |
0,5 |
Dia 2 |
5 |
1 |
15 |
13 |
13/15 = 86% |
2.3 |
0.3 |
Dia 3 |
1 |
1 |
16 |
13 |
13/16 = 81% |
2.4 |
-0,6 |
Dia 4 |
24 |
0 |
40 |
37 |
37/40 = 92% |
6.0 |
3.0 |
Dia 5 |
20 |
5 |
60 |
52 |
52/60 = 87% |
9.0 |
1,0 |
Dia 6 |
6 |
2 |
56 |
47 |
47/56 = 84% |
8,4 |
-0,6 |
Dia 7 |
10 |
3 |
61 |
50 |
50/61= 82% |
9,2 |
-1,8 |
Dia 8 |
15 |
6 |
75 |
59 |
59/75 = 79% |
11,3 |
-4,7 |
Dia 9 |
12 |
1 |
63 |
46 |
46/63 = 73% |
9,5 |
-7,5 |
Dia 10 |
5 |
57 |
40 |
40/57 = 70% |
8,5 |
-8,5 | |
Meta de realização final para os últimos cinco dias |
|
70% |
Cálculo das taxas de gravação e, de forma opcional, configuração de alarmes para a taxa de gravação
É possível usar o Application Signals para calcular as taxas de gravação para os objetivos de nível de serviço. Uma taxa de gravação corresponde a uma métrica que indica a velocidade com que o serviço está consumindo o orçamento de erro, em comparação com a meta de realização do SLO. O cálculo é expresso como um fator multiplicativo da taxa de erro de linha de base.
A taxa de gravação é calculada de acordo com a taxa de erro de linha de base, que depende da meta de realização. A meta de realização corresponde à porcentagem de períodos de tempo íntegros ou de solicitações com êxito que devem ser alcançadas para atingir a meta do SLO. A taxa de erro de linha de base é (100% - a porcentagem da meta de realização), e esse valor consumiria o orçamento de erro completo ao final do intervalo de tempo do SLO. Portanto, um SLO com uma meta de realização de 99% teria uma taxa de erro de linha de base de 1%.
O monitoramento da taxa de gravação nos informa o quanto estamos distantes da taxa de erro de linha de base. Usando novamente o exemplo de uma meta de realização de 99%, o seguinte é verdadeiro:
Taxa de gravação = 1: se a taxa de gravação se mantiver exatamente igual à taxa de erro de linha de base durante todo o período, atingiremos a meta do SLO de forma precisa.
Taxa de gravação < 1: se a taxa de gravação for inferior à taxa de erro de linha de base, estamos no caminho para exceder a meta do SLO.
Taxa de gravação > 1: se a taxa de gravação for superior à taxa de erro de linha de base, temos a possibilidade de não alcançar a meta do SLO.
Ao criar as taxas de gravação para os SLOs, é possível optar por criar alarmes do CloudWatch com a finalidade de monitorar essas taxas simultaneamente. Você pode definir um limite para as taxas de gravação e os alarmes podem enviar notificações automaticamente se as métricas das taxas de gravação ultrapassarem o limite que você definiu. Por exemplo, uma taxa de gravação próxima ao limite estabelecido pode indicar que o SLO está consumindo o orçamento de erro mais rapidamente do que a equipe consegue aguentar, e a equipe pode precisar reduzir a rotatividade da aplicação para garantir o cumprimento das metas de performance a longo prazo.
A criação de alarmes gera cobranças. Para obter mais informações sobre os preços do CloudWatch, consulte Preço do Amazon CloudWatch
Cálculo da taxa de gravação
Para calcular a taxa de gravação, é necessário especificar uma janela de retrospectiva. A janela de retrospectiva corresponde ao intervalo de tempo ao longo do qual a taxa de erro será calculada.
burn rate = error rate over the look-back window / (100% - attainment goal)
nota
Quando não há dados para o período da taxa de consumo, o Application Signals calcula a taxa de consumo com base na realização.
A taxa de erro é calculada como a proporção entre o número de eventos inválidos e o número total de eventos que ocorreram durante a janela de taxa de gravação:
Para SLOs baseados em períodos, a taxa de erro é calculada como o número de períodos inválidos dividido pelo número total de períodos. O número total de períodos representa a totalidade dos períodos durante a janela de retrospectiva.
Para SLOs baseados em solicitações, a taxa corresponde ao número de solicitações inválidas dividido pelo número total de solicitações. O número total de solicitações é o número de solicitações que ocorreram durante a janela de retrospectiva.
A janela de retrospectiva deve ser um múltiplo do período do SLO e deve ser menor do que o intervalo do SLO.
Determinação do limite apropriado para um alarme para a taxa de gravação
Ao configurar um alarme para a taxa de gravação, é necessário escolher um valor para a taxa de gravação como o limite do alarme. O valor para esse limite dependerá da duração do intervalo do SLO e da janela de retrospectiva, bem como do método ou do modelo mental que a equipe desejar adotar. Existem dois métodos principais disponíveis para a determinação do limite.
Método 1: determinação da porcentagem do orçamento de erro total estimado que a equipe está disposta a consumir na janela de retrospectiva.
Se você desejar receber uma notificação quando X% do orçamento de erro estimado for consumido nas últimas horas da janela de taxa de gravação, o limite da taxa de gravação será o seguinte:
burn rate threshold = X% * SLO interval length / look-back window size
Por exemplo, 5% de um orçamento de erro de 30 dias (que corresponde a 720 horas) consumido em uma hora requer uma taxa de gravação de 5% * 720 / 1 = 36
. Portanto, se a janela de retrospectiva de taxa de gravação for de uma hora, definiremos o limite da taxa de gravação como 36.
É possível usar o console do CloudWatch para criar alarmes para a taxa de gravação usando este método. Você pode especificar o número X, e o limite será determinado usando a fórmula apresentada acima.
A duração do intervalo do SLO é determinada com base no tipo de intervalo do SLO:
Para SLOs com um intervalo contínuo, é a duração do intervalo em horas.
Para SLOs com um intervalo baseado em calendário:
Se a unidade for dias ou semanas, a duração do intervalo será expressa em horas.
Se a unidade for um mês, consideramos 30 dias como a duração estimada e a convertemos para horas.
Método 2: determinação do tempo restante até o esgotamento do orçamento para o próximo intervalo
Para que o alarme envie notificações quando a taxa de erro atual na janela de retrospectiva mais recente indicar que o tempo restante até o esgotamento do orçamento é inferior a X horas (assumindo que, no momento, o orçamento restante seja 100%), é possível usar a fórmula apresentada a seguir para determinar o limite da taxa de gravação.
burn rate threshold = SLO interval length / X
Ressaltamos que o cálculo do tempo restante até o esgotamento do orçamento (X), conforme descrito na fórmula apresentada acima, pressupõe que o orçamento total remanescente é de 100% no momento atual. Portanto, o valor do orçamento já consumido neste intervalo não é considerado. Além disso, podemos considerar isso como o tempo restante até o esgotamento do orçamento para o próximo intervalo.
Passo a passo para a configuração de alarmes para a taxa de gravação
Como um exemplo, vamos considerar um SLO com um intervalo contínuo de 28 dias. A configuração de um alarme para a taxa de gravação para esse SLO envolve duas etapas:
Definir a taxa de gravação e a janela de retrospectiva.
Criar um alarme do CloudWatch que monitora a taxa de gravação.
Para começar a usar, determine quanto do orçamento de erro total o serviço estará disposto a consumir dentro de um período específico. Em outras palavras, estabeleça o objetivo ao usar a seguinte frase: “Desejo receber alertas quando X% do meu orçamento de erro total for consumido em M minutos”.
Por exemplo, você pode desejar estabelecer o objetivo de receber um alerta quando 2% do orçamento de erro total for consumido em um período de 60 minutos.
Para definir a taxa de gravação, primeiro, é necessário delimitar a janela de retrospectiva. A janela de retrospectiva corresponde ao valor M, que, neste exemplo, é de 60 minutos.
Em seguida, você criará o alarme do CloudWatch. Ao fazer isso, é necessário especificar um limite para a taxa de gravação. Caso a taxa de gravação exceda esse limite, o alarme enviará uma notificação para você. Para determinar o limite, use a seguinte fórmula:
burn rate threshold = X% * SLO interval length/ look-back window size
Neste exemplo, X é igual a 2, pois desejamos receber um alerta caso 2% do orçamento de erro seja consumido em 60 minutos. A duração do intervalo é de 40.320 minutos (28 dias), e o valor de 60 minutos corresponde à janela de retrospectiva. Assim, o resultado do cálculo é:
burn rate threshold = 2% * 40,320 / 60 = 13.44.
Neste exemplo, você determinaria o valor de 13,44 como o limite do alarme.
Múltiplos alarmes com diferentes janelas
Ao configurar alarmes em diversas janelas de retrospectiva, é possível detectar rapidamente aumentos acentuados na taxa de erro com a janela de curta duração e, ao mesmo tempo, identificar aumentos menores na taxa de erro que, se não forem notados, podem eventualmente consumir o orçamento de erro.
Além disso, você pode configurar um alarme composto em uma taxa de gravação com uma janela de longa duração e em uma taxa de gravação com uma janela de curta duração (1/12 da janela de longa duração). Você receberá notificações somente quando ambas as taxas de gravação ultrapassarem um limite. Dessa forma, você garante que receberá alertas somente para situações que ainda estão ocorrendo. Para obter mais informações sobre alarmes compostos no CloudWatch, consulte Combinar alarmes.
nota
É possível configurar um alarme de métrica em uma taxa de gravação ao criar a taxa de gravação. Para definir um alarme composto em diversos alarmes para a taxa de gravação, você deve seguir as instruções apresentadas em Criar um alarme composto.
Uma estratégia de alarme composto recomendada no registro de trabalho de engenharia de confiabilidade do site do Google
Um alarme composto que monitora um par de alarmes: um com uma janela de uma hora e o outro com uma janela de cinco minutos.
Um segundo alarme composto que monitora um par de alarmes: um com uma janela de seis horas e o outro com uma janela de trinta minutos.
Um terceiro alarme composto que monitora um par de alarmes: um com uma janela de três dias e o outro com uma janela de seis horas.
Para configurar isso, siga as etapas apresentadas abaixo:
-
Crie cinco taxas de gravação com janelas de cinco minutos, trinta minutos, uma hora, seis horas e três dias.
Crie os três pares de alarmes do CloudWatch apresentados a seguir. Cada par inclui uma janela de longa duração e uma janela de curta duração, que contém 1/12 do tamanho da janela de longa duração, e os limites são determinados ao usar as etapas apresentadas em Determinação do limite apropriado para um alarme para a taxa de gravação. Ao calcular o limite para cada alarme no par, use a janela de retrospectiva com a maior duração do par em seu cálculo.
Alarmes nas taxas de gravação de uma hora e de cinco minutos (o limite é determinado como 2% do orçamento total)
Alarmes nas taxas de gravação de seis horas e de trinta minutos (o limite é determinado como 5% do orçamento total)
Alarmes nas taxas de gravação de três dias e de seis horas (o limite é determinado como 10% do orçamento total)
Para cada um desses pares, crie um alarme composto para receber notificações quando ambos os alarmes individuais entrarem no estado ALARM. Para obter mais informações sobre como criar alarmes compostos, consulte Criar um alarme composto.
Por exemplo, se os alarmes para o primeiro par (janela de uma hora e janela de cinco minutos) forem denominados
OneHourBurnRate
eFiveMinuteBurnRate
, a regra de alarme composto do CloudWatch seriaALARM(OneHourBurnRate) AND ALARM(FiveMinuteBurnRate)
.
A estratégia anterior é possível somente para SLOs com durações de intervalos de, no mínimo, três horas. Para SLOs com durações de intervalos mais curtas, recomendamos começar com um par de alarmes para a taxa de gravação em que um alarme tem uma janela de retrospectiva que corresponde à 1/12 da janela de retrospectiva do outro alarme. Em seguida, configure um alarme composto para esse par.
Criar um SLO
Recomendamos que você defina SLOs de latência e disponibilidade nas aplicações essenciais. Essas métricas coletadas pelo Application Signals se alinham às metas de negócios comuns.
Você também pode definir SLOs em qualquer métrica do CloudWatch ou em qualquer expressão de matemática de métricas que resulte em uma única série temporal.
Na primeira vez que você cria um SLO em sua conta, o CloudWatch cria o perfil vinculado ao serviço AWSServiceRoleForCloudWatchApplicationSignals em sua conta de forma automática, se ele ainda não existir. Esse perfil vinculado ao serviço permite que o CloudWatch colete dados do CloudWatch Logs, dados de rastreamento do X-Ray, dados de métricas do CloudWatch e dados de marcação de aplicações em sua conta. Para obter mais informações sobre os perfis vinculados ao serviço do CloudWatch, consulte Usar funções vinculadas ao serviço para o CloudWatch.
Ao criar um SLO, você especifica se é um SLO baseado em períodos ou se é um SLO baseado em solicitações. Cada tipo de SLO tem uma forma diferente de avaliar a performance da aplicação em relação à sua meta de realização.
Um SLO baseado em períodos usa períodos de tempo definidos dentro de um intervalo de tempo total especificado. Para cada um desses períodos, o Application Signals determina se a aplicação alcançou a meta. A taxa de realização é calculada pela relação
number of good periods/number of total periods
.Por exemplo, para um SLO baseado em períodos, alcançar uma meta de realização de 99,9% significa que, dentro do intervalo definido, a aplicação deve atender à meta de performance em, pelo menos, 99,9% dos períodos.
Um SLO baseado em solicitações não usa períodos de tempo definidos previamente. Em vez disso, o SLO realiza a medição da relação
number of good requests/number of total requests
durante o intervalo. A qualquer momento, é possível localizar a proporção de solicitações válidas em relação ao total de solicitações para o intervalo até o carimbo de data e hora especificado por você, e realizar a medição dessa proporção em comparação com a meta definida no SLO.
Criação de um SLO baseado em períodos
Use o procedimento apresentado a seguir para criar um SLO baseado em períodos.
Como criar um SLO baseado em períodos
Abra o console do CloudWatch, em https://console.aws.amazon.com/cloudwatch/
. No painel de navegação, escolha Objetivos de nível de serviço (SLOs).
Escolha Criar SLO.
Insira um nome para o SLO. Incluir o nome de um serviço ou operação, junto com palavras-chave apropriadas, como latência ou disponibilidade, ajudará você a identificar rapidamente o que o status do SLO indicará durante a triagem.
Em Definir indicador de nível de serviço (SLI), execute uma das seguintes ações:
Definir o SLO em uma das métricas padrão da aplicação,
Latency
ouAvailability
:Escolha Operação de serviço.
Selecione uma conta que este SLO vai monitorar.
Selecione o serviço que esse SLO monitorará.
Selecione a operação que esse SLO monitorará.
Em Selecionar um método de cálculo, escolha Períodos.
Os menus suspensos Selecionar serviço e Selecionar operação são preenchidos por serviços e operações que estiveram ativos nas últimas 24 horas.
Escolha Disponibilidade ou Latência e, em seguida, defina o limite.
Para definir o SLO em qualquer métrica do CloudWatch ou em uma expressão matemática de métricas do CloudWatch:
Escolha Métrica do CloudWatch.
Escolha Selecionar métrica do CloudWatch.
A tela Selecionar métrica é exibida. Use as guias Procurar ou Consultar para encontrar a métrica desejada ou crie uma expressão matemática de métricas.
Depois de selecionar a métrica desejada, escolha a guia Métricas representadas graficamente e selecione a Estatística e o Período a serem usados para o SLO. Depois, escolha Select metric (Selecionar métrica).
Para obter mais informações sobre essas telas, consulte Criar um gráfico de uma métrica e Adicionar uma expressão matemática a um gráfico do CloudWatch.
Em Selecionar um método de cálculo, escolha Períodos.
Em Definir condição, selecione um operador de comparação e um limite para o SLO usar como indicador de sucesso.
Para definir o SLO na dependência de um serviço em uma das métricas
Latency
ouAvailability
padrão de aplicação:Escolha Dependência de serviço.
Em Selecionar um serviço, selecione o serviço que esse SLO vai monitorar.
Com base no serviço selecionado, em Selecionar uma operação, você pode selecionar uma operação específica ou selecionar Todas as operações para usar as métricas de todas as operações desse serviço que chamam uma dependência.
Em Selecionar uma dependência, você pode pesquisar e selecionar a dependência necessária para a qual deseja medir a confiabilidade.
Após selecionar a dependência, você poderá visualizar o gráfico atualizado e os dados históricos com base na dependência.
Se tiver selecionado Operação de serviço ou Dependência de serviço na etapa 5, defina a duração do período para esse SLO.
Defina o intervalo e a meta de realização para o SLO. Para obter mais informações sobre intervalos, metas de realização e como eles funcionam juntos, consulte Conceitos de SLO.
(Opcional) Em Definir as taxas de gravação de SLO, realize as seguintes ações:
Defina a duração (em minutos) da janela de retrospectiva para a taxa de gravação. Para obter mais informações sobre como escolher a duração, consulte Passo a passo para a configuração de alarmes para a taxa de gravação.
Para criar mais taxas de gravação para este SLO, escolha Adicionar mais taxas de gravação e defina a janela de retrospectiva para as taxas de gravação adicionais.
(Opcional) Crie alarmes para a taxa de gravação ao realizar as seguintes ações:
Em Definir alarmes para a taxa de gravação, marque a caixa de seleção para cada taxa de gravação para a qual você deseja criar um alarme. Para cada um desses alarmes, realize as seguintes ações:
Especifique o tópico do Amazon SNS a ser usado para o envio de notificações quando o alarme entrar no estado ALARM.
Defina um limite de taxa de gravação ou especifique a porcentagem do orçamento total estimado a ser consumida na última janela de retrospectiva, garantindo que não ultrapasse o valor desejado. Se você definir a porcentagem do orçamento total estimado a ser consumida, o limite da taxa de gravação será calculado para você e usado no alarme. Para decidir qual limite configurar ou para compreender como essa opção é usada para calcular o limite da taxa de gravação, consulte Determinação do limite apropriado para um alarme para a taxa de gravação.
(Opcional) Defina um ou mais alarmes do CloudWatch ou um limite de aviso para o SLO.
Os alarmes do CloudWatch podem usar o Amazon SNS para avisar proativamente se uma aplicação não está íntegra com base na performance do SLI dela.
Para criar um alarme, marque uma das caixas de seleção de alarme e insira ou crie o tópico do Amazon SNS a ser usado nas notificações quando o alarme entrar no estado
ALARM
. Para obter mais informações sobre alarmes do CloudWatch, consulte Usar alarmes do Amazon CloudWatch. A criação de alarmes gera cobranças. Para obter mais informações sobre os preços do CloudWatch, consulte Preço do Amazon CloudWatch. Se você definir um limite de aviso, ele aparecerá nas telas do Application Signals para ajudar você a identificar SLOs que correm o risco de não serem alcançados, mesmo que estejam íntegros no momento.
Para definir um limite de aviso, insira o valor do limite em Limite de aviso. Quando o orçamento de erros do SLO é mais baixo do que o limite de aviso, o SLO é marcado com Aviso em várias telas do Application Signals. Os limites de aviso também aparecem nos gráficos de orçamento de erros. Você também pode criar um Alarme de aviso de SLO com base no limite de aviso.
(Opcional) Em Definir a exclusão da janela de tempo do SLO, faça o seguinte:
Em Excluir janela de tempo, defina a janela de tempo a ser excluída das métricas de desempenho do SLO.
Você pode escolher Definir janela de tempo e inserir a Janela de início para cada hora ou mês, ou pode escolher Definir janela de tempo com CRON e inserir a expressão CRON.
Em Repetir, defina se essa exclusão da janela de tempo é recorrente ou não.
(Opcional) Em Adicionar motivo, você pode optar por inserir um motivo para a exclusão da janela de tempo. Por exemplo, manutenção programada.
Selecione Adicionar janela de tempo para adicionar até 10 janelas de exclusão de tempo.
Para adicionar tags a esse SLO, escolha a guia Tags e, em seguida, escolha Adicionar nova tag. As tags podem ajudar você a gerenciar, identificar, organizar, pesquisar e filtrar recursos. Para obter mais informações sobre marcação, consulte Marcação dos recursos da AWS.
nota
Se a aplicação à qual esse SLO está relacionado estiver registrada no AWS Service Catalog AppRegistry, você poderá usar a tag
awsApplication
para associar o SLO a essa aplicação no AppRegistry. Para obter mais informações, consulte What is AppRegistry?Escolha Criar SLO. Se você também optar por criar um ou mais alarmes, o nome do botão será alterado para refletir isso.
Criação de um SLO baseado em solicitações
Use o procedimento apresentado a seguir para criar um SLO baseado em solicitações.
Como criar um SLO baseado em solicitações
Abra o console do CloudWatch, em https://console.aws.amazon.com/cloudwatch/
. No painel de navegação, escolha Objetivos de nível de serviço (SLOs).
Escolha Criar SLO.
Insira um nome para o SLO. Incluir o nome de um serviço ou operação, junto com palavras-chave apropriadas, como latência ou disponibilidade, ajudará você a identificar rapidamente o que o status do SLO indicará durante a triagem.
Em Definir indicador de nível de serviço (SLI), execute uma das seguintes ações:
Definir o SLO em uma das métricas padrão da aplicação,
Latency
ouAvailability
:Escolha Operação de serviço.
Selecione o serviço que esse SLO monitorará.
Selecione a operação que esse SLO monitorará.
Em Selecionar um método de cálculo, escolha Solicitações.
-
Os menus suspensos Selecionar serviço e Selecionar operação são preenchidos por serviços e operações que estiveram ativos nas últimas 24 horas.
Selecione Disponibilidade ou Latência. Caso opte por Latência, defina o limite.
Para definir o SLO em qualquer métrica do CloudWatch ou em uma expressão matemática de métricas do CloudWatch:
Escolha Métrica do CloudWatch.
-
Em Definir solicitações de destinos, faça o seguinte:
Escolha se você deseja realizar a medição de Solicitações válidas ou de Solicitações inválidas.
-
Escolha Selecionar métrica do CloudWatch. Esta métrica será o numerador da proporção de solicitações de destinos em relação ao total de solicitações. Se optar por usar uma métrica de latência, utilize as estatísticas de contagem aparada (TC). Se o limite for 9 milissegundos e você estiver usando o operador de comparação menor que (<), use o limite de TC (:threshold - 1). Para obter mais informações sobre a TC, consulte Sintaxe.
A tela Selecionar métrica é exibida. Use as guias Procurar ou Consultar para encontrar a métrica desejada ou crie uma expressão matemática de métricas.
-
Em Definir o total de solicitações, escolha a métrica do CloudWatch que deseja usar para a origem. Esta métrica será o denominador da proporção de solicitações de destinos em relação ao total de solicitações.
A tela Selecionar métrica é exibida. Use as guias Procurar ou Consultar para encontrar a métrica desejada ou crie uma expressão matemática de métricas.
Depois de selecionar a métrica desejada, escolha a guia Métricas representadas graficamente e selecione a Estatística e o Período a serem usados para o SLO. Depois, escolha Select metric (Selecionar métrica).
Se optar por usar uma métrica de latência que emite um ponto de dados por solicitação, utilize as estatísticas de contagem de amostras para realizar a contagem do número total de solicitações.
Para obter mais informações sobre essas telas, consulte Criar um gráfico de uma métrica e Adicionar uma expressão matemática a um gráfico do CloudWatch.
Para definir o SLO na dependência de um serviço em uma das métricas
Latency
ouAvailability
padrão de aplicação:Escolha Dependência de serviço.
Em Selecionar um serviço, selecione o serviço que esse SLO vai monitorar.
Com base no serviço selecionado, em Selecionar uma operação, você pode selecionar uma operação específica ou selecionar Todas as operações para usar as métricas de todas as operações desse serviço que chamam uma dependência.
Em Selecionar uma dependência, você pode pesquisar e selecionar a dependência necessária para a qual deseja medir a confiabilidade.
Após selecionar a dependência, você poderá visualizar o gráfico atualizado e os dados históricos com base na dependência.
Defina o intervalo e a meta de realização para o SLO. Para obter mais informações sobre intervalos, metas de realização e como eles funcionam juntos, consulte Conceitos de SLO.
(Opcional) Em Definir as taxas de gravação de SLO, realize as seguintes ações:
Defina a duração (em minutos) da janela de retrospectiva para a taxa de gravação. Para obter mais informações sobre como escolher a duração, consulte Passo a passo para a configuração de alarmes para a taxa de gravação.
Para criar mais taxas de gravação para este SLO, escolha Adicionar mais taxas de gravação e defina a janela de retrospectiva para as taxas de gravação adicionais.
(Opcional) Crie alarmes para a taxa de gravação ao realizar as seguintes ações:
Em Definir alarmes para a taxa de gravação, marque a caixa de seleção para cada taxa de gravação para a qual você deseja criar um alarme. Para cada um desses alarmes, realize as seguintes ações:
Especifique o tópico do Amazon SNS a ser usado para o envio de notificações quando o alarme entrar no estado ALARM.
Defina um limite de taxa de gravação ou especifique a porcentagem do orçamento total estimado a ser consumida na última janela de retrospectiva, garantindo que não ultrapasse o valor desejado. Se você definir a porcentagem do orçamento total estimado a ser consumida, o limite da taxa de gravação será calculado para você e usado no alarme. Para decidir qual limite configurar ou para compreender como essa opção é usada para calcular o limite da taxa de gravação, consulte Determinação do limite apropriado para um alarme para a taxa de gravação.
(Opcional) Defina um ou mais alarmes do CloudWatch ou um limite de aviso para o SLO.
Os alarmes do CloudWatch podem usar o Amazon SNS para avisar proativamente se uma aplicação não está íntegra com base na performance do SLI dela.
Para criar um alarme, marque uma das caixas de seleção de alarme e insira ou crie o tópico do Amazon SNS a ser usado nas notificações quando o alarme entrar no estado
ALARM
. Para obter mais informações sobre alarmes do CloudWatch, consulte Usar alarmes do Amazon CloudWatch. A criação de alarmes gera cobranças. Para obter mais informações sobre os preços do CloudWatch, consulte Preço do Amazon CloudWatch. Se você definir um limite de aviso, ele aparecerá nas telas do Application Signals para ajudar você a identificar SLOs que correm o risco de não serem alcançados, mesmo que estejam íntegros no momento.
Para definir um limite de aviso, insira o valor do limite em Limite de aviso. Quando o orçamento de erros do SLO é mais baixo do que o limite de aviso, o SLO é marcado com Aviso em várias telas do Application Signals. Os limites de aviso também aparecem nos gráficos de orçamento de erros. Você também pode criar um Alarme de aviso de SLO com base no limite de aviso.
(Opcional) Em Definir a exclusão da janela de tempo do SLO, faça o seguinte:
Em Excluir janela de tempo, defina a janela de tempo a ser excluída das métricas de desempenho do SLO.
Você pode escolher Definir janela de tempo e inserir a Janela de início para cada hora ou mês, ou pode escolher Definir janela de tempo com CRON e inserir a expressão CRON.
Em Repetir, defina se essa exclusão da janela de tempo é recorrente ou não.
(Opcional) Em Adicionar motivo, você pode optar por inserir um motivo para a exclusão da janela de tempo. Por exemplo, manutenção programada.
Selecione Adicionar janela de tempo para adicionar até 10 janelas de exclusão de tempo.
Para adicionar tags a esse SLO, escolha a guia Tags e, em seguida, escolha Adicionar nova tag. As tags podem ajudar você a gerenciar, identificar, organizar, pesquisar e filtrar recursos. Para obter mais informações sobre marcação, consulte Marcação dos recursos da AWS.
nota
Se a aplicação à qual esse SLO está relacionado estiver registrada no AWS Service Catalog AppRegistry, você poderá usar a tag
awsApplication
para associar o SLO a essa aplicação no AppRegistry. Para obter mais informações, consulte What is AppRegistry?Escolha Criar SLO. Se você também optar por criar um ou mais alarmes, o nome do botão será alterado para refletir isso.
Visualizar e fazer a triagem do status do SLO
Você pode ver rapidamente a integridade dos SLOs usando os Objetivos de nível de serviço ou as opções de Serviços no console do CloudWatch. A exibição de Serviços fornece uma visualização à primeira vista da proporção de serviços não íntegros, calculada com base nos SLOs que você definiu. Para obter mais informações sobre como usar a opção Serviços, consulte Monitorar a integridade operacional das suas aplicações com o Application Signals.
A visualização de Objetivos de nível de serviço fornece uma visão macro da sua organização. Você pode ver os SLOs alcançados e não alcançados como um todo. Isso dá a você uma visão de quantos serviços e operações têm a performance de acordo com as expectativas por longos períodos, de acordo com os SLIs que você escolheu.
Como visualizar todos os SLOs usando a visualização de Objetivos de nível de serviço
-
Abra o console do CloudWatch, em https://console.aws.amazon.com/cloudwatch/
. No painel de navegação, escolha Objetivos de nível de serviço (SLOs).
A lista Objetivos de nível de serviço (SLO) é exibida.
Você pode ver rapidamente o status atual dos seus SLOs na coluna Status do SLI. Para classificar os SLOs de forma que todos os não íntegros estejam no topo da lista, escolha a coluna Status do SLI até que os SLOs não íntegros estejam todos no topo.
A tabela de SLO tem as colunas padrão a seguir. Você pode ajustar quais colunas são exibidas ao escolher o ícone de engrenagem acima da lista. Para obter mais informações sobre metas, SLI, realização e intervalos, consulte Conceitos de SLO.
O nome do SLO.
A coluna Meta exibe a porcentagem de períodos durante cada intervalo que devem atingir com êxito o limite de SLI para que a meta de SLO seja cumprida. Ela também exibe a duração do intervalo para o SLO.
O Status do SLI mostra se o estado operacional atual da aplicação está íntegro ou não. Se algum período durante o intervalo de tempo atualmente selecionado não estiver íntegro para o SLO, o Status do SLI exibirá Não íntegro.
Se esse SLO estiver configurado para monitorar uma dependência, as colunas Dependência e Operação Remota mostrarão os detalhes sobre essa relação de dependência.
A Realização final é o nível de realização atingido no final do intervalo de tempo selecionado. Classifique por essa coluna para ver os SLOs que correm maior risco de não serem alcançados.
O Delta de realização é a diferença no nível de realização entre o início e o final do intervalo de tempo selecionado. Um delta negativo significa que a métrica está tendendo para uma direção descendente. Classifique por essa coluna para ver as últimas tendências dos SLOs.
O Orçamento final de erros (%) é a porcentagem do tempo total no intervalo que pode ter períodos não íntegros e, ainda assim, ter o SLO alcançado com êxito. Se você defini-lo como 5% e o SLI não estiver íntegro em 5% ou menos dos períodos restantes no intervalo, o SLO ainda será alcançado com êxito.
O Delta do orçamento de erros é a diferença no orçamento de erros entre o início e o final do intervalo de tempo selecionado. Um delta negativo significa que a métrica está tendendo para uma direção de falha.
O Orçamento final de erros (tempo) é o tempo real no intervalo que pode não estar íntegro e ainda assim fazer com que o SLO seja alcançado com êxito. Por exemplo, se ele for 14 minutos, então se o SLI não estiver íntegro por menos de 14 minutos durante o intervalo restante, o SLO ainda será alcançado com êxito.
-
O Orçamento de erro final (solicitações) corresponde ao número de solicitações no intervalo que podem não estar íntegras e, ainda assim, permitir que o SLO seja alcançado com êxito. Para SLOs baseados em solicitações, esse valor é dinâmico e pode oscilar à medida que o número total de solicitações cumulativas é alterado ao longo do tempo.
As colunas Serviço, Operação e Tipo exibem informações sobre para qual serviço e operação esse SLO está definido.
Para visualizar os gráficos da realização e do orçamento de erros de um SLO, escolha o botão de opção ao lado do nome do SLO.
Os gráficos na parte superior da página exibem a Realização do SLO e o status do Orçamento de erros. Um gráfico sobre a métrica do SLI associada a esse SLO também é exibido.
Para fazer uma triagem adicional de um SLO que não esteja atingindo sua meta, escolha o nome do serviço, o nome da operação ou o nome da dependência associado a esse SLO. Você será direcionado para a página de detalhes, na qual poderá fazer uma triagem adicional. Para obter mais informações, consulte Visualize as atividades de serviço e a integridade operacional em detalhes com a página de detalhes do serviço.
Para alterar o intervalo de tempo dos gráficos e tabelas da página, escolha um novo intervalo de tempo próximo à parte superior da tela.
Editar um SLO existente
Siga estas etapas para editar um SLO existente. Ao editar um SLO, você pode alterar somente o limite, o intervalo, a meta de realização e as tags. Para alterar outros aspectos, como serviço, operação ou métrica, crie um novo SLO em vez de editar um existente.
Alterar parte da configuração principal de um SLO, como período ou limite, invalida todos os pontos de dados e avaliações anteriores sobre realização e integridade. Isso efetivamente exclui e recria o SLO.
nota
Se você editar um SLO, os alarmes associados a ele não serão atualizados automaticamente. Talvez seja necessário atualizar os alarmes para mantê-los sincronizados com o SLO.
Como editar um SLO existente
-
Abra o console do CloudWatch, em https://console.aws.amazon.com/cloudwatch/
. No painel de navegação, escolha Objetivos de nível de serviço (SLOs).
Escolha o botão de opção ao lado do SLO que você deseja editar e escolha Ações, Editar SLO.
Faça suas alterações e, em seguida, escolha Salvar alterações.
Excluir um SLO
Siga estas etapas para excluir um SLO atual.
nota
Se você excluir um SLO, os alarmes associados a ele não serão excluídos automaticamente. Você precisará excluí-los por conta própria. Para obter mais informações, consulte Gerenciar alarmes.
Como excluir um SLO
-
Abra o console do CloudWatch, em https://console.aws.amazon.com/cloudwatch/
. No painel de navegação, escolha Objetivos de nível de serviço (SLOs).
Escolha o botão de opção ao lado do SLO que você deseja editar e escolha Ações, Excluir SLO.
Escolha Confirmar.