Falhas na entrega de eventos Atrasos na entrega de eventos

Melhores práticas para monitorar a entrega de eventos na Amazon EventBridge

Para garantir que a lógica de negócios em seus aplicativos orientados a eventos seja executada de forma confiável, é essencial monitorar seu comportamento de entrega de eventos. EventBridge fornece métricas que permitem monitorar, detectar e mitigar problemas com antecedência para garantir a entrega confiável de eventos. Dentre estas métricas:

Métricas baseadas em contadores, como InvocationAttempts, SuccessfulInvocationAttempts, RetryInvocationAttempts e FailedInvocations, para permitir que você observe o controle de utilização do destino e calcule as taxas de erro.
Métricas baseadas em latência, como IngestionToInvocationSuccessLatency, para fornecer insights sobre entrega de eventos e atrasos.

Essas métricas permitem que você monitore a integridade de suas arquiteturas orientadas a eventos e compreenda e mitigue os problemas de entrega de eventos causados por destinos de baixo desempenho, subdimensionados ou que não respondem. Por exemplo, um destino permanentemente subescalado ou com controle de utilização pode levar a tentativas excessivas, atrasos na entrega de eventos e falhas permanentes na entrega.

Recomendamos que você combine várias métricas para obter uma visão geral completa e monitorá-las de perto. A configuração de alarmes e painéis adequados permite que você resolva problemas persistentes com antecedência.

Para obter informações sobre métricas específicas, consulte EventBridge métricas.

Detectar falhas na entrega de eventos

EventBridge inclui métricas que você pode configurar para relatar invocações de destino, ou seja, tentativas de entrega de eventos, por regra.

Recomendamos que você monitore as seguintes métricas em nível de regra:

InvocationAttemptspara observar o número total de EventBridge tentativas de invocar o alvo, incluindo novas tentativas de entrega de eventos.
SuccessfulInvocationAttemptspara o número de tentativas de invocação em que o evento foi entregue EventBridge com sucesso ao alvo.
RetryInvocationAttempts para o número de tentativas que representam novas tentativas de entrega de eventos.

Um aumento em RetryInvocationAttempts pode indicar com antecedência se um destino está subdimensionado.

Além disso, como o aumento de tentativas pode ser o primeiro sinal de problemas de entrega, também recomendamos criar uma única métrica que rastreie a porcentagem de invocações bem-sucedidas ao destino em todas as respectivas invocações. Por exemplo, CloudWatch você pode usar a matemática métrica para criar essa métrica, chamadaSuccessfulInvocationRate, usando a seguinte fórmula:

SuccessfulInvocationRate = SuccessfulInvocationAttempts / InvocationAttempts

Então, dependendo de seus requisitos, você pode configurar CloudWatch os alarmes para criar notificações quando um determinado limite for atingido.

Embora uma diminuição ocasional em SuccessfulInvocationRate devido a picos temporários de tráfego ou erros de invocação possa ser considerada normal, uma incompatibilidade constante indica um destino configurado incorretamente e precisa ser tratada como parte do Modelo de Responsabilidade Compartilhada.

Para obter mais informações sobre matemática métrica, consulte Uso de expressões matemáticas com CloudWatch métricas no Guia CloudWatch do usuário da Amazon.

Por padrão, EventBridge tenta entregar um evento novamente por 24 horas e até 185 vezes. Depois de EventBridge esgotar essas tentativas de repetição, EventBridge cancela o evento ou o envia para uma fila de mensagens mortas, se uma tiver sido especificada. Para obter mais informações, consulte Tentar entregar eventos novamente. Para evitar a perda de eventos, caso eles não sejam entregues, recomendamos que você configure uma fila de mensagens não entregues para cada destino da regra. Para obter mais informações, consulte Usar filas de mensagens não entregues.

Os eventos que EventBridge não são entregues ao alvo especificado são relatados na FailedInvocations métrica e na InvocationsSentToDlq métrica se você tiver configurado uma fila de mensagens mortas para o destino. Se sua aplicação estiver recebendo um grande número de relatórios de FailedInvocations ou InvocationsSentToDlq, recomendamos que você investigue se o destino está escalado corretamente e consegue receber o tráfego fornecido.

Detectar atrasos na entrega de eventos

EventBridge também fornece uma métrica que permite observar a end-to-end latência, ou seja, o tempo que leva desde a ingestão do evento até a entrega bem-sucedida ao alvo. Isso pode ser feito com a métrica IngestionToInvocationSuccessLatency. Essa métrica mostra os efeitos de novas tentativas e atrasos na entrega devido, por exemplo, a tempos limite de execução e respostas lentas dos destinos. IngestionToInvocationSuccessLatency inclui o tempo que o destino leva para responder com êxito à entrega do evento. Isso permite que você monitore a end-to-end latência entre EventBridge e seu alvo e detecte variações de desempenho e degradações dos alvos, mesmo quando não há limitação ou erros no alvo.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Monitoramento

CloudWatch Events