Por que a lógica de repetição é importante Os riscos de repetições indiscriminadas Desenvolver uma estratégia prática de repetição Cenários de exemplo Monitoramento e observabilidade

Tratamento de exceções e novas tentativas

Criar aplicações robustas no Neptune geralmente significa se preparar para o inesperado, especialmente quando se trata de tratar erros retornados pelo banco de dados. Uma das respostas mais comuns às exceções do lado do servidor é repetir a operação com falha. Embora a lógica de repetição seja essencial para sistemas resilientes, é preciso reconhecer que nem todos os erros devem ser tratados da mesma forma. Em vez de confiar em comportamentos genéricos de repetição, uma abordagem cuidadosa pode ajudar você a criar aplicações mais confiáveis e eficientes.

Por que a lógica de repetição é importante

A lógica de repetição é um componente essencial de qualquer aplicação distribuída. Problemas transitórios, como instabilidade da rede, restrições temporárias de recursos ou conflitos de modificação simultânea, podem causar falhas nas operações. Em muitos casos, essas falhas não indicam um problema permanente e podem ser resolvidas ao aguardar e tentar novamente. A implementação de uma estratégia sólida de repetição reconhece a realidade de ambientes imperfeitos em sistemas distribuídos, garantindo maior confiabilidade e continuidade com menos necessidade de intervenção manual.

Os riscos de repetições indiscriminadas

Repetir cada erro por padrão pode levar a várias consequências não intencionais:

Maior contenção: quando as operações que falham devido à alta simultaneidade são repetidas, a contenção geral pode piorar. Isso pode resultar em um ciclo de transações com falha e desempenho degradado.
Esgotamento de recursos: repetições indiscriminadas podem consumir recursos adicionais do sistema, tanto do lado do cliente quanto do servidor. Isso pode potencialmente levar ao controle de utilização ou até mesmo à degradação do serviço.
Maior latência para clientes: repetições excessivas podem causar atrasos significativos nas aplicações cliente, especialmente se cada repetição envolver períodos de espera. Isso pode afetar negativamente a experiência do usuário e os processos posteriores.

Desenvolver uma estratégia prática de repetição

Para criar uma aplicação resiliente e eficiente, desenvolva uma estratégia de repetição adaptada às condições de erro específicas que a aplicação possa enfrentar. Algumas considerações para orientar sua abordagem:

Identificar erros que podem ser repetidos: nem todas as exceções devem ser repetidas. Por exemplo, erros de sintaxe, falhas de autenticação ou consultas inválidas não devem acionar uma repetição. O Neptune fornece códigos de erro e recomendações gerais sobre quais erros podem ser repetidos, mas é preciso implementar a lógica adequada ao seu caso de uso.
Implementar o recuo exponencial: para erros transitórios, use uma estratégia de recuo exponencial para aumentar progressivamente o tempo de espera entre as repetições. Isso ajuda a aliviar a contenção e reduz o risco de falhas em cascata.
Considerar a duração da pausa inicial: realizar a primeira repetição muito rapidamente pode terminar com o mesmo erro se o servidor não tiver tempo suficiente para liberar os recursos necessários para que a consulta seja bem-sucedida. Uma pausa mais longa nas situações certas pode reduzir o desperdício de solicitações e a pressão do servidor.
Adicionar instabilidade ao recuo: embora o recuo exponencial seja eficaz, ele ainda pode causar tempestades de repetições sincronizadas se muitos clientes falharem ao mesmo tempo e depois repetirem juntos. Adicionar a instabilidade, uma pequena variação aleatória ao atraso de recuo, ajuda a distribuir as tentativas de repetição, reduzindo assim a chance de todos os clientes tentarem novamente simultaneamente e causando outro pico na carga.
Limitar as tentativas de repetição: defina um número máximo razoável de repetições para evitar loops infinitos e esgotamento de recursos.
Monitorar e ajustar: monitore continuamente a taxa de erros da aplicação e ajuste sua estratégia de repetição conforme necessário. Se houver muitas novas repetições para uma operação específica, considere se a operação pode ser otimizada ou serializada.

Para uma discussão mais aprofundada sobre recuo exponencial e instabilidade como um padrão geral de design de nuvem, consulte Tentar novamente com recuo na Orientação prescritiva. AWS

Cenários de exemplo

A estratégia correta de repetição depende da natureza da falha, da workload e dos padrões de erro observados. A tabela a seguir resume alguns cenários de falha comuns e como as considerações sobre a estratégia de repetição se aplicam a cada um. Leia os parágrafos explicativos para obter contexto adicional.

Cenário	Pode ser tentado novamente?	Recuo e instabilidade	Pausa inicial	Limite de repetição	Monitorar e ajustar
CME ocasional em consultas curtas	Sim	Recuo curto, adicionar instabilidade	Curto (por exemplo, 100 ms)	Alto	Prestar atenção ao aumento das taxas de CME
CME frequente em consultas Longer-Running	Sim	Recuo mais longo, adicionar instabilidade	Mais longo (por exemplo, 2 s)	Moderada	Investigar e reduzir a contenção
Limites de memória em consultas caras	Sim	Recuo longo	Longo (por exemplo, 5 a 10 s)	Baixo	Otimizar a consulta e alertar se for persistente
Tempo limite em consultas moderadas	Talvez	Recuo moderado, adicionar instabilidade	Moderado (por exemplo, 1 s)	Baixo a moderado	Avaliar a carga do servidor e o design da consulta

Cenário 1: CME ocasional em consultas curtas

Para uma workload em que ConcurrentModificationException aparece raramente durante atualizações curtas e simples, esses erros geralmente são transitórios e podem ser repetidos com segurança. Use uma pequena pausa inicial (por exemplo, 100 milissegundos) antes da primeira repetição. Esse tempo permite que qualquer bloqueio momentâneo seja liberado. Combine isso com um pequeno recuo exponencial e instabilidade para evitar repetições sincronizadas. Como o custo de uma repetição é baixo, um limite maior é razoável. Ainda assim, monitore a taxa de CME para detectar qualquer tendência de aumento da contenção em seus dados.

Cenário 2: CME frequente em consultas de execução mais longas

Se a aplicação lida com CMEs frequentes em consultas de longa duração, isso sugere uma contenção mais severa. Nesse caso, comece com uma pausa inicial mais longa (por exemplo, 2 segundos), para que a consulta atual que está mantendo o bloqueio tenha tempo suficiente para ser concluída. Use um recuo exponencial mais longo e adicione instabilidade. Limite o número de repetições para evitar atrasos excessivos e uso de recursos. Se a contenção persistir, analise a workload em busca de padrões e considere serializar atualizações ou reduzir a simultaneidade para resolver a causa raiz.

Cenário 3: limites de memória em consultas caras

Quando ocorrem erros baseados em memória durante uma consulta que consome muitos recursos, as repetições podem fazer sentido, mas somente após uma longa pausa inicial (por exemplo, 5 a 10 segundos ou mais) para permitir que o servidor libere recursos. Use uma estratégia de recuo longo e defina um limite baixo de repetição, visto que é improvável que falhas repetidas sejam resolvidas sem alterações na consulta ou na workload. Erros persistentes devem acionar alertas e solicitar uma revisão da complexidade da consulta e do uso de recursos.

Cenário 4: tempo limite em consultas moderadas

O tempo limite em uma consulta moderadamente cara é um caso mais ambíguo. Às vezes, uma repetição pode ser bem-sucedida se o tempo limite for devido a um pico temporário na carga do servidor ou nas condições da rede. Comece com uma pausa inicial moderada (por exemplo, 1 segundo) para dar ao sistema a chance de se recuperar. Aplique um recuo moderado e adicione instabilidade para evitar repetições sincronizadas. Mantenha o limite de repetições de baixo a moderado, pois tempos limite repetidos podem indicar um problema mais profundo com a consulta ou com a capacidade do servidor. Monitore os padrões: se os tempos limite se tornarem frequentes, avalie se a consulta precisa ser otimizada ou se o cluster do Neptune está subprovisionado.

Monitoramento e observabilidade

O monitoramento é uma parte essencial de qualquer estratégia de repetição. A observabilidade eficaz ajuda você a entender o quão bem sua lógica de repetição está funcionando e fornece sinais antecipados de quando algo na workload ou na configuração de cluster precisa de atenção.

MainRequestQueuePendingRequests

Essa CloudWatch métrica rastreia o número de solicitações em espera na fila de entrada do Neptune. Um valor crescente indica haver backup das consultas, o que pode ser um sinal de contenção excessiva, recursos subprovisionados ou tempestades de repetições. O monitoramento dessa métrica ajuda a identificar quando sua estratégia de repetição está causando ou agravando problemas de filas e pode solicitar que você ajuste a abordagem antes que as falhas aumentem.

Outras CloudWatch métricas

Outras métricas do Neptune, como CPUUtilization, TotalRequestsPerSecond e a latência ada consulta, fornecem contexto adicional. Por exemplo, o alto consumo de CPU I/O e o aumento do tamanho das filas podem indicar que seu cluster está sobrecarregado ou que as consultas são muito grandes ou muito frequentes. CloudWatch os alarmes podem ser definidos com base nessas métricas para alertá-lo sobre um comportamento anormal e ajudá-lo a correlacionar picos de erros ou novas tentativas com restrições de recursos subjacentes.

APIs de status e consulta do Neptune

A API Neptune Status para Gremlin e suas APIs análogas OpenCypherpara e SPARQL fornecem uma visão em tempo real das consultas aceitas e executadas no cluster, o que é útil para diagnosticar gargalos ou entender o impacto da lógica de repetição em tempo real.

Ao combinar essas ferramentas de monitoramento, você pode:

Detectar quando repetições estão contribuindo para a degradação do desempenho e do enfileiramento.
Identificar quando escalar seu cluster do Neptune ou otimizar as consultas.
Validar que sua estratégia de repetição está resolvendo falhas transitórias sem mascarar problemas mais profundos.
Receber avisos antecipados sobre contenções emergentes ou esgotamento de recursos.

O monitoramento e os alertas proativos são essenciais para manter uma implantação saudável do Neptune, especialmente à medida que a simultaneidade e a complexidade da aplicação aumentam.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Atualizações do mecanismo do Neptune

Segurança