Métricas de replicação de dados entre regiões no Amazon CloudWatch - Amazon MQ

Métricas de replicação de dados entre regiões no Amazon CloudWatch

O atributo de replicação de dados entre regiões do Amazon MQ for ActiveMQ oferece métricas para manter a confiabilidade, a disponibilidade e a performance de seus agentes primários e de réplica. Durante o processo de replicação, um agente de réplica em uma região secundária recebe dados replicados de forma assíncrona do agente primário na região primária. Se o agente primário na região primária falhar, você poderá promover o agente de réplica na região secundária para primário iniciando uma transição ou um failover. Para ter instruções sobre como visualizar métricas no Amazon CloudWatch, consulte Acessar as métricas do CloudWatch para o Amazon MQ.

Carimbos de data/hora da CRDR

Os carimbos de data/hora a seguir descrevem como as métricas encontradas no Amazon CloudWatch são calculadas. Há cinco carimbos de data/hora no processo de replicação de dados:

  • Tempo de observação atual (TCO): o instante atual no tempo.

  • Hora da criação (TC): o instante em que um evento foi criado na fila de replicação pelo agente primário. Disponível em agentes primários e de réplica.

  • Hora da entrega (TD): o instante em que um evento foi entregue com êxito ao agente de réplicas. Disponível somente em agentes de réplica.

  • Tempo de processamento (TP): o instante em que um evento foi processado com êxito pelo agente de réplica. Disponível somente em agentes de réplica.

  • Tempo de confirmação (TA): o instante em que um evento foi reconhecido com êxito pelo agente principal. Disponível apenas em agentes primários.

Estime a performance de transição/failover com métricas do CRDR CloudWatch

O Amazon MQ habilita métricas para o seu agente por padrão. É possível visualizar as métricas do agente acessando o console do Amazon CloudWatch ou usando a API do CloudWatch. As métricas a seguir são úteis para entender a performance de replicação e de transição/failover de seus agentes de CRDR:

Métrica do Amazon MQ CloudWatch Motivo do uso da CRDR
TotalReplicationLag O tempo estimado entre TA e TC do último evento não confirmado no agente primário.
ReplicationLag O tempo estimado entre TP e TC do último evento não confirmado no agente primário.
PrimaryWaitTime O tempo estimado entre TCO e TC do último evento processado no agente primário.
ReplicaWaitTime O tempo estimado entre TCO e TP do último evento processado no agente primário.
QueueSize O número total de eventos não confirmados na fila de replicação no agente primário.

TotalReplicationLag e ReplicationLag descrevem o atraso na replicação entre os agentes primário e de réplica. As duas métricas também podem ser usadas para estimar o tempo até a conclusão da operação contínua de transição ou failover.

PrimaryWaitTime e ReplicaWaitTime podem ser usados para identificar quaisquer problemas contínuos com o processo de replicação. Se o valor da métrica estiver aumentando constantemente, isso poderá indicar que o processo de replicação está degradado ou pausado. A replicação lenta pode decorrer de problemas como particionamento de rede, inicialização de agentes e recuperação prolongada.