CONF 1: Como você está oferecendo suporte a implantações de arquitetura de alta disponibilidade (HA)?REL 2: Como você está cumprindo seus objetivos de ponto de recuperação (RPOs)? ElastiCache CONF 3: Como você oferece suporte aos requisitos de recuperação de desastres (DR)?CONF 4: Como se planejar efetivamente para os failovers?REL 5: Seus ElastiCache componentes foram projetados para serem escalados?

Pilar de confiabilidade ElastiCache Well-Architected da Amazon Lens

O pilar de confiabilidade se concentra nas workloads que executam as funções pretendidas e em como se recuperar rapidamente de falhas para atender às demandas. Os principais tópicos incluem projeto de sistema distribuído, planejamento de recuperação e adaptação às mudanças de requisitos.

Tópicos

CONF 1: Como você está oferecendo suporte a implantações de arquitetura de alta disponibilidade (HA)?
REL 2: Como você está cumprindo seus objetivos de ponto de recuperação (RPOs)? ElastiCache
CONF 3: Como você oferece suporte aos requisitos de recuperação de desastres (DR)?
CONF 4: Como se planejar efetivamente para os failovers?
REL 5: Seus ElastiCache componentes foram projetados para serem escalados?

CONF 1: Como você está oferecendo suporte a implantações de arquitetura de alta disponibilidade (HA)?

Question-level introdução: Compreender a arquitetura de alta disponibilidade da Amazon ElastiCache permitirá que você opere em um estado resiliente durante eventos de disponibilidade.

Question-level benefício: arquitetar seus ElastiCache clusters para serem resilientes a falhas garante maior disponibilidade para suas ElastiCache implantações.

[Obrigatório] Determine o nível de confiabilidade que você precisa para seu ElastiCache cluster. Workloads diferentes têm padrões de resiliência diferentes, desde workloads totalmente efêmeras até workloads essenciais à missão. Defina as necessidades de cada tipo de ambiente que você opera, como desenvolvimento, teste e produção.

Mecanismo de cache: ElastiCache para Memcached versus ElastiCache para Valkey e Redis OSS
1. ElastiCache for Memcached não fornece nenhum mecanismo de replicação e é usado principalmente para cargas de trabalho efêmeras.
2. ElastiCache para Valkey e Redis, o OSS oferece recursos de HA discutidos abaixo
[Melhor] Para cargas de trabalho que exigem HA, use ElastiCache no modo de cluster com no mínimo duas réplicas por fragmento, mesmo para cargas de trabalho com requisitos de taxa de transferência pequenos que exigem apenas um fragmento.
1. Com o modo de cluster habilitado, o multi-AZ é habilitado automaticamente.
  
  Multi-AZ minimiza o tempo de inatividade realizando failovers automáticos do nó primário para as réplicas, no caso de qualquer manutenção planejada ou não planejada, além de mitigar a falha do AZ.
2. Para workloads fragmentadas, uma quantidade mínima de três fragmentos fornece uma recuperação mais rápida durante eventos de failover, pois o protocolo de cluster do Valkey ou Redis OSS exige que a maioria dos nós primários esteja disponível para ter quórum.
3. Configure duas ou mais réplicas em toda a disponibilidade.
  
  Ter duas réplicas proporciona maior escalabilidade de leitura e também disponibilidade de leitura em cenários em que uma réplica passa por manutenção.
4. Use tipos de Graviton2-based nós (nós padrão na maioria das regiões).
  
  ElastiCache adicionou desempenho otimizado nesses nós. Como resultado, você obtém melhor performance de replicação e sincronização, resultando em maior disponibilidade geral.
5. Monitore e ajuste o tamanho certo para lidar com picos de tráfego previstos: sob carga pesada, o mecanismo pode deixar de responder, o que afeta a disponibilidade. BytesUsedForCachee DatabaseMemoryUsagePercentage são bons indicadores do uso da memória, enquanto ReplicationLag é um indicador da integridade de replicação com base na taxa de gravação. Você pode usar essas métricas para acionar o ajuste de escala do cluster.
6. Garanta a resiliência do lado do cliente testando com a API de failover antes de um evento de failover na produção.
[Recursos]:
- Configure ElastiCache para Redis OSS para maior disponibilidade
- Alta disponibilidade com o uso de grupos de replicação

REL 2: Como você está cumprindo seus objetivos de ponto de recuperação (RPOs)? ElastiCache

Question-level introdução: Entenda o RPO da carga de trabalho para embasar as decisões sobre estratégias ElastiCache de backup e recuperação.

Question-level benefício: ter uma estratégia de RPO no local pode melhorar a continuidade dos negócios no caso de cenários de recuperação de desastres. Projetar suas políticas de backup e restauração pode ajudá-lo a atingir seus objetivos de ponto de recuperação (RPO) para seus ElastiCache dados. ElastiCache oferece recursos de snapshot que são armazenados no Amazon S3, junto com uma política de retenção configurável. Esses instantâneos são gerados durante uma janela de backup definida e gerenciados automaticamente pelo serviço. Se sua workload exigir granularidade de backup adicional, você tem a opção de criar até 20 backups manuais por dia. Os backups criados manualmente não têm uma política de retenção de serviços e podem ser mantidos indefinidamente.

[Obrigatório] Compreenda e documente o RPO de suas ElastiCache implantações.
- Lembre-se de que o Memcached não oferece nenhum processo de backup.
- Analise os recursos dos recursos de ElastiCache Backup e Restauração.
[Ideal] Implemente um processo bem comunicado para fazer backup do cluster.
- Inicie backups manuais conforme necessário.
- Analise as políticas de retenção para backups automáticos.
- Observe que os backups manuais serão mantidos indefinidamente.
- Agende seus backups automáticos durante períodos de baixo uso.
- Execute operações de backup em réplicas de leitura para garantir a minimização do impacto na performance do cluster.
[Bom] Aproveite o recurso de backup agendado ElastiCache para fazer backup regular de seus dados durante uma janela definida.
- Teste periodicamente as restaurações de seus backups.
[Recursos]:

CONF 3: Como você oferece suporte aos requisitos de recuperação de desastres (DR)?

Question-level introdução: A recuperação de desastres é um aspecto importante de qualquer planejamento de carga de trabalho. ElastiCache oferece várias opções para implementar a recuperação de desastres com base nos requisitos de resiliência da carga de trabalho. Com o Amazon ElastiCache Global Datastore, você pode gravar em seu cluster em uma região e ter os dados disponíveis para serem lidos de outros dois clusters de réplicas entre regiões, permitindo leituras de baixa latência e recuperação de desastres em todas as regiões.

Question-level benefício: compreender e planejar uma variedade de cenários de desastres pode garantir a continuidade dos negócios. As estratégias de DR devem equilibrar custo, impacto na performance e potencial de perda de dados.

[Obrigatório] Desenvolva e documente estratégias de DR para todos os seus ElastiCache componentes com base nos requisitos da carga de trabalho. ElastiCache é único porque alguns casos de uso são totalmente efêmeros e não exigem nenhuma estratégia de DR, enquanto outros estão na extremidade oposta do espectro e exigem uma estratégia de DR extremamente robusta. Todas as opções devem ser ponderadas em relação à otimização de custos: maior resiliência requer mais recursos de infraestrutura.

Entenda as opções de DR disponíveis em nível regional e multirregional.
- Multi-AZ As implantações são recomendadas para evitar falhas no AZ. Certifique-se de implantar com Multi-AZ arquiteturas Cluster-Mode habilitadas, com um mínimo de 3 AZs disponíveis.
- O Global Datastore é recomendado para se proteger contra falhas regionais.
[Ideal] Habilite o Global Datastore para workloads que exigem resiliência por região.
- Tenha um plano para realizar failover para a região secundária em caso de degradação da primária.
- Teste o processo de failover multirregional antes de um failover na produção.
- Monitore a métrica ReplicationLag para entender o impacto potencial da perda de dados durante eventos de failover.
[Recursos]:

CONF 4: Como se planejar efetivamente para os failovers?

Question-level introdução: Habilitar o Multi-AZ com failovers automáticos é uma ElastiCache prática recomendada. Em certos casos, ElastiCache para Valkey e Redis, o OSS substitui os nós primários como parte das operações de serviço. Exemplos incluem eventos de manutenção planejada e o caso improvável de falha em um nó ou problema em zona de disponibilidade. Os failovers bem-sucedidos dependem tanto da configuração da biblioteca cliente ElastiCache quanto da sua biblioteca cliente.

Question-level benefício: seguir as melhores práticas para ElastiCache failovers em conjunto com sua biblioteca ElastiCache cliente específica ajuda a minimizar o possível tempo de inatividade durante eventos de failover.

[Obrigatório] Com o modo de cluster desabilitado, use tempos limite para que seus clientes detectem se precisam se desconectar do nó primário antigo e se reconectar ao novo nó primário, usando o endereço IP do endpoint primário atualizado. Com o modo de cluster habilitado, a biblioteca de cliente é responsável por detectar alterações na topologia subjacente do cluster. Isso é feito com mais frequência por meio de configurações na biblioteca ElastiCache cliente, que também permitem que você defina a frequência e o método de atualização. Cada biblioteca de cliente oferece configurações próprias e mais detalhes estão disponíveis na documentação correspondente.

[Recursos]:
- Minimizando o tempo de inatividade no ElastiCache Valkey e no Redis OSS com Multi-AZ
- Analise as melhores práticas da sua biblioteca de ElastiCache clientes.
[Obrigatório] Os failovers bem-sucedidos dependem de um ambiente de replicação saudável entre o nó primário e os nós de réplica. Analise e compreenda a natureza assíncrona da replicação do Valkey e do Redis OSS, bem como as CloudWatch métricas disponíveis para relatar o atraso de replicação entre os nós primário e de réplica. Para casos de uso que exigem maior segurança de dados, use o comando WAIT para forçar as réplicas a reconhecerem as gravações antes de responder aos clientes conectados.

[Recursos]:
- Métricas para o Valkey ou Redis OSS
- Monitorando as melhores práticas com ElastiCache o uso da Amazon CloudWatch
[Melhor] Valide regularmente a capacidade de resposta do seu aplicativo durante o failover usando a API ElastiCache Test Failover.

[Recursos]:
- Testando o failover automático em uma réplica de leitura em ElastiCache
- Teste do failover automático

REL 5: Seus ElastiCache componentes foram projetados para serem escalados?

Question-level introdução: Ao compreender os recursos de escalabilidade e as topologias de implantação disponíveis, seus ElastiCache componentes podem se ajustar com o tempo para atender às mudanças nos requisitos de carga de trabalho. ElastiCacheoferece escala de 4 vias: in/out (horizontal) e up/down (vertical).

Question-level benefício: seguir as melhores práticas para ElastiCache implantações fornece a maior flexibilidade de escalabilidade, além de atender ao princípio da Well Architected de escalar horizontalmente para minimizar o impacto das falhas.

[Obrigatório] Entenda a diferença entre topologias Cluster-mode Cluster-mode ativadas e desativadas. Em quase todos os casos, é recomendável implantar com Cluster-mode habilitado, pois isso permite maior escalabilidade ao longo do tempo. Cluster-mode componentes desativados são limitados em sua capacidade de escalar horizontalmente adicionando réplicas de leitura.
[Obrigatório] Entenda quando e como escalar.
- Para mais READIOPS: adicione réplicas.
- Para mais WRITEOPS: adicione fragmentos (aumentar a escala horizontalmente).
- Para mais E/S de rede: use instâncias otimizadas para rede (aumentar a escala verticalmente).
[Melhor] Implante seus ElastiCache componentes com a Cluster-mode opção habilitada, preferindo mais nós menores em vez de menos nós maiores. Isso limita o raio de alcance de uma falha de nó.
[Ideal] Inclua réplicas em seus clusters para melhorar a capacidade de resposta durante eventos de ajuste de escala.
[Bom] Para o modo de cluster desativado, utilize as réplicas de leitura para aumentar a capacidade geral de leitura. ElastiCache tem suporte para até 5 réplicas de leitura no modo de cluster desativado, bem como escalabilidade vertical.
[Recursos]:
- Clusters de escalabilidade ElastiCache
- Aumento de escala vertical on-line

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Pilar de segurança

Pilar Eficiência de performance