Replicar tabelas do S3 - Amazon Simple Storage Service

Replicar tabelas do S3

A funcionalidade Tabelas do Amazon S3 permite a replicação automática de tabelas Apache Iceberg armazenadas em buckets de tabela do Amazon S3. Os destinos de replicação podem estar na mesma região da AWS, em várias regiões da AWS, na mesma conta ou em outras contas da AWS. Ao configurar a replicação de tabelas, é possível manter réplicas somente leitura dos dados em vários locais. Você pode usar réplicas para aprimorar a disponibilidade dos dados, atender aos requisitos de conformidade e aumentar o desempenho do acesso para aplicações distribuídas.

A replicação de tabelas do S3 mantém a consistência de dados confirmando todas as atualizações da tabela, inclusive snapshots, metadados e arquivos de dados, na tabela de destino na mesma ordem da tabela de origem.

Quando usar a replicação de tabelas do S3

É possível usar a replicação de tabelas do S3 para as seguintes finalidades:

  • Minimizar a latência: se seus clientes estiverem em duas localizações geográficas diferentes, é possível minimizar a latência ao acessar tabelas mantendo cópias as réplicas de leitura nas regiões da AWS geograficamente mais próximas dos usuários.

  • Conformidade regulatória: é possível manter réplicas de leitura em localizações geográficas ou contas da AWS específicas, o que pode ajudar a atender a determinados requisitos regulatórios ou de conformidade. É possível configurar o bucket de tabela de destino da replicação para criptografar tabelas com chaves do AWS KMS diferentes das de origem.

  • Analytics centralizada: se você tiver dados distribuídos em várias regiões da AWS, poderá replicar conjuntos de dados específicos da região em uma região centralizada para gerar relatórios unificados, análises entre regiões e treinamento de modelo de machine learning. Isso elimina a necessidade de consultar várias regiões ou criar pipelines personalizados de agregação de dados.

  • Ambientes de teste e desenvolvimento: é possível criar réplicas de leitura de tabelas de produção em Contas da AWS ou buckets de tabela separados para fornecer dados de teste realistas a equipes de desenvolvimento e controle de qualidade. Esse procedimento isola as workloads de teste dos sistemas de produção e, ao mesmo tempo, garante que os ambientes de teste tenham dados atuais semelhantes aos de produção, sem exportações manuais ou processos de sincronização de dados.

Recursos

A Replicação de Tabelas do S3 oferece os recursos a seguir.

Réplicas somente leitura para tabelas do S3

A replicação de tabelas do S3 cria réplicas somente leitura de tabelas Apache Iceberg em todas os buckets de tabela. É possível consultar réplicas de forma independente usando qualquer mecanismo compatível com o Iceberg.

Réplicas mantidas automaticamente

O serviço Replicação de Tabelas do S3 mantém automaticamente as tabelas de réplica. A replicação normalmente atualiza as réplicas em poucos minutos após as atualizações na origem. A funcionalidade Tabelas do S3 confirma todas as atualizações na mesma ordem da tabela de origem para manter a consistência.

Replicação para vários destinos

É possível replicar a mesma tabela em vários buckets de tabela de destino. Os destinos de replicação podem estar na mesma Região da AWS, em várias Regiões da AWS, na mesma conta da AWS ou em outras contas da AWS.

Retenção independente de snapshots

A expiração de snapshots para tabelas de réplica é independente da tabela de origem, o que permite definir diferentes períodos de retenção nas tabelas de réplica, se necessário. Por exemplo, é possível configurar uma tabela de origem para reter snapshots por trintas dias e definir um período de retenção de noventa dias para tabelas de réplica. Se você configurar um período de retenção mais longo nas réplicas, os snapshots que expiram na origem permanecerão disponíveis e poderão ser consultados nas réplicas. Essa configuração oferece recursos estendidos de viagem no tempo para análise histórica.

Manter tabelas de réplica em níveis de armazenamento de menor custo

É possível configurar buckets de tabela de destino para usar a classe de armazenamento S3 Intelligent-Tiering, que automaticamente otimiza os custos de armazenamento com base nos padrões de acesso, sem impacto no desempenho ou custos operacionais indiretos. O S3 Intelligent-Tiering é adequado para tabelas de réplica que acessadas com menor frequência.

Para ter mais informações sobre a replicação de tabelas do S3, consulte os tópicos a seguir.