Configurar uma integração - AWS Glue

Configurar uma integração

Ao configurar uma integração ETL zero, é possível configurar vários parâmetros para controlar como os dados são sincronizados entre os sistemas de origem e de destino. Esta seção descreve as principais opções de configuração que afetam o processo de extração e carregamento de dados.

Configuração Snapshot sob demanda

A configuração Snapshot sob demanda permite que você escolha se deseja sincronizar continuamente as atualizações da fonte de dados com seu destino de dados. Quando desabilitada (o padrão), a integração fornece sincronização contínua à medida que as alterações ocorrem nos sistemas de origem. Quando habilitada, a integração executa uma única replicação de dados sem atualizações contínuas.

A captura de tela mostra a configuração Snapshot sob demanda. Quando ativada, a integração replica os dados uma vez sem alterar a captura de dados, fornecendo uma replicação de dados única sem atualizações contínuas. Essa configuração não poderá ser modificada após a criação da integração.
nota

A configuração Snapshot sob demanda não pode ser modificada após a criação da integração. Escolha essa opção cuidadosamente com base em seus requisitos de sincronização de dados.

Configuração RefreshInterval

O parâmetro RefreshInterval especifica a frequência na qual os pulls de captura de dados de alteração (CDC) ou as cargas incrementais serão acionados. Esse parâmetro fornece flexibilidade para alinhar a taxa do CDC com seus padrões específicos de atualização de dados, considerações de carga do sistema e metas de otimização de performance. O intervalo de atualização não pode ser modificado após a criação da integração quando o destino é o Redshift. Para outros destinos, o intervalo de atualização pode ser modificado após a criação da integração. Para fontes do DynamoDB com intervalos de atualização de 24 horas ou mais, consulte Lotes diários sequenciais para fontes do DynamoDB para obter detalhes sobre o processamento sequencial diário em lotes.

A captura de tela mostra a configuração do parâmetro refreshInterval nas configurações de integração ETL zero.

O incremento de tempo pode ser definido de 15 minutos a 8.640 minutos (seis dias), permitindo equilibrar a atualização dos dados e a utilização de recursos do sistema. Atualmente, o intervalo de atualização é personalizável para fontes do DynamoDB e SaaS:

  • Intervalo mínimo: 15 minutos

  • Intervalo máximo: 8640 minutos (6 dias)

  • Valor padrão: 15 minutos para a fonte do DynamoDB e 60 minutos para a fonte SaaS

Fatores a serem considerados ao escolher um intervalo de atualização:

  • Volatilidade dos dados: a frequência com que seus dados de origem mudam

  • Requisitos de negócios: o quanto atuais seus dados de análise precisam estar

  • Considerações de custo: atualizações mais frequentes podem resultar em maiores custos de processamento e armazenamento

nota

O parâmetro RefreshInterval define a frequência de acionamento do CDC. A frequência real de atualização pode ser afetada pelo volume de alterações nos dados de origem e pela capacidade de processamento do sistema de destino. Monitore seu desempenho de integração e ajuste o intervalo de atualização conforme necessário para otimizar seu caso de uso específico.

Para modificar o intervalo de atualização programaticamente, você pode usar a API ModifyIntegration com o parâmetro IntegrationConfig.

Lotes diários sequenciais para fontes do DynamoDB

Para integrações ETL zero com uma fonte do Amazon DynamoDB, quando você configura um intervalo de atualização de 1440 minutos (24 horas) ou mais, a integração usa processamento sequencial diário em lote em vez de uma única operação de exportação. Esse comportamento se deve à limitação da janela de exportação do DynamoDB, que tem um período máximo de exportação de 24 horas.

Quando o intervalo de atualização excede 24 horas, a integração funciona da seguinte forma:

  1. O processo do CDC aguarda a duração total do intervalo de atualização (por exemplo, 6 dias para um intervalo de 8640 minutos).

  2. Após o término do intervalo de atualização, a integração executa várias exportações sequenciais do DynamoDB, cada uma cobrindo uma janela de até 24 horas.

  3. As tarefas do CDC processam cada lote sequencialmente para capturar todas as alterações que ocorreram durante o período do intervalo de atualização.

Por exemplo, se você definir um intervalo de atualização de 8640 minutos (6 dias), a integração aguardará 6 dias e, em seguida, executará 6 ou 7 exportações sequenciais (1 exportação final cobrindo o tempo extra gasto em operações de exportação) e tarefas de CDC para sincronizar todas as alterações desse período.