Configurar uma integração
Ao configurar uma integração ETL zero, é possível configurar vários parâmetros para controlar como os dados são sincronizados entre os sistemas de origem e de destino. Esta seção descreve as principais opções de configuração que afetam o processo de extração e carregamento de dados.
Configuração Snapshot sob demanda
A configuração Snapshot sob demanda permite que você escolha se deseja sincronizar continuamente as atualizações da fonte de dados com seu destino de dados. Quando desabilitada (o padrão), a integração fornece sincronização contínua à medida que as alterações ocorrem nos sistemas de origem. Quando habilitada, a integração executa uma única replicação de dados sem atualizações contínuas.
nota
A configuração Snapshot sob demanda não pode ser modificada após a criação da integração. Escolha essa opção cuidadosamente com base em seus requisitos de sincronização de dados.
Configuração RefreshInterval
O parâmetro RefreshInterval especifica a frequência na qual os pulls de captura de dados de alteração (CDC) ou as cargas incrementais serão acionados. Esse parâmetro fornece flexibilidade para alinhar a taxa do CDC com seus padrões específicos de atualização de dados, considerações de carga do sistema e metas de otimização de performance. O intervalo de atualização não pode ser modificado após a criação da integração quando o destino é o Redshift. Para outros destinos, o intervalo de atualização pode ser modificado após a criação da integração. Para fontes do DynamoDB com intervalos de atualização de 24 horas ou mais, consulte Lotes diários sequenciais para fontes do DynamoDB para obter detalhes sobre o processamento sequencial diário em lotes.
O incremento de tempo pode ser definido de 15 minutos a 8.640 minutos (seis dias), permitindo equilibrar a atualização dos dados e a utilização de recursos do sistema. Atualmente, o intervalo de atualização é personalizável para fontes do DynamoDB e SaaS:
Intervalo mínimo: 15 minutos
Intervalo máximo: 8640 minutos (6 dias)
Valor padrão: 15 minutos para a fonte do DynamoDB e 60 minutos para a fonte SaaS
Fatores a serem considerados ao escolher um intervalo de atualização:
Volatilidade dos dados: a frequência com que seus dados de origem mudam
Requisitos de negócios: o quanto atuais seus dados de análise precisam estar
Considerações de custo: atualizações mais frequentes podem resultar em maiores custos de processamento e armazenamento
nota
O parâmetro RefreshInterval define a frequência de acionamento do CDC. A frequência real de atualização pode ser afetada pelo volume de alterações nos dados de origem e pela capacidade de processamento do sistema de destino. Monitore seu desempenho de integração e ajuste o intervalo de atualização conforme necessário para otimizar seu caso de uso específico.
Para modificar o intervalo de atualização programaticamente, você pode usar a API ModifyIntegration com o parâmetro IntegrationConfig.
Lotes diários sequenciais para fontes do DynamoDB
Para integrações ETL zero com uma fonte do Amazon DynamoDB, quando você configura um intervalo de atualização de 1440 minutos (24 horas) ou mais, a integração usa processamento sequencial diário em lote em vez de uma única operação de exportação. Esse comportamento se deve à limitação da janela de exportação do DynamoDB, que tem um período máximo de exportação de 24 horas.
Quando o intervalo de atualização excede 24 horas, a integração funciona da seguinte forma:
O processo do CDC aguarda a duração total do intervalo de atualização (por exemplo, 6 dias para um intervalo de 8640 minutos).
Após o término do intervalo de atualização, a integração executa várias exportações sequenciais do DynamoDB, cada uma cobrindo uma janela de até 24 horas.
As tarefas do CDC processam cada lote sequencialmente para capturar todas as alterações que ocorreram durante o período do intervalo de atualização.
Por exemplo, se você definir um intervalo de atualização de 8640 minutos (6 dias), a integração aguardará 6 dias e, em seguida, executará 6 ou 7 exportações sequenciais (1 exportação final cobrindo o tempo extra gasto em operações de exportação) e tarefas de CDC para sincronizar todas as alterações desse período.