View a markdown version of this page

Configurar uma integração - AWS Glue

Configurar uma integração

Ao configurar uma integração ETL zero, é possível configurar vários parâmetros para controlar como os dados são sincronizados entre os sistemas de origem e de destino. No momento, as configurações a seguir estão disponíveis somente para fontes SaaS.

Configuração do intervalo de atualização

Você pode configurar o intervalo de atualização para integração com fontes SaaS no momento da criação da integração. O valor padrão é uma hora. Você pode configurar a frequência com que as extrações do CDC (captura de dados de alteração) ou as cargas incrementais devem ocorrer. Isso fornece flexibilidade para alinhar a taxa de atualização com seus padrões específicos de atualização de dados, as considerações de carga do sistema e as metas de otimização de performance. O incremento de tempo pode ser definido de 15 minutos a 8.640 minutos (seis dias). O intervalo de atualização não pode ser modificado após a criação da integração quando o destino é o Redshift. Para outros destinos, o intervalo de atualização pode ser modificado após a criação da integração. Para fontes do DynamoDB com intervalos de atualização de 24 horas ou mais, consulte Lotes diários sequenciais para fontes do DynamoDB para obter detalhes sobre o processamento sequencial diário em lotes.

Isso pode ser feito no console, atualizando o intervalo de atualização nas Configurações de replicação.

A captura de tela mostra a configuração do parâmetro refreshInterval nas configurações de integração ETL zero.

O incremento de tempo pode ser definido de 15 minutos a 8.640 minutos (seis dias), permitindo equilibrar a atualização dos dados e a utilização de recursos do sistema. Atualmente, o intervalo de atualização é personalizável para fontes do DynamoDB e SaaS:

  • Intervalo mínimo: 15 minutos

  • Intervalo máximo: 8640 minutos (6 dias)

  • Valor padrão: 15 minutos para a fonte do DynamoDB e 60 minutos para a fonte SaaS

Fatores a serem considerados ao escolher um intervalo de atualização:

  • Volatilidade dos dados: a frequência com que seus dados de origem mudam

  • Requisitos de negócios: o quanto atuais seus dados de análise precisam estar

  • Considerações de custo: atualizações mais frequentes podem resultar em maiores custos de processamento e armazenamento

nota

O parâmetro RefreshInterval define a frequência de acionamento do CDC. A frequência real de atualização pode ser afetada pelo volume de alterações nos dados de origem e pela capacidade de processamento do sistema de destino. Monitore seu desempenho de integração e ajuste o intervalo de atualização conforme necessário para otimizar seu caso de uso específico.

Ou por meio da API, passando o RefreshInterval em IntegrationConfig como parte da solicitação CreateIntegration. Para modificar o intervalo de atualização programaticamente, você pode usar a API ModifyIntegration com o parâmetro IntegrationConfig.

Lotes diários sequenciais para fontes do DynamoDB

Para integrações ETL zero com uma fonte do Amazon DynamoDB, quando você configura um intervalo de atualização de 1440 minutos (24 horas) ou mais, a integração usa processamento sequencial diário em lote em vez de uma única operação de exportação. Esse comportamento se deve à limitação da janela de exportação do DynamoDB, que tem um período máximo de exportação de 24 horas.

Quando o intervalo de atualização excede 24 horas, a integração funciona da seguinte forma:

  1. O processo do CDC aguarda a duração total do intervalo de atualização (por exemplo, 6 dias para um intervalo de 8640 minutos).

  2. Após o término do intervalo de atualização, a integração executa várias exportações sequenciais do DynamoDB, cada uma cobrindo uma janela de até 24 horas.

  3. As tarefas do CDC processam cada lote sequencialmente para capturar todas as alterações que ocorreram durante o período do intervalo de atualização.

Por exemplo, se você definir um intervalo de atualização de 8640 minutos (6 dias), a integração aguardará 6 dias e, em seguida, executará 6 ou 7 exportações sequenciais (1 exportação final cobrindo o tempo extra gasto em operações de exportação) e tarefas de CDC para sincronizar todas as alterações desse período.

Snapshot sob demanda

O ETL zero, por padrão, inclui a captura contínua de dados (CDC), mas se você tiver casos de uso para replicar dados completos, poderá fazê-lo usando o recurso de snapshot sob demanda. O recurso, atualmente disponível apenas para fontes SaaS, pode ser usado para replicar dados uma única vez, sem sincronização contínua. Essa opção fornece uma replicação de dados única sem atualizações contínuas e requer limpeza manual. Quando a replicação estiver concluída, recomendamos excluir o recurso de integração para evitar atingir o limite de integrações da conta.

A captura de tela mostra a configuração Snapshot sob demanda.

Ou por meio da API, definindo o parâmetro ContinuousSync como false em IntegrationConfig como parte da solicitação CreateIntegration.

nota

A configuração Snapshot sob demanda não pode ser modificada após a criação da integração. Escolha essa opção cuidadosamente com base em seus requisitos de sincronização de dados.

Modificação do intervalo de atualização

Atualmente, esse recurso está disponível somente para destinos do AWS Glue e permite que você atualize o intervalo de atualização de uma integração existente.