Configuración de una integración
Al configurar una integración sin ETL, es posible definir diversos parámetros para controlar cómo se sincronizan los datos entre los sistemas de origen y destino. En esta sección, se describen las opciones de configuración principales que afectan el proceso de extracción y carga de datos.
Configuración de instantánea bajo demanda
La configuración de instantánea bajo demanda permite decidir si las actualizaciones del origen de datos se sincronizan de forma continua con el destino de datos. Cuando está desactivada (opción predeterminada), la integración ofrece sincronización continua a medida que se producen cambios en los sistemas de origen. Cuando está habilitada, la integración realiza una replicación de datos única sin actualizaciones continuas.
nota
La configuración de instantánea bajo demanda no se puede modificar después de que se crea la integración. Elija esta opción con cuidado según sus requisitos de sincronización de datos.
Configuración de intervalo de actualización
El parámetro RefreshInterval especifica la frecuencia con la que se activarán las extracciones de captura de cambios de datos (CDC) o las cargas incrementales. Este parámetro ofrece flexibilidad para ajustar la frecuencia de la CDC según los patrones específicos de actualización de datos, las consideraciones de carga del sistema y los objetivos de optimización del rendimiento. El intervalo de actualización no se puede modificar después de crear la integración cuando el destino es Redshift. Para otros destinos, el intervalo de actualización se puede modificar después de crear la integración. Para los orígenes DynamoDB con intervalos de actualización de 24 horas o más, consulte Procesamiento secuencial diario por lotes para orígenes de DynamoDB para obtener detalles sobre el procesamiento secuencial por lotes diario.
El incremento de tiempo se puede configurar entre 15 minutos y 8640 minutos (seis días), lo que permite equilibrar el estado actualizado de los datos con la utilización de los recursos del sistema. Actualmente, el intervalo de actualización se puede personalizar tanto para los orígenes DynamoDB como para los orígenes SaaS:
Intervalo mínimo: 15 minutos
Intervalo máximo: 8640 minutos (6 días)
Valor predeterminado: 15 minutos para orígenes DynamoDB y 60 minutos para orígenes SaaS
Factores que se deben tener en cuenta al elegir un intervalo de actualización:
Volatilidad de los datos: con qué frecuencia cambian los datos de origen
Requisitos empresariales: qué tan actuales deben estar los datos de análisis
Consideraciones de costo: las actualizaciones más frecuentes pueden generar mayores costos de procesamiento y almacenamiento
nota
El parámetro RefreshInterval define la frecuencia de activación de la CDC. La frecuencia real de actualización se puede ver afectada por el volumen de cambios en los datos de origen y la capacidad de procesamiento del sistema de destino. Supervise el rendimiento de la integración y ajuste el intervalo de actualización según sea necesario para optimizarlo según el caso de uso específico.
Para modificar el intervalo de actualización mediante programación, puede utilizar la API ModifyIntegration con el parámetro IntegrationConfig.
Procesamiento secuencial diario por lotes para orígenes de DynamoDB
Para integraciones sin ETL con un origen de Amazon DynamoDB, cuando se configura un intervalo de actualización de 1440 minutos (24 horas) o más, la integración utiliza procesamiento secuencial diario por lotes en lugar de una operación de exportación única. Este comportamiento se debe a la limitación del periodo de exportación de DynamoDB, que tiene un período máximo de exportación de 24 horas.
Cuando el intervalo de actualización supera las 24 horas, la integración funciona de la siguiente manera:
El proceso de CDC espera la duración completa del intervalo de actualización (por ejemplo, 6 días para un intervalo de 8640 minutos).
Después de que transcurre el intervalo de actualización, la integración realiza varias exportaciones secuenciales de DynamoDB, cada una de las cuales abarca un periodo de hasta 24 horas.
Los trabajos de CDC procesan cada lote de forma secuencial para capturar todos los cambios ocurridos durante el periodo del intervalo de actualización.
Por ejemplo, si configura un intervalo de actualización de 8640 minutos (6 días), la integración esperará 6 días y luego ejecutará 6 o 7 exportaciones secuenciales (una exportación final que cubre el tiempo adicional empleado en las operaciones de exportación) y trabajos de CDC para sincronizar todos los cambios de ese periodo.