Configuración de una integración
Al configurar una integración zero-ETL, es posible definir diversos parámetros para controlar cómo se sincronizan los datos entre los sistemas de origen y destino. Actualmente, los siguientes ajustes solo están disponibles para los orígenes de SaaS.
Configuración del intervalo de actualización
Puede configurar el intervalo de actualización para la integración de los orígenes de SaaS en el momento de la creación de la integración. El valor predeterminado es de 1 hora. Puede configurar la frecuencia con la que deben ocurrir las extracciones o cargas incrementales de CDC (captura de datos de cambio). Esto proporciona flexibilidad para alinear la frecuencia de actualización con sus patrones específicos de actualización de datos, consideraciones de carga del sistema y objetivos de optimización del rendimiento. El incremento de tiempo se puede configurar desde 15 minutos hasta 8640 minutos (seis días). El intervalo de actualización no se puede modificar después de crear la integración cuando el destino es Redshift. Para otros destinos, el intervalo de actualización se puede modificar después de crear la integración. Para los orígenes DynamoDB con intervalos de actualización de 24 horas o más, consulte Procesamiento secuencial diario por lotes para orígenes de DynamoDB para obtener detalles sobre el procesamiento secuencial por lotes diario.
Esto se puede hacer a través de la consola, actualizando el intervalo de actualización en la configuración de replicación.
El incremento de tiempo se puede configurar entre 15 minutos y 8640 minutos (seis días), lo que permite equilibrar el estado actualizado de los datos con la utilización de los recursos del sistema. Actualmente, el intervalo de actualización se puede personalizar tanto para los orígenes DynamoDB como para los orígenes SaaS:
Intervalo mínimo: 15 minutos
Intervalo máximo: 8640 minutos (6 días)
Valor predeterminado: 15 minutos para orígenes DynamoDB y 60 minutos para orígenes SaaS
Factores que se deben tener en cuenta al elegir un intervalo de actualización:
Volatilidad de los datos: con qué frecuencia cambian los datos de origen
Requisitos empresariales: qué tan actuales deben estar los datos de análisis
Consideraciones de costo: las actualizaciones más frecuentes pueden generar mayores costos de procesamiento y almacenamiento
nota
El parámetro RefreshInterval define la frecuencia de activación de la CDC. La frecuencia real de actualización se puede ver afectada por el volumen de cambios en los datos de origen y la capacidad de procesamiento del sistema de destino. Supervise el rendimiento de la integración y ajuste el intervalo de actualización según sea necesario para optimizarlo según el caso de uso específico.
O a través de la API pasando RefreshInterval dentro de IntegrationConfig como parte de la solicitud CreateIntegration. Para modificar el intervalo de actualización mediante programación, puede utilizar la API ModifyIntegration con el parámetro IntegrationConfig.
Procesamiento secuencial diario por lotes para orígenes de DynamoDB
Para integraciones zero-ETL con un origen de Amazon DynamoDB, cuando se configura un intervalo de actualización de 1440 minutos (24 horas) o más, la integración utiliza procesamiento secuencial diario por lotes en lugar de una operación de exportación única. Este comportamiento se debe a la limitación del periodo de exportación de DynamoDB, que tiene un período máximo de exportación de 24 horas.
Cuando el intervalo de actualización supera las 24 horas, la integración funciona de la siguiente manera:
El proceso de CDC espera la duración completa del intervalo de actualización (por ejemplo, 6 días para un intervalo de 8640 minutos).
Después de que transcurre el intervalo de actualización, la integración realiza varias exportaciones secuenciales de DynamoDB, cada una de las cuales abarca un periodo de hasta 24 horas.
Los trabajos de CDC procesan cada lote de forma secuencial para capturar todos los cambios ocurridos durante el periodo del intervalo de actualización.
Por ejemplo, si configura un intervalo de actualización de 8640 minutos (6 días), la integración esperará 6 días y luego ejecutará 6 o 7 exportaciones secuenciales (una exportación final que cubre el tiempo adicional empleado en las operaciones de exportación) y trabajos de CDC para sincronizar todos los cambios de ese periodo.
Instantánea bajo demanda
De forma predeterminada, zero-ETL incluye la captura continua de datos (CDC), pero si tiene casos de uso para replicar todos los datos una vez, puede hacerlo mediante la característica de instantáneas bajo demanda. La característica, que actualmente solo es compatible con orígenes de SaaS, se puede utilizar para replicar datos una vez sin sincronización continua. Esta opción ofrece una replicación de datos única sin actualizaciones continuas y requiere una limpieza manual. Una vez completada la replicación, se recomienda eliminar el recurso de integración para evitar alcanzar el límite de integración de la cuenta.
O a través de la API estableciendo el parámetro ContinuousSync en false de IntegrationConfig como parte de la solicitud CreateIntegration.
nota
La configuración de instantánea bajo demanda no se puede modificar después de que se crea la integración. Elija esta opción con cuidado según sus requisitos de sincronización de datos.
Modificación del intervalo de actualización
Actualmente, esta característica solo está disponible para los destinos de AWS Glue y le permite actualizar el intervalo de actualización de una integración existente.