Configuración de una integración - AWS Glue

Configuración de una integración

Al configurar una integración sin ETL, es posible definir diversos parámetros para controlar cómo se sincronizan los datos entre los sistemas de origen y destino. En esta sección, se describen las opciones de configuración principales que afectan el proceso de extracción y carga de datos.

Configuración de instantánea bajo demanda

La configuración de instantánea bajo demanda permite decidir si las actualizaciones del origen de datos se sincronizan de forma continua con el destino de datos. Cuando está desactivada (opción predeterminada), la integración ofrece sincronización continua a medida que se producen cambios en los sistemas de origen. Cuando está habilitada, la integración realiza una replicación de datos única sin actualizaciones continuas.

La captura de pantalla muestra la configuración de la opción de instantánea bajo demanda. Cuando está habilitada, la integración replica los datos una sola vez, sin captura de cambios, lo que ofrece una replicación de datos única sin actualizaciones continuas. Esta configuración no se puede modificar después de crear la integración.
nota

La configuración de instantánea bajo demanda no se puede modificar después de que se crea la integración. Elija esta opción con cuidado según sus requisitos de sincronización de datos.

Configuración de intervalo de actualización

El parámetro RefreshInterval especifica la frecuencia con la que se activarán las extracciones de captura de cambios de datos (CDC) o las cargas incrementales. Este parámetro ofrece flexibilidad para ajustar la frecuencia de la CDC según los patrones específicos de actualización de datos, las consideraciones de carga del sistema y los objetivos de optimización del rendimiento. El intervalo de actualización no se puede modificar después de crear la integración cuando el destino es Redshift. Para otros destinos, el intervalo de actualización se puede modificar después de crear la integración. Para los orígenes DynamoDB con intervalos de actualización de 24 horas o más, consulte Procesamiento secuencial diario por lotes para orígenes de DynamoDB para obtener detalles sobre el procesamiento secuencial por lotes diario.

La captura de pantalla muestra la configuración del parámetro de intervalo de actualización (refreshInterval) en los ajustes de la integración sin ETL.

El incremento de tiempo se puede configurar entre 15 minutos y 8640 minutos (seis días), lo que permite equilibrar el estado actualizado de los datos con la utilización de los recursos del sistema. Actualmente, el intervalo de actualización se puede personalizar tanto para los orígenes DynamoDB como para los orígenes SaaS:

  • Intervalo mínimo: 15 minutos

  • Intervalo máximo: 8640 minutos (6 días)

  • Valor predeterminado: 15 minutos para orígenes DynamoDB y 60 minutos para orígenes SaaS

Factores que se deben tener en cuenta al elegir un intervalo de actualización:

  • Volatilidad de los datos: con qué frecuencia cambian los datos de origen

  • Requisitos empresariales: qué tan actuales deben estar los datos de análisis

  • Consideraciones de costo: las actualizaciones más frecuentes pueden generar mayores costos de procesamiento y almacenamiento

nota

El parámetro RefreshInterval define la frecuencia de activación de la CDC. La frecuencia real de actualización se puede ver afectada por el volumen de cambios en los datos de origen y la capacidad de procesamiento del sistema de destino. Supervise el rendimiento de la integración y ajuste el intervalo de actualización según sea necesario para optimizarlo según el caso de uso específico.

Para modificar el intervalo de actualización mediante programación, puede utilizar la API ModifyIntegration con el parámetro IntegrationConfig.

Procesamiento secuencial diario por lotes para orígenes de DynamoDB

Para integraciones sin ETL con un origen de Amazon DynamoDB, cuando se configura un intervalo de actualización de 1440 minutos (24 horas) o más, la integración utiliza procesamiento secuencial diario por lotes en lugar de una operación de exportación única. Este comportamiento se debe a la limitación del periodo de exportación de DynamoDB, que tiene un período máximo de exportación de 24 horas.

Cuando el intervalo de actualización supera las 24 horas, la integración funciona de la siguiente manera:

  1. El proceso de CDC espera la duración completa del intervalo de actualización (por ejemplo, 6 días para un intervalo de 8640 minutos).

  2. Después de que transcurre el intervalo de actualización, la integración realiza varias exportaciones secuenciales de DynamoDB, cada una de las cuales abarca un periodo de hasta 24 horas.

  3. Los trabajos de CDC procesan cada lote de forma secuencial para capturar todos los cambios ocurridos durante el periodo del intervalo de actualización.

Por ejemplo, si configura un intervalo de actualización de 8640 minutos (6 días), la integración esperará 6 días y luego ejecutará 6 o 7 exportaciones secuenciales (una exportación final que cubre el tiempo adicional empleado en las operaciones de exportación) y trabajos de CDC para sincronizar todos los cambios de ese periodo.