Replicación de tablas de S3
Las tablas de Amazon S3 ahora admiten la replicación automática de las tablas de Apache Iceberg almacenadas en los buckets de tablas de Amazon S3. Los destinos de replicación pueden estar dentro de la misma región de AWS, en varias regiones de AWS, en la misma cuenta o en otras cuentas de AWS. Al configurar la replicación de las tablas, puede mantener réplicas de solo lectura de los datos en varias ubicaciones. Puede usar réplicas para mejorar la disponibilidad de los datos, cumplir con los requisitos de cumplimiento y aumentar el rendimiento del acceso para las aplicaciones distribuidas.
La replicación de tablas de S3 mantiene la coherencia de datos al enviar todas las actualizaciones de las tablas, incluidas las instantáneas, los metadatos y los archivos de datos, a la tabla de destino en el mismo orden que la tabla de origen.
Cuándo utilizar la replicación de tablas de S3
Puede utilizar la replicación de tablas de S3 para los siguientes fines:
-
Minimizar la latencia: si los clientes están en dos ubicaciones geográficas, puede minimizar la latencia al acceder a los objetos mediante el mantenimiento de copias de los objetos en regiones de AWS que estén geográficamente más cerca de los usuarios.
-
Cumplimiento normativo: puede mantener réplicas de lectura en ubicaciones geográficas o cuentas de AWS específicas, lo que podría ayudarlo a cumplir determinados requisitos normativos o de cumplimiento. Puede configurar el bucket de tablas de destino de la replicación para cifrar las tablas con claves de KMS de AWS distintas de las de origen.
-
Análisis centralizado: si tiene datos distribuidos en varias AWS regiones, puede replicar conjuntos de datos específicos de una región en una región centralizada para unificar los informes, realizar análisis entre regiones y entrenar el modelo de machine learning. Esto elimina la necesidad de realizar consultas entre regiones o crear canalizaciones de agregación de datos personalizados.
-
Entornos de pruebas y desarrollo: puede crear réplicas de lectura de las tablas de producción en Cuentas de AWS independientes o buckets de tablas para proporcionar datos de prueba realistas a los equipos de desarrollo y control de calidad. Esto aísla las cargas de trabajo de prueba de los sistemas de producción y, al mismo tiempo, garantiza que los entornos de prueba dispongan de datos actualizados y similares a los de producción, sin necesidad de realizar exportaciones manuales ni procesos de sincronización de datos.
Características
La replicación de tablas de S3 ofrece las siguientes características.
Réplicas de solo lectura para tablas de S3
La replicación de tablas de S3 crea réplicas de solo lectura de las tablas de Apache Iceberg en todos los buckets de tablas. Puede consultar réplicas de forma independiente mediante cualquier motor compatible con Iceberg.
Réplicas mantenidas automáticamente
El servicio de replicación de tablas de S3 mantiene automáticamente las tablas de réplica. Por lo general, la replicación actualiza las réplicas en cuestión de minutos después de las actualizaciones en el origen. Las tablas de S3 confirman todas las actualizaciones en el mismo orden que la tabla de origen para mantener la coherencia.
Replicación a varios destinos
Puede replicar la misma tabla en varios buckets de tablas de destino. Los destinos de replicación pueden estar dentro de la misma Región de AWS, en varias Regiones de AWS, en la misma cuenta de AWS o en otras cuentas de AWS.
Retención de instantáneas independientes
La caducidad de las instantáneas de las tablas de réplica es independiente de la tabla de origen, lo que permite establecer diferentes periodos de retención en las tablas de réplica si es necesario. Por ejemplo, puede configurar la tabla de origen para que retenga las instantáneas durante 30 días y, al mismo tiempo, establecer un periodo de retención de 90 días para las tablas de réplica. Si configura un periodo de retención más prolongado en las réplicas, las instantáneas que venzan en el origen permanecen disponibles y se pueden consultar en las réplicas. Esta configuración proporciona capacidades ampliadas de viaje en el tiempo para el análisis histórico.
Mantenga las tablas de réplica en niveles de almacenamiento de menor costo
Puede configurar buckets de tablas de destino para que utilicen la clase de almacenamiento S3 Intelligent-Tiering, que optimiza automáticamente los costos de almacenamiento en función de los patrones de acceso sin que afecte al rendimiento ni se produzca sobrecarga operativa. S3 Intelligent-Tiering es ideal para tablas de réplicas a las que puede que se acceda con menos frecuencia.
Para obtener más información sobre la replicación de tablas de S3, consulte los siguientes temas.