Vistas materializadas de tablas de lagos de datos externos en Amazon Redshift Spectrum
Las vistas materializadas pueden proporcionar un mantenimiento incremental en las tablas de lagos de datos externos. Con el mantenimiento incremental, Amazon Redshift actualiza los datos en la vista materializada únicamente con los cambios en las tablas base desde la última actualización. El mantenimiento incremental es más rentable que volver a calcular completamente la vista materializada después de cada cambio de datos en la tabla base.
Cuando se utilizan vistas materializadas en al menos una tabla externa, la creación de vistas materializadas es incremental en:
-
Tablas de lagos de datos estándar, particionadas y no particionadas, con archivos de datos en cualquier formato compatible (Parquet, Avro, CSV, etc.).
-
Tablas de Apache Iceberg, particionadas y no particionadas, con funciones de copiar y escribir y fusionar durante la lectura.
-
Las tablas de Amazon Redshift Spectrum se unieron a cualquier tabla de Amazon Redshift de la misma base de datos.
La actualización de la vista materializada es incremental:
-
Si la vista materializada no realiza agregación, se sobrescriben las tablas de lagos de datos estándar después de eliminar o PUT de S3 (eliminar archivos de datos).
-
Tablas de Apache Iceberg después de INSERT, DELETE, UPDATE o la compactación de tablas.
Para obtener más información sobre Amazon Redshift Spectrum, consulte Amazon Redshift Spectrum.
Limitaciones
Las limitaciones generales sobre las vistas materializadas siguen aplicándose a las vistas materializadas de las tablas de lagos de datos. Para obtener más información, consulte Actualización de una vista materializada. Además, tenga en cuenta las siguientes limitaciones cuando utilice vistas materializadas en tablas de lagos de datos externos.
-
La creación de vistas materializadas no es incremental en:
-
Las tablas de Hudi o Delta Lake.
-
Acceso a datos anidados en Spectrum.
-
Referencias a columnas VARBYTE.
-
-
La actualización de la vista materializada recurre al recálculo completo:
-
Apache Iceberg graba cuando una instantánea requerida ha caducado, si la vista materializada realiza la agregación.
-
Tablas de lagos de datos estándar después de eliminar o actualizar los archivos de datos en Amazon S3, si la vista materializada realiza la agregación.
-
Las tablas de lagos de datos estándar se actualizaron más de una vez dentro de un bloque de transacciones.
-
Las tablas de lagos de datos estándar se rigen por un manifiesto. Para obtener más información acerca de los manifiestos, consulte Uso de un manifiesto para especificar archivos de datos.
-
Amazon Redshift recurre al recálculo completo si se espera que tenga más rendimiento, en particular para las vistas materializadas que contienen uniones y se ha actualizado más de una tabla base desde la última actualización.
-
-
En las tablas de Apache Iceberg, la actualización de la vista materializada solo puede gestionar hasta 4 millones de posiciones eliminadas en un único archivo de datos. Una vez alcanzado este límite, se debe compactar la tabla base de Apache Iceberg para continuar actualizando la vista materializada.
-
En las tablas de Apache Iceberg, no se admite el escalado simultáneo para la creación y actualización de vistas materializadas.
-
Las características autonómicas no son compatibles. Entre ellas se incluyen las vistas materializadas automatizadas, la actualización automática y la reescritura automática de consultas.
-
Cuando se actualiza una vista materializada incremental, los permisos de IAM se aplican solo a las partes a las que se accede de las tablas base de Amazon Redshift.
-
Los cambios en los permisos administrados por Lake Formation no se verifican al consultar una vista materializada. Esto significa que si se define una vista materializada en una tabla de lago de datos y se eliminan los privilegios de selección de la tabla con Lake Formation, aún podrá consultar la vista materializada.