Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Migración completa de datos
La migración completa de datos recrea los archivos de datos y los metadatos. Este enfoque lleva más tiempo y requiere recursos informáticos adicionales en comparación con la migración in situ. Sin embargo, la migración completa de los datos ofrece importantes oportunidades para mejorar la calidad de las tablas y optimizar los patrones de acceso y almacenamiento de datos.
Durante la migración completa de los datos, puede realizar varias operaciones beneficiosas, como la validación de los datos para garantizar su integridad y corrección, las modificaciones del esquema para cumplir mejor los requisitos actuales y los ajustes de la estrategia de partición para mejorar el rendimiento de las consultas. También puede reordenar los datos para optimizar los patrones de acceso comunes, implementar la partición oculta de Iceberg para mejorar la eficacia de las consultas y realizar la conversión del formato de archivo (por ejemplo, de CSV a Parquet) si lo desea.
Estas capacidades hacen que la migración completa de datos sea ideal para la transición al formato Iceberg y para refinar y optimizar de manera integral su estrategia de almacenamiento de datos. Si bien la migración completa de datos requiere más tiempo y recursos por adelantado, las mejoras resultantes en la calidad de los datos, la organización y el rendimiento de las consultas pueden proporcionar beneficios a largo plazo. Para implementar una migración de datos completa, utilice una de las siguientes opciones:
-
Usa la declaración
CREATE TABLE ... AS SELECT
(CTAS) en Spark (en Amazon EMR AWS Glue o) o en Athena. Puede establecer la especificación de partición y las propiedades de la tabla de la nueva tabla Iceberg mediante las cláusulas y. PARTITIONED BY
TBLPROPERTIES
Puede cambiar el esquema y las particiones de la nueva tabla según sus necesidades en lugar de heredarlos de la tabla de origen. -
Lee la tabla de origen y escribe los datos como una nueva tabla Iceberg mediante Spark en Amazon AWS Glue EMR o. Para obtener más información, consulta Cómo crear una tabla en la documentación
de Iceberg.