Elección de una estrategia de migración - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Elección de una estrategia de migración

Al realizar la transición al formato Iceberg, es crucial elegir entre la migración local o la migración completa. Para determinar el enfoque más adecuado para sus necesidades específicas, tenga en cuenta las siguientes preguntas y recomendaciones:

Pregunta Recomendación

¿Qué formato tiene el archivo de datos (por ejemplo, CSV o Apache Parquet)?

  • Considere la posibilidad de migrar in situ si el formato de su archivo de tabla es Parquet, ORC o Avro.

  • Para otros formatos, como CSV, JSON, etc., utilice la migración de datos completa.

¿Desea actualizar o consolidar el esquema de la tabla?

  • Si desea evolucionar el esquema de la tabla mediante las capacidades nativas de Iceberg, considere la posibilidad de migrar in situ. Por ejemplo, puede cambiar el nombre de las columnas después de la migración. (El esquema se puede cambiar en la capa de metadatos de Iceberg).

  • Si desea eliminar columnas enteras porque ya no son necesarias, le recomendamos que utilice la migración de datos completa.

¿Se beneficiaría la tabla de cambiar la estrategia de partición?

  • Si el enfoque de particionamiento de Iceberg cumple con sus requisitos (por ejemplo, los datos nuevos se almacenan utilizando el nuevo diseño de particiones mientras que las particiones existentes permanecen como están), considere la posibilidad de migrar in situ.

  • Si desea utilizar particiones ocultas en la tabla, considere la posibilidad de migrar todos los datos. Para obtener más información sobre las particiones ocultas, consulte la sección de prácticas recomendadas.

¿Sería beneficioso para la tabla añadir o cambiar la estrategia de ordenación?

  • Para añadir o cambiar el orden de clasificación de los datos, es necesario volver a escribir el conjunto de datos. En este caso, considere la posibilidad de utilizar la migración de datos completa.

  • En el caso de tablas grandes en las que resulta prohibitivo reescribir todas las particiones de la tabla, considere la posibilidad de migrar in situ y ejecutar la compactación (con la clasificación habilitada) para las particiones a las que se accede con más frecuencia.

¿La tabla tiene muchos archivos pequeños?

  • La combinación de archivos pequeños en archivos más grandes requiere volver a escribir el conjunto de datos. En este caso, considere la posibilidad de utilizar la migración de datos completa.

  • En el caso de tablas grandes en las que resulta prohibitivo reescribir todas las particiones de la tabla, considere la posibilidad de migrar in situ y ejecutar la compactación (con la clasificación habilitada) para las particiones a las que se accede con más frecuencia.