Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Migration complète des données
La migration complète des données recrée les fichiers de données ainsi que les métadonnées. Cette approche prend plus de temps et nécessite des ressources informatiques supplémentaires par rapport à la migration sur place. Cependant, la migration complète des données offre d'importantes opportunités pour améliorer la qualité des tables et optimiser le stockage des données et les modèles d'accès.
Au cours de la migration complète des données, vous pouvez effectuer plusieurs opérations bénéfiques, telles que la validation des données pour garantir leur intégrité et leur exactitude, les modifications du schéma pour mieux répondre aux exigences actuelles et les ajustements de la stratégie de partition pour améliorer les performances des requêtes. Vous pouvez également trier à nouveau les données pour optimiser les modèles d'accès courants, implémenter le partitionnement masqué Iceberg pour améliorer l'efficacité des requêtes et effectuer une conversion de format de fichier (par exemple, de CSV à Parquet) si vous le souhaitez.
Ces fonctionnalités font de la migration complète des données la solution idéale pour passer au format Iceberg et pour affiner et optimiser de manière globale votre stratégie de stockage de données. Bien que la migration complète des données nécessite plus de temps et de ressources dès le départ, les améliorations qui en résultent en termes de qualité des données, d'organisation et de performance des requêtes peuvent apporter des avantages à long terme. Pour implémenter la migration complète des données, utilisez l'une des options suivantes :
-
Utilisez l'instruction
CREATE TABLE ... AS SELECT
(CTAS) dans Spark (sur Amazon EMR AWS Glue ou) ou dans Athena. Vous pouvez définir la spécification de partition et les propriétés de table pour la nouvelle table Iceberg à l'aide des TBLPROPERTIES
clausesPARTITIONED BY
et. Vous pouvez modifier le schéma et le partitionnement de la nouvelle table en fonction de vos besoins au lieu d'hériter de la table source. -
Lisez la table source et écrivez les données sous forme de nouvelle table Iceberg à l'aide de Spark sur Amazon AWS Glue EMR ou. Pour plus d'informations, consultez la section Création d'une table
dans la documentation d'Iceberg.