Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Choix d'une stratégie de migration
Lors de la transition vers le format Iceberg, le choix entre une migration sur place et une migration complète est crucial. Pour déterminer l'approche la mieux adaptée à vos besoins spécifiques, prenez en compte les questions et recommandations suivantes :
Question |
Recommandation |
Quel est le format du fichier de données (par exemple, CSV ou Apache Parquet) ?
|
-
Envisagez une migration sur place si le format de votre fichier de table est Parquet, ORC ou Avro.
-
Pour les autres formats tels que CSV, JSON, etc., utilisez la migration complète des données.
|
Voulez-vous mettre à jour ou consolider le schéma de table ?
|
-
Si vous souhaitez faire évoluer le schéma de table à l'aide des fonctionnalités natives d'Iceberg, envisagez une migration sur place. Par exemple, vous pouvez renommer les colonnes après la migration. (Le schéma peut être modifié dans la couche de métadonnées Iceberg.)
-
Si vous souhaitez supprimer des colonnes entières parce qu'elles ne sont plus nécessaires, nous vous recommandons d'utiliser la migration complète des données.
|
La table bénéficierait-elle d'une modification de la stratégie de partition ?
|
-
Si l'approche de partitionnement d'Iceberg répond à vos exigences (par exemple, les nouvelles données sont stockées en utilisant le nouveau schéma de partition alors que les partitions existantes restent telles quelles), envisagez une migration sur place.
-
Si vous souhaitez utiliser des partitions masquées dans votre table, envisagez une migration complète des données. Pour plus d'informations sur les partitions masquées, consultez la section Bonnes pratiques.
|
Le tableau bénéficierait-il de l'ajout ou de la modification de la stratégie d'ordre de tri ?
|
-
L'ajout ou la modification de l'ordre de tri de vos données nécessite de réécrire le jeu de données. Dans ce cas, envisagez d'utiliser la migration complète des données.
-
Pour les grandes tables où le coût de réécriture de toutes les partitions de table est prohibitif, envisagez d'utiliser la migration sur place et d'exécuter le compactage (avec le tri activé) pour les partitions les plus fréquemment consultées.
|
La table contient-elle de nombreux petits fichiers ?
|
-
La fusion de petits fichiers en fichiers plus volumineux nécessite de réécrire le jeu de données. Dans ce cas, envisagez d'utiliser la migration complète des données.
-
Pour les grandes tables où le coût de réécriture de toutes les partitions de table est prohibitif, envisagez d'utiliser la migration sur place et d'exécuter le compactage (avec le tri activé) pour les partitions les plus fréquemment consultées.
|