Optimisation du compactage

Les lacs de données Amazon S3 utilisant des formats de table ouverts comme Apache Iceberg stockent les données sous forme d’objets S3. La présence de milliers de petits objets Amazon S3 dans une table de lac de données augmente la surcharge de métadonnées et affecte les performances de lecture. AWS Glue Data Catalog propose un compactage géré pour les tables Iceberg, en compactant de petits objets en de plus grands objets pour améliorer les performances de lecture grâce à des services d’analytique AWS comme Amazon Athena et Amazon EMR, et à des tâches ETL AWS Glue. Le catalogue de données effectue le compactage sans interférer avec les requêtes simultanées et prend en charge le compactage uniquement pour les tables au format Parquet.

L’optimiseur de table surveille en permanence les partitions des tables et lance le processus de compactage lorsque le seuil du nombre et de la taille des fichiers est dépassé.

Dans le catalogue de données, le processus de compactage démarre lorsqu’une table ou l’une de ses partitions contient plus de 100 fichiers. Chaque fichier doit être inférieur à 75 % de la taille du fichier cible. La taille du fichier cible est définie par la propriété de la table write.target-file-size-bytes, qui est par défaut de 512 Mo si elle n’est pas définie explicitement.

Pour connaître les limitations, veuillez consulter Formats pris en charge et restrictions pour le compactage de données géré .

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Désactivation de l’optimisation des tables au niveau du catalogue

Activation de l’optimiseur de compactage