Activation de la suppression des fichiers orphelins
Vous pouvez utiliser la console AWS Glue, l’AWS CLI ou l’API AWS pour activer la suppression des fichiers orphelins pour vos tables Apache Iceberg dans le catalogue de données. Pour les nouvelles tables, vous pouvez choisir Apache Iceberg comme format de table et activer l’optimiseur de suppression de fichiers orphelins lors de la création de la table. La conservation des instantanés est désactivée par défaut pour les nouvelles tables.
- Console
-
Pour activer la suppression des fichiers orphelins
-
Ouvrez la console AWS Glue à l’adresse https://console.aws.amazon.com/glue/
et connectez-vous en tant qu’administrateur du lac de données, créateur de la table ou utilisateur ayant obtenu les autorisations lakeformation:GetDataAccessetglue:UpdateTablepour la table. -
Dans le panneau de navigation, sous Catalogue de données, choisissez Tables.
Sur la page Tables, choisissez une table Iceberg dans laquelle vous souhaitez activer la suppression des fichiers orphelins.
Choisissez l’onglet Optimisation des tables dans la partie inférieure de la page, puis sélectionnez Activer, Suppression des fichiers orphelins dans Actions.
Vous pouvez également choisir Activer sous Optimisation dans le menu Actions situé dans le coin supérieur droit de la page.
-
Sur la page Activer l’optimisation, sélectionnez Suppression des fichiers orphelins sous Options d’optimisation.
-
Si vous choisissez d’utiliser les paramètres par défaut, tous les fichiers orphelins seront supprimés au bout de trois jours. Si vous souhaitez conserver les fichiers orphelins pendant un certain nombre de jours, choisissez Personnaliser les paramètres.
-
Choisissez ensuite un rôle IAM avec les autorisations requises pour supprimer les fichiers orphelins.
-
Si vous avez des configurations de politique de sécurité dans lesquelles l’optimiseur de table Iceberg doit accéder aux compartiments Amazon S3 à partir d’un cloud privé virtuel (VPC) spécifique, créez une connexion réseau AWS Glue ou utilisez une connexion réseau existante.
Si aucune connexion VPC AWS Glue n’est déjà configurée, créez-en une en suivant les étapes de la section Creating connections for connectors à l’aide de la console AWS Glue ou de l’AWS CLI/du kit SDK.
-
Si vous choisissez Personnaliser les paramètres, entrez le nombre de jours pendant lesquels les fichiers doivent être conservés avant leur suppression dans Configuration de la suppression des fichiers orphelins. Vous pouvez également indiquer l’intervalle entre deux exécutions d’optimiseur consécutives. La valeur par défaut est 24 heures.
-
Choisissez Activer l’optimisation.
-
- AWS CLI
-
Pour activer la suppression des fichiers orphelins pour une table Iceberg dans AWS Glue, vous devez créer un optimiseur de table de type
orphan_file_deletionet définir le champenabledsur true. Pour créer un optimiseur de suppression de fichiers orphelins pour une table Iceberg à l’aide de l’AWS CLI, vous pouvez utiliser la commande suivante :aws glue create-table-optimizer \ --catalog-id123456789012\ --database-nameiceberg_db\ --table-nameiceberg_table\ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":true, "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"}, "orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3, "location":'S3 location'}}}'\ --type orphan_file_deletionCette commande crée un optimiseur de suppression de fichiers orphelins pour la table Iceberg spécifiée. Les principaux paramètres sont les suivants :
-
roleArn : l’ARN du rôle IAM autorisé à accéder au compartiment S3 et aux ressources Glue.
-
enabled : définissez cette valeur sur true pour activer l’optimiseur.
-
orphanFileRetentionPeriodInDays : nombre de jours pendant lesquels les fichiers orphelins sont conservés avant de les supprimer (minimum un jour).
-
type : définissez la valeur sur orphan_file_deletion pour créer un optimiseur de suppression de fichiers orphelins.
Après avoir créé l’optimiseur de table, les fichiers orphelins seront supprimés périodiquement (une fois par jour si cette option reste activée). Vous pouvez vérifier les exécutions à l’aide de l’API
list-table-optimizer-runs. La tâche de suppression des fichiers orphelins identifiera et supprimera les fichiers qui ne sont pas suivis dans les métadonnées Iceberg de la table. -
- API
-
Appelez l’opération CreateTableOptimizer pour créer l’optimiseur de suppression de fichiers orphelins pour une table spécifique.