Mise à jour de l’optimiseur de conservation des instantanés - AWS Glue

Mise à jour de l’optimiseur de conservation des instantanés

Vous pouvez mettre à jour la configuration existante d’un optimiseur de conservation des instantanés pour une table Apache Iceberg particulière à l’aide de la console AWS Glue, de l’AWS CLI ou de l’API UpdateTableOptimizer.

Console
Pour mettre à jour la configuration de la conservation des instantanés
  1. Connectez-vous à la AWS Management Console et ouvrez la console AWS Glue à l’adresse https://console.aws.amazon.com/glue/.

  2. Choisissez Catalogue de données, puis choisissez Tables. Dans la liste des tables, choisissez la table Iceberg dont vous souhaitez mettre à jour la configuration de l’optimiseur de conservation des instantanés.

  3. Dans la section inférieure de la page Détails des tables, sélectionnez l’onglet Optimisation des tables, puis Modifier. Vous pouvez également choisir Modifier sous Optimisation dans le menu Actions situé dans le coin supérieur droit de la page.

  4. Sur la page Modifier l’optimisation, apportez les modifications souhaitées.

  5. Choisissez Enregistrer.

AWS CLI

Pour mettre à jour un optimiseur de conservation des instantanés à l’aide de l’AWS CLI, vous pouvez utiliser la commande suivante :

aws glue update-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role"","enabled":'true', "vpcConfiguration":{"glueConnectionName":"glue_connection_name"},"retentionConfiguration":{"icebergConfiguration":{"snapshotRetentionPeriodInDays":7,"numberOfSnapshotsToRetain":3,"cleanExpiredFiles":'true'}}}' \ --type retention

Cette commande met à jour la configuration de rétention pour la table spécifiée dans le catalogue, la base de données et la région donnés. Les principaux paramètres sont les suivants :

  • snapshotRetentionPeriodInDays : la durée en jours pendant laquelle vous souhaitez conserver l’instantané avant son expiration. La valeur par défaut est 1.

  • numberOfSnapshotsToRetain : le nombre minimum d’instantanés à conserver, même s’ils sont antérieurs à la période de conservation. La valeur par défaut est 5.

  • cleanExpiredFiles : une valeur booléene indiquant s’il faut supprimer les fichiers de données expirés après l’expiration des instantanés. La valeur par défaut est true.

    Lorsque ce paramètre est défini sur true, les anciens instantanés sont supprimés des métadonnées de la table et leurs fichiers sous-jacents sont supprimés. Si ce paramètre est défini sur false, les anciens instantanés sont supprimés des métadonnées de la table, mais leurs fichiers sous-jacents restent dans le stockage en tant que fichiers orphelins..

API

Pour mettre à jour un optimiseur de table, vous pouvez utiliser l’API UpdateTableOptimizer. Cette API vous permet de mettre à jour la configuration d’un optimiseur de table existant pour le compactage, la conservation ou la suppression de fichiers orphelins. Les paramètres de demande comprennent :

  • catalogId (obligatoire) : l’ID du catalogue contenant la table

  • databaseName (facultatif) : le nom de la base de données contenant la table

  • tableName (facultatif) : le nom de la table

  • type (obligatoire) : le type d’optimiseur de table (compaction, retention ou orphan_file_delete)

  • retentionConfiguration (obligatoire) : configuration mise à jour de l’optimiseur de table, y compris l’ARN du rôle, l’état activé, la configuration de la conservation et la configuration de suppression des fichiers orphelins