Activation de l’optimisation automatique des tables au niveau du catalogue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Activation de l’optimisation automatique des tables au niveau du catalogue

Vous pouvez activer l’optimisation automatique des tables pour toutes les nouvelles tables Apache Iceberg du catalogue de données. Après avoir créé la table, vous pouvez également mettre à jour manuellement de manière explicite les paramètres d’optimisation des tables.

Pour mettre à jour les paramètres du catalogue de données afin de permettre l’optimisation des tables au niveau du catalogue, le rôle IAM utilisé doit disposer de l’autorisation glue:UpdateCatalog sur le catalogue racine. Vous pouvez utiliser l’API GetCatalog pour vérifier les propriétés du catalogue.

Pour les tables gérées par Lake Formation, le rôle IAM sélectionné lors de la configuration d’optimisation du catalogue a besoin des autorisations Lake Formation ALTER, DESCRIBE, INSERT et DELETE pour toute nouvelle table ou pour les tables mises à jour.

  1. Ouvrez la console Lake Formation à l’adresse https://console.aws.amazon.com/lakeformation/.

  2. Dans le panneau de navigation, choisissez Catalogue de données.

  3. Sélectionnez l’onglet Catalogues.

  4. Choisissez le catalogue au niveau du compte.

  5. Choisissez Optimisations des tables, puis Modifier sous l’onglet Optimisations des tables. Vous pouvez également choisir Modifier les optimisations dans Actions.

    La capture d’écran montre l’option de modification permettant d’activer les optimisations au niveau du catalogue.
  6. Sur la page Optimisation des tables, configurez les options suivantes :

    La capture d’écran montre les options d’optimisation au niveau du catalogue.
    1. Configurez les paramètres de compactage :

    2. Configurez les paramètres de conservation des instantanés :

      • Activez/désactivez la conservation.

      • Définissez la période de conservation des instantanés en jours. La valeur par défaut est de cinq jours.

      • Définissez le nombre d’instantanés à retenir. La valeur par défaut est d’un instantané.

      • Activez/désactivez le nettoyage des fichiers expirés.

    3. Configurez les paramètres de suppression des fichiers orphelins :

      • Activez/désactivez la suppression des fichiers orphelins.

      • Définissez la période de conservation des fichiers orphelins en jours. La valeur par défaut est de trois jours.

  7. Choisissez Enregistrer.

Utilisez la commande CLI suivante pour mettre à jour un catalogue existant avec les paramètres de l’optimiseur :

Exemple Mise à jour du catalogue avec les paramètres de l’optimiseur
aws glue update-catalog \ --name catalog-id \ --catalog-input \ '{ "CatalogId": "111122223333", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333:role/service-role/stats-role-name" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333:role/optimizer-role-name", "Compaction": { "enabled": "true" }, "Retention": { "enabled": "true", "snapshotRetentionPeriodInDays": "10", "numberOfSnapshotsToRetain": "5", "cleanExpiredFiles": "true" }, "OrphanFileDeletion": { "enabled": "true", "orphanFileRetentionPeriodInDays": "3" } } } } }'

Si vous rencontrez des problèmes avec les optimiseurs au niveau du catalogue, vérifiez les points suivants :

  • Assurez-vous que le rôle IAM dispose des autorisations appropriées, comme indiqué dans la section Conditions préalables.

  • Consultez CloudWatch Logs pour détecter tout message d’erreur lié aux opérations de l’optimiseur.

    Pour de plus amples informations, consultez Affichage des métriques disponibles dans le Guide de l’utilisateur Amazon CloudWatch.

  • Vérifiez que les paramètres du catalogue ont été correctement appliqués en vérifiant la configuration du catalogue.

  • En cas d’échec d’accès aux tables, consultez les notifications CloudWatch Logs et EventBridge pour obtenir des informations détaillées sur les erreurs.