Activation de l'optimisation automatique des tableaux au niveau du catalogue - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Activation de l'optimisation automatique des tableaux au niveau du catalogue

Vous pouvez activer l'optimisation automatique des tables pour toutes les nouvelles tables Apache Iceberg du catalogue de données. Après avoir créé la table, vous pouvez également mettre à jour manuellement les paramètres d'optimisation de la table de manière explicite.

Pour mettre à jour les paramètres du catalogue de données afin de permettre l'optimisation des tables au niveau du catalogue, le rôle IAM utilisé doit disposer de l'glue:UpdateCatalogautorisation sur le catalogue racine. Vous pouvez utiliser l'GetCatalogAPI pour vérifier les propriétés du catalogue.

Pour les tables gérées par Lake Formation, le rôle IAM sélectionné lors de la configuration d'optimisation du catalogue nécessite Lake FormationALTER, DESCRIBEINSERT, et des DELETE autorisations pour toute nouvelle table ou table mise à jour.

  1. Ouvrez la console Lake Formation à l'adresse https://console.aws.amazon.com/lakeformation/.

  2. Dans le volet de navigation, sélectionnez Data Catalog.

  3. Sélectionnez l'onglet Catalogues.

  4. Choisissez le catalogue au niveau du compte.

  5. Choisissez Optimisations de table, puis Modifier sous l'onglet Optimisations de table. Vous pouvez également choisir Modifier les optimisations dans Actions.

    La capture d'écran montre l'option d'édition permettant d'activer les optimisations au niveau du catalogue.
  6. Sur la page Optimisation des tables, configurez les options suivantes :

    La capture d'écran montre les options d'optimisation au niveau du catalogue.
    1. Configurez les paramètres de compactage :

    2. Configurez les paramètres de conservation des instantanés :

      • Activer/désactiver la rétention.

      • Définissez la période de conservation des instantanés en jours. La valeur par défaut est de 5 jours.

      • Définissez le nombre d'instantanés à conserver. La valeur par défaut est 1 instantané.

      • Activer/désactiver le nettoyage des fichiers expirés.

    3. Configurez les paramètres de suppression des fichiers orphelins :

      • Activer/désactiver la suppression des fichiers orphelins.

      • Définissez la période de conservation des fichiers orphelins en jours. La valeur par défaut est de 3 jours.

  7. Choisissez Enregistrer.

Utilisez la commande CLI suivante pour mettre à jour un catalogue existant avec les paramètres de l'optimiseur :

Exemple Mettre à jour le catalogue avec les paramètres de l'optimiseur
aws glue update-catalog \ --name catalog-id \ --catalog-input \ '{ "CatalogId": "111122223333", "CatalogInput": { "CatalogProperties": { "CustomProperties": { "ColumnStatistics.Enabled": "false", "ColumnStatistics.RoleArn": "arn:aws:iam::111122223333:role/service-role/stats-role-name" }, "IcebergOptimizationProperties": { "RoleArn": "arn:aws:iam::111122223333:role/optimizer-role-name", "Compaction": { "enabled": "true" }, "Retention": { "enabled": "true", "snapshotRetentionPeriodInDays": "10", "numberOfSnapshotsToRetain": "5", "cleanExpiredFiles": "true" }, "OrphanFileDeletion": { "enabled": "true", "orphanFileRetentionPeriodInDays": "3" } } } } }'

Si vous rencontrez des problèmes avec les optimiseurs au niveau du catalogue, vérifiez les points suivants :

  • Assurez-vous que le rôle IAM dispose des autorisations appropriées, comme indiqué dans la section Conditions préalables.

  • Consultez les CloudWatch journaux pour détecter tout message d'erreur lié aux opérations de l'optimiseur.

    Pour de plus amples informations, consultez Affichage des métriques disponibles dans le Guide de l'utilisateur Amazon CloudWatch .

  • Vérifiez que les paramètres du catalogue ont été correctement appliqués en vérifiant la configuration du catalogue.

  • En cas d'échec d'accès aux tables, consultez les CloudWatch journaux et EventBridge les notifications pour obtenir des informations détaillées sur les erreurs.