Activation de la génération automatique de statistiques au niveau du catalogue - AWS Glue

Activation de la génération automatique de statistiques au niveau du catalogue

Vous pouvez activer la génération automatique de statistiques de colonne pour toutes les nouvelles tables Apache Iceberg et les tables dans des formats de table autres que OTF (Parquet, JSON, CSV, XML, ORC, ION) dans le catalogue de données. Après avoir créé la table, vous pouvez également mettre à jour manuellement de manière explicite les paramètres des statistiques de colonne.

Pour mettre à jour les paramètres du catalogue de données afin de permettre le niveau du catalogue, le rôle IAM utilisé doit disposer de l’autorisation glue:UpdateCatalog ou de l’autorisation AWS Lake Formation ALTER CATALOG sur le catalogue racine. Vous pouvez utiliser l’API GetCatalog pour vérifier les propriétés du catalogue.

AWS Management Console
Pour activer la génération automatique de statistiques de colonne au niveau du compte
  1. Ouvrez la console Lake Formation à l’adresse https://console.aws.amazon.com/lakeformation/.

  2. Dans la barre de navigation de gauche, choisissez Catalogues.

  3. Sur la page Résumé du catalogue, choisissez Modifier sous Configuration de l’optimisation.

    La capture d’écran montre les options disponibles pour générer des statistiques de colonne.
  4. Sur la page de Configuration de l’optimisation des tables, choisissez l’option Activer la génération automatique de statistiques pour les tables du catalogue.

    La capture d’écran montre les options disponibles pour générer des statistiques de colonne.
  5. Choisissez un rôle IAM existant ou créez-en un autre avec les autorisations nécessaires pour exécuter la tâche de statistiques de colonne.

  6. Sélectionnez Envoyer.

AWS CLI

Vous pouvez également activer la collecte de statistiques au niveau du catalogue via l’AWS CLI. Pour configurer la collecte de statistiques au niveau de la table à l’aide de l’AWS CLI, exécutez la commande suivante :

aws glue update-catalog --cli-input-json '{
    "name": "123456789012",
    "catalogInput": {
        "description": "Updating root catalog with role arn",
        "catalogProperties": {
            "customProperties": {
                "ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
                "ColumnStatistics.Enabled": "true"
            }
        }
    }
}'
                   

La commande ci-dessus appelle l’opération UpdateCatalog d’AWS Glue, qui prend en compte une structure CatalogProperties avec les paires clé-valeur suivantes pour la génération de statistiques au niveau du catalogue :

  • ColumnStatistics.RoleArn : ARN du rôle IAM à utiliser pour toutes les tâches déclenchées pour la génération de statistiques au niveau du catalogue

  • ColumnStatistics.Enabled : booléen indiquant si les paramètres au niveau du catalogue sont activés ou désactivés