Activation de la génération automatique de statistiques au niveau du catalogue
Vous pouvez activer la génération automatique de statistiques de colonne pour toutes les nouvelles tables Apache Iceberg et les tables dans des formats de table autres que OTF (Parquet, JSON, CSV, XML, ORC, ION) dans le catalogue de données. Après avoir créé la table, vous pouvez également mettre à jour manuellement de manière explicite les paramètres des statistiques de colonne.
Pour mettre à jour les paramètres du catalogue de données afin de permettre le niveau du catalogue, le rôle IAM utilisé doit disposer de l’autorisation glue:UpdateCatalog ou de l’autorisation AWS Lake Formation ALTER CATALOG sur le catalogue racine. Vous pouvez utiliser l’API GetCatalog pour vérifier les propriétés du catalogue.
- AWS Management Console
-
Pour activer la génération automatique de statistiques de colonne au niveau du compte
Ouvrez la console Lake Formation à l’adresse https://console.aws.amazon.com/lakeformation/.
Dans la barre de navigation de gauche, choisissez Catalogues.
Sur la page Résumé du catalogue, choisissez Modifier sous Configuration de l’optimisation.
-
Sur la page de Configuration de l’optimisation des tables, choisissez l’option Activer la génération automatique de statistiques pour les tables du catalogue.
-
Choisissez un rôle IAM existant ou créez-en un autre avec les autorisations nécessaires pour exécuter la tâche de statistiques de colonne.
-
Sélectionnez Envoyer.
- AWS CLI
-
Vous pouvez également activer la collecte de statistiques au niveau du catalogue via l’AWS CLI. Pour configurer la collecte de statistiques au niveau de la table à l’aide de l’AWS CLI, exécutez la commande suivante :
aws glue update-catalog --cli-input-json '{
"name": "123456789012",
"catalogInput": {
"description": "Updating root catalog with role arn",
"catalogProperties": {
"customProperties": {
"ColumnStatistics.RoleArn": "arn:aws:iam::"123456789012":role/service-role/AWSGlueServiceRole",
"ColumnStatistics.Enabled": "true"
}
}
}
}'
La commande ci-dessus appelle l’opération UpdateCatalog d’AWS Glue, qui prend en compte une structure CatalogProperties avec les paires clé-valeur suivantes pour la génération de statistiques au niveau du catalogue :
-
ColumnStatistics.RoleArn : ARN du rôle IAM à utiliser pour toutes les tâches déclenchées pour la génération de statistiques au niveau du catalogue
-
ColumnStatistics.Enabled : booléen indiquant si les paramètres au niveau du catalogue sont activés ou désactivés