Optimisation des performances des requêtes à l’aide des statistiques de colonne - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Optimisation des performances des requêtes à l’aide des statistiques de colonne

Vous pouvez calculer des statistiques de colonne pour des tables AWS Glue Data Catalog dans des formats de données tels que Parquet, ORC, JSON, ION, CSV et XML sans définir des pipelines de données supplémentaires. Les statistiques de colonne vous aident à comprendre les profils de données en obtenant des informations sur les valeurs d'une colonne.

Le catalogue de données prend en charge la génération de statistiques pour les valeurs de colonne telles que la valeur minimale, la valeur maximale, le total des valeurs nulles, le total des valeurs distinctes, la longueur moyenne des valeurs et le nombre total d’occurrences de valeurs true. Les services analytiques AWS tels qu’Amazon Redshift et Amazon Athena peuvent utiliser ces statistiques de colonne pour générer des plans d’exécution des requêtes et choisir le plan optimal qui améliore les performances des requêtes.

Il existe trois scénarios pour générer des statistiques de colonne :

Auto

AWS Glue prend en charge la génération automatique de statistiques de colonne au niveau du catalogue afin de pouvoir générer automatiquement des statistiques pour les nouvelles tables dans l’AWS Glue Data Catalog.

Planifié

AWS Glue prend en charge la génération de statistiques de colonne de planification afin qu’elle puisse être exécutée automatiquement selon un calendrier récurrent.

Avec le calcul planifié des statistiques, la tâche de statistiques de colonne met à jour les statistiques globales au niveau de la table, telles que min, max et avg, avec les nouvelles statistiques, fournissant ainsi aux moteurs de requêtes des statistiques précises et actualisées pour optimiser l’exécution des requêtes.

À la demande

Utilisez cette option pour générer des statistiques de colonnes à la demande chaque fois que cela s’avère nécessaire. Cela est utile pour les analyses ad hoc ou lorsque les statistiques doivent être calculées immédiatement.

Vous pouvez configurer l’exécution d’une tâche de génération de statistiques de colonne à l’aide de la console AWS Glue, de l’AWS CLI et des opérations d’API AWS Glue. Lorsque vous lancez le processus, AWS Glue démarre une tâche Spark en arrière-plan et met à jour les métadonnées de la table AWS Glue dans le catalogue de données. Vous pouvez afficher les statistiques de colonne à l'aide de la console AWS Glue ou AWS CLI ou en appelant l'opération d'API GetColumnStatisticsForTable.

Note

Si vous utilisez les autorisations de Lake Formation pour contrôler l'accès à la table, le rôle assumé par la tâche de statistiques de colonne nécessite un accès complet à la table pour générer des statistiques.

La vidéo suivante montre comment améliorer les performances des requêtes à l’aide des statistiques de colonne.