View a markdown version of this page

Gestion du calendrier de génération des statistiques de colonne - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Gestion du calendrier de génération des statistiques de colonne

Vous pouvez gérer les opérations de planification telles que la mise à jour, le démarrage, l’arrêt et la suppression des planifications pour les statistiques de colonne générées dans AWS Glue. Vous pouvez utiliser les opérations de l'API de statistiques de AWS Glue console ou de AWS Glue colonne pour effectuer ces tâches. AWS CLI

Mise à jour du calendrier de génération des statistiques de colonne

Vous pouvez mettre à jour le calendrier pour déclencher la tâche de génération des statistiques de colonne après sa création. Vous pouvez utiliser la AWS Glue console ou exécuter l'UpdateColumnStatisticsTaskSettingsopération pour mettre à jour le calendrier d'une table. AWS CLI Vous pouvez modifier les paramètres d’un calendrier existant, tels que le type de calendrier (à la demande ou planifié) et d’autres paramètres facultatifs.

AWS Management Console
Pour mettre à jour les paramètres d’une tâche de génération de statistiques de colonne
  1. Connectez-vous à la AWS Glue console à l'adresse https://console.aws.amazon.com/glue/.

  2. Choisissez la table que vous voulez mettre à jour dans la liste.

  3. Dans la partie inférieure de la page de détails de la table, choisissez Statistiques de colonne.

  4. Sous Actions, choisissez Modifier pour mettre à jour le calendrier.

  5. Apportez les modifications souhaitées au calendrier, puis cliquez sur Enregistrer.

AWS CLI

Si vous n'utilisez pas la fonction AWS Glue de génération de statistiques de la console, vous pouvez mettre à jour le calendrier manuellement à l'aide de la update-column-statistics-task-settings commande. L'exemple suivant montre comment mettre à jour les statistiques de colonne à l'aide de la AWS CLI.

aws glue update-column-statistics-task-settings \ --database-name 'database_name' \ --table-name 'table_name' \ --role arn:aws:iam::123456789012:role/stats_role \ --schedule 'cron(0 0-5 16 * * ?)' \ --column-name-list 'col-1' \ --sample-size '20.0' \ --catalog-id '123456789012'\ --security-configuration 'test-security'

Arrêt du calendrier de génération des statistiques de colonne

Si vous n’avez plus besoin des statistiques incrémentielles, vous pouvez arrêter la génération planifiée pour économiser des ressources et des coûts. La suspension du calendrier n’a aucune incidence sur les statistiques générées précédemment. Vous pouvez reprendre le calendrier à votre convenance.

AWS Management Console
Pour arrêter le calendrier pour une tâche de génération des statistiques de colonne
  1. Sur AWS Glue la console, sélectionnez Tables sous Catalogue de données.

  2. Sélectionnez une table avec des statistiques de colonne.

  3. Sur la page Détails de la table, choisissez Statistiques de colonne.

  4. Sous Actions, choisissez Génération planifiée, puis Pause.

  5. Choisissez Pause pour confirmer.

AWS CLI

Pour arrêter le calendrier d'exécution d'une tâche de statistiques de colonne à l'aide de AWS CLI, vous pouvez utiliser la commande suivante :

aws glue stop-column-statistics-task-run-schedule \ --database-name ''database_name' \ --table-name 'table_name'

Remplacez les valeurs database_name et table_name par les noms réels de la base de données et de la table pour lesquelles vous souhaitez arrêter le calendrier d’exécution de la tâche de statistiques de colonne.

Reprise du calendrier pour la génération des statistiques de colonne

Si vous avez suspendu le calendrier de génération des statistiques, vous AWS Glue permet de le reprendre à votre convenance. Vous pouvez reprendre le planning à l'aide de la AWS Glue AWS CLI console ou de l'StartColumnStatisticsTaskRunScheduleopération.

AWS Management Console
Pour reprendre le calendrier de génération des statistiques de colonne
  1. Sur AWS Glue la console, sélectionnez Tables sous Catalogue de données.

  2. Sélectionnez une table avec des statistiques de colonne.

  3. Sur la page Détails de la table, choisissez Statistiques de colonne.

  4. Sous Actions, choisissez Génération planifiée, puis Reprendre.

  5. Choisissez Reprendre pour confirmer.

AWS CLI

Remplacez les valeurs database_name et table_name par les noms réels de la base de données et de la table pour lesquelles vous souhaitez arrêter le calendrier d’exécution de la tâche de statistiques de colonne.

aws glue start-column-statistics-task-run-schedule \ --database-name 'database_name' \ --table-name 'table_name'

Suppression du calendrier de génération de statistiques de colonne

Bien que la gestion up-to-date des statistiques soit généralement recommandée pour optimiser les performances des requêtes, il existe des cas d'utilisation spécifiques dans lesquels la suppression du calendrier de génération automatique peut être bénéfique.

  • Si les données restent relativement statiques, les statistiques des colonnes existantes peuvent rester précises pendant une période prolongée, ce qui réduit le besoin de mises à jour fréquentes. La suppression du calendrier permet d’éviter la consommation inutile de ressources et les frais généraux associés à la régénération des statistiques sur des données immuables.

  • Lorsque le contrôle manuel de la génération de statistiques est préférable. En supprimant le calendrier automatique, les administrateurs peuvent mettre à jour de manière sélective les statistiques de colonne à des intervalles spécifiques ou après des modifications importantes des données, en alignant le processus sur leurs stratégies de maintenance et leurs besoins d’allocation de ressources.

AWS Management Console
Pour supprimer le calendrier de génération des statistiques de colonne
  1. Sur AWS Glue la console, sélectionnez Tables sous Catalogue de données.

  2. Sélectionnez une table avec des statistiques de colonne.

  3. Sur la page Détails de la table, choisissez Statistiques de colonne.

  4. Sous Actions, choisissez Génération planifiée, puis Supprimer.

  5. Choisissez Supprimer pour confirmer.

AWS CLI

Remplacez les valeurs database_name et table_name par les noms réels de la base de données et de la table pour lesquelles vous souhaitez arrêter le calendrier d’exécution de la tâche de statistiques de colonne.

Vous pouvez supprimer le calendrier des statistiques des colonnes à l'aide de l'opération DeleteColumnStatisticsTaskSettingsAPI ou AWS CLI. L'exemple suivant montre comment supprimer le calendrier de génération de statistiques de colonne à l'aide de AWS Command Line Interface (AWS CLI).

aws glue delete-column-statistics-task-settings \ --database-name 'database_name' \ --table-name 'table_name'