

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

# Génération de statistiques de colonne selon un calendrier
<a name="generate-column-stats"></a>

Suivez ces étapes pour configurer un calendrier de génération de statistiques de colonne à l' AWS Glue Data Catalog aide de la AWS Glue console, de l' AWS CLI opération ou de l'[CreateColumnStatisticsTaskSettings](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-CreateColumnStatisticsTaskSettings)opération.

------
#### [ Console ]

**Pour générer des statistiques de colonne à l'aide de la console**

1. Connectez-vous à la AWS Glue console à l'adresse [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/). 

1. Choisissez des tables du catalogue de donnée.

1. Choisissez une table dans la liste. 

1. Dans la partie inférieure de la page **Tables**, choisissez **Statistiques de colonne**.

1. Vous pouvez également sélectionner **Générer selon le calendrier** sous **Statistiques de colonne** depuis **Actions**.

1. Sur la page **Générer des statistiques selon le calendrier** configurez un calendrier récurrent pour exécuter la tâche de statistiques de colonne en choisissant la fréquence et l’heure de début. Vous pouvez choisir une fréquence horaire, quotidienne, hebdomadaire ou définir une expression cron pour spécifier le calendrier.

   Une expression cron est une chaîne représentant un modèle de planification, composée de 6 champs séparés par des espaces :\$1 \$1 \$1 \$1 \$1 \$1 <minute><hour><day of month><month><day of week><year>Par exemple, pour exécuter une tâche tous les jours à minuit, l'expression cron serait : 0 0 \$1 \$1 ? \$1

   Pour plus d’informations, consultez [Expressions Cron](https://docs.aws.amazon.com/glue/latest/dg/monitor-data-warehouse-schedule.html#CronExpressions).  
![\[La capture d'écran montre les options disponibles pour générer des statistiques de colonne.\]](http://docs.aws.amazon.com/fr_fr/glue/latest/dg/images/generate-column-stats-schedule.png)

1. Ensuite, choisissez l’option de colonne pour générer des statistiques.
   + **Toutes les colonnes** : choisissez cette option pour générer des statistiques pour toutes les colonnes de la table.
   + **Colonnes sélectionnées** : choisissez cette option pour générer des statistiques pour des colonnes spécifiques. Vous pouvez sélectionner les colonnes dans la liste déroulante.

1. Choisissez un rôle IAM ou créez un rôle existant autorisé à générer des statistiques. AWS Glue assume ce rôle pour générer des statistiques de colonne.

   Une approche plus rapide consiste à laisser la AWS Glue console créer un rôle pour vous. Le rôle qu'il crée est spécifiquement destiné à générer des statistiques sur les colonnes et inclut la politique `AWSGlueServiceRole` AWS gérée ainsi que la politique en ligne requise pour la source de données spécifiée. 

   Si vous spécifiez un rôle existant pour la génération de statistiques de colonne, assurez-vous qu’il inclut la politique `AWSGlueServiceRole` ou un équivalent (ou une version limitée de cette politique), en plus des politiques en ligne requises. 

1. (Facultatif) Choisissez ensuite une configuration de sécurité pour activer le chiffrement au repos des journaux.

1. (Facultatif) Vous pouvez choisir une taille d’échantillon en indiquant uniquement un pourcentage spécifique de lignes dans la table pour générer des statistiques. La valeur par défaut est toutes les lignes. Utilisez les flèches haut et bas pour augmenter ou diminuer la valeur en pourcentage. 

   Nous vous recommandons d'inclure toutes les lignes de la table pour calculer des statistiques précises. Utilisez des exemples de lignes pour générer des statistiques de colonne uniquement lorsque des valeurs approximatives sont acceptables.

1. Choisissez **Générer des statistiques** pour exécuter la tâche de génération des statistiques de colonne.

------
#### [ AWS CLI ]

Vous pouvez utiliser l' AWS CLI exemple suivant pour créer un calendrier de génération de statistiques de colonnes. Le nom de la base de données, le nom de la table et le rôle sont des paramètres obligatoires, tandis que les paramètres facultatifs sont le planning, l'identifiant du catalogue column-name-list, la taille de l'échantillon et la configuration de sécurité.

```
aws glue create-column-statistics-task-settings \ 
 --database-name 'database_name' \ 
 --table-name table_name \ 
 --role 'arn:aws:iam::123456789012:role/stats-role' \ 
 --schedule 'cron(0 0-5 14 * * ?)' \ 
 --column-name-list 'col-1' \  
 --catalog-id '123456789012' \ 
 --sample-size '10.0 ' \
 --security-configuration 'test-security'
```

Vous pouvez également générer des statistiques de colonne en appelant l'[StartColumnStatisticsTaskRun](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-StartColumnStatisticsTaskRun)opération.

------

# Gestion du calendrier de génération des statistiques de colonne
<a name="manage-column-stats-schedule"></a>

Vous pouvez gérer les opérations de planification telles que la mise à jour, le démarrage, l’arrêt et la suppression des planifications pour les statistiques de colonne générées dans AWS Glue. Vous pouvez utiliser les [opérations de l'API de statistiques de AWS Glue console ou de AWS Glue colonne](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html) pour effectuer ces tâches. AWS CLI

**Topics**
+ [Mise à jour du calendrier de génération des statistiques de colonne](#update-column-stats-shedule)
+ [Arrêt du calendrier de génération des statistiques de colonne](#stop-column-stats-schedule)
+ [Reprise du calendrier pour la génération des statistiques de colonne](#resume-column-stats-schedule)
+ [Suppression du calendrier de génération de statistiques de colonne](#delete-column-stats-schedule)

## Mise à jour du calendrier de génération des statistiques de colonne
<a name="update-column-stats-shedule"></a>

Vous pouvez mettre à jour le calendrier pour déclencher la tâche de génération des statistiques de colonne après sa création. Vous pouvez utiliser la AWS Glue console ou exécuter l'[UpdateColumnStatisticsTaskSettings](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-UpdateColumnStatisticsTaskSettings)opération pour mettre à jour le calendrier d'une table. AWS CLI Vous pouvez modifier les paramètres d’un calendrier existant, tels que le type de calendrier (à la demande ou planifié) et d’autres paramètres facultatifs. 

------
#### [ AWS Management Console ]

**Pour mettre à jour les paramètres d’une tâche de génération de statistiques de colonne**

1. Connectez-vous à la AWS Glue console à l'adresse [https://console.aws.amazon.com/glue/](https://console.aws.amazon.com/glue/).

1. Choisissez la table que vous voulez mettre à jour dans la liste.

1. Dans la partie inférieure de la page de détails de la table, choisissez **Statistiques de colonne**. 

1. Sous **Actions**, choisissez **Modifier** pour mettre à jour le calendrier.

1. Apportez les modifications souhaitées au calendrier, puis cliquez sur **Enregistrer**.

------
#### [ AWS CLI ]

 Si vous n'utilisez pas la fonction AWS Glue de génération de statistiques de la console, vous pouvez mettre à jour le calendrier manuellement à l'aide de la `update-column-statistics-task-settings` commande. L'exemple suivant montre comment mettre à jour les statistiques de colonne à l'aide de la AWS CLI. 

```
aws glue update-column-statistics-task-settings \ 
 --database-name 'database_name' \ 
 --table-name 'table_name' \ 
 --role arn:aws:iam::123456789012:role/stats_role \ 
 --schedule 'cron(0 0-5 16 * * ?)' \ 
 --column-name-list 'col-1' \
 --sample-size '20.0' \  
 --catalog-id '123456789012'\
 --security-configuration 'test-security'
```

------

## Arrêt du calendrier de génération des statistiques de colonne
<a name="stop-column-stats-schedule"></a>

 Si vous n’avez plus besoin des statistiques incrémentielles, vous pouvez arrêter la génération planifiée pour économiser des ressources et des coûts. La suspension du calendrier n’a aucune incidence sur les statistiques générées précédemment. Vous pouvez reprendre le calendrier à votre convenance. 

------
#### [ AWS Management Console ]

**Pour arrêter le calendrier pour une tâche de génération des statistiques de colonne**

1. Sur AWS Glue la console, sélectionnez **Tables** sous Catalogue de données.

1. Sélectionnez une table avec des statistiques de colonne.

1. Sur la page **Détails de la table**, choisissez **Statistiques de colonne**.

1. Sous **Actions**, choisissez **Génération planifiée**, puis **Pause**.

1. Choisissez **Pause** pour confirmer.

------
#### [ AWS CLI ]

Pour arrêter le calendrier d'exécution d'une tâche de statistiques de colonne à l'aide de AWS CLI, vous pouvez utiliser la commande suivante : 

```
aws glue stop-column-statistics-task-run-schedule \
 --database-name ''database_name' \
 --table-name 'table_name'
```

Remplacez les valeurs `database_name` et `table_name` par les noms réels de la base de données et de la table pour lesquelles vous souhaitez arrêter le calendrier d’exécution de la tâche de statistiques de colonne.

------

## Reprise du calendrier pour la génération des statistiques de colonne
<a name="resume-column-stats-schedule"></a>

 Si vous avez suspendu le calendrier de génération des statistiques, vous AWS Glue permet de le reprendre à votre convenance. Vous pouvez reprendre le planning à l'aide de la AWS Glue AWS CLI console ou de l'[StartColumnStatisticsTaskRunSchedule](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-StartColumnStatisticsTaskRunSchedule)opération. 

------
#### [ AWS Management Console ]

**Pour reprendre le calendrier de génération des statistiques de colonne**

1. Sur AWS Glue la console, sélectionnez **Tables** sous Catalogue de données.

1. Sélectionnez une table avec des statistiques de colonne.

1. Sur la page **Détails de la table**, choisissez **Statistiques de colonne**.

1. Sous **Actions**, choisissez **Génération planifiée**, puis **Reprendre**.

1. Choisissez **Reprendre** pour confirmer.

------
#### [ AWS CLI ]

Remplacez les valeurs `database_name` et `table_name` par les noms réels de la base de données et de la table pour lesquelles vous souhaitez arrêter le calendrier d’exécution de la tâche de statistiques de colonne.

```
aws glue start-column-statistics-task-run-schedule \
 --database-name 'database_name' \
 --table-name 'table_name'
```

------

## Suppression du calendrier de génération de statistiques de colonne
<a name="delete-column-stats-schedule"></a>

 Bien que la gestion up-to-date des statistiques soit généralement recommandée pour optimiser les performances des requêtes, il existe des cas d'utilisation spécifiques dans lesquels la suppression du calendrier de génération automatique peut être bénéfique.
+ Si les données restent relativement statiques, les statistiques des colonnes existantes peuvent rester précises pendant une période prolongée, ce qui réduit le besoin de mises à jour fréquentes. La suppression du calendrier permet d’éviter la consommation inutile de ressources et les frais généraux associés à la régénération des statistiques sur des données immuables.
+ Lorsque le contrôle manuel de la génération de statistiques est préférable. En supprimant le calendrier automatique, les administrateurs peuvent mettre à jour de manière sélective les statistiques de colonne à des intervalles spécifiques ou après des modifications importantes des données, en alignant le processus sur leurs stratégies de maintenance et leurs besoins d’allocation de ressources. 

------
#### [ AWS Management Console ]

**Pour supprimer le calendrier de génération des statistiques de colonne**

1. Sur AWS Glue la console, sélectionnez **Tables** sous Catalogue de données.

1. Sélectionnez une table avec des statistiques de colonne.

1. Sur la page **Détails de la table**, choisissez **Statistiques de colonne**.

1. Sous **Actions**, choisissez **Génération planifiée**, puis **Supprimer**.

1. Choisissez **Supprimer** pour confirmer.

------
#### [ AWS CLI ]

Remplacez les valeurs `database_name` et `table_name` par les noms réels de la base de données et de la table pour lesquelles vous souhaitez arrêter le calendrier d’exécution de la tâche de statistiques de colonne.

Vous pouvez supprimer le calendrier des statistiques des colonnes à l'aide de l'opération [DeleteColumnStatisticsTaskSettings](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-column-statistics.html#aws-glue-api-crawler-column-statistics-DeleteColumnStatisticsTaskSettings)API ou AWS CLI. L'exemple suivant montre comment supprimer le calendrier de génération de statistiques de colonne à l'aide de AWS Command Line Interface (AWS CLI).

```
aws glue delete-column-statistics-task-settings \
    --database-name 'database_name' \
    --table-name 'table_name'
```

------