Génération de statistiques de colonne selon un calendrier
Procédez comme suit pour configurer un calendrier de génération de statistiques de colonne dans l’AWS Glue Data Catalog à l’aide de la console AWS Glue ou de l’AWS CLI, ou exécutez l’opération CreateColumnStatisticsTaskSettings.
- Console
-
Pour générer des statistiques de colonne à l'aide de la console
-
Connectez-vous à la console AWS Glue à l’adresse https://console.aws.amazon.com/glue/
. -
Choisissez des tables du catalogue de donnée.
-
Choisissez une table dans la liste.
-
Dans la partie inférieure de la page Tables, choisissez Statistiques de colonne.
-
Vous pouvez également sélectionner Générer selon le calendrier sous Statistiques de colonne depuis Actions.
-
Sur la page Générer des statistiques selon le calendrier configurez un calendrier récurrent pour exécuter la tâche de statistiques de colonne en choisissant la fréquence et l’heure de début. Vous pouvez choisir la fréquence (horaire, quotidienne, hebdomadaire) ou définir une expression cron afin de spécifier le calendrier.
Une expression cron est une chaîne représentant un modèle de planification, composée de 6 champs séparés par des espaces : * * * * * <minute><heure><jour du mois><mois><jour de la semaine><année> Par exemple, pour exécuter une tâche tous les jours à minuit, l'expression cron serait : 0 0 * * ? *
Pour plus d’informations, consultez Expressions Cron.
Ensuite, choisissez l’option de colonne pour générer des statistiques.
-
Toutes les colonnes : choisissez cette option pour générer des statistiques pour toutes les colonnes de la table.
-
Colonnes sélectionnées : choisissez cette option pour générer des statistiques pour des colonnes spécifiques. Vous pouvez sélectionner les colonnes dans la liste déroulante.
-
Choisissez un rôle IAM ou créez un rôle existant disposant des autorisations nécessaires pour générer des statistiques. AWS Glue endosse ce rôle pour générer des statistiques de colonne.
Si vous préférez une approche plus rapide, vous pouvez laisser la console AWS Glue créer un rôle pour vous. Le rôle qu’elle crée est spécifiquement pour la génération de statistiques de colonne et inclut la politique
AWSGlueServiceRolegérée par AWS, ainsi que la politique en ligne requise pour la source de données spécifiée.Si vous spécifiez un rôle existant pour la génération de statistiques de colonne, assurez-vous qu’il inclut la politique
AWSGlueServiceRoleou un équivalent (ou une version limitée de cette politique), en plus des politiques en ligne requises.-
(Facultatif) Choisissez ensuite une configuration de sécurité pour activer le chiffrement au repos des journaux.
-
(Facultatif) Vous pouvez choisir une taille d’échantillon en indiquant uniquement un pourcentage spécifique de lignes dans la table pour générer des statistiques. La valeur par défaut est toutes les lignes. Utilisez les flèches haut et bas pour augmenter ou diminuer la valeur en pourcentage.
Nous vous recommandons d'inclure toutes les lignes de la table pour calculer des statistiques précises. Utilisez des exemples de lignes pour générer des statistiques de colonne uniquement lorsque des valeurs approximatives sont acceptables.
-
Choisissez Générer des statistiques pour exécuter la tâche de génération des statistiques de colonne.
-
- AWS CLI
-
Vous pouvez utiliser l’exemple AWS CLI suivant pour créer un calendrier de génération de statistiques de colonne. Les paramètres database-name, table-name et role sont obligatoires, tandis que les paramètres facultatifs sont schedule, column-name-list, catalog-id, sample-size et security-configuration.
aws glue create-column-statistics-task-settings \ --database-name 'database_name' \ --table-nametable_name\ --role 'arn:aws:iam::123456789012:role/stats-role' \ --schedule 'cron(0 0-5 14 * * ?)' \ --column-name-list 'col-1' \ --catalog-id '123456789012' \ --sample-size '10.0' \ --security-configuration 'test-security'Vous pouvez également générer des statistiques de colonne en appelant l'opération StartColumnStatisticsTaskRun.