Planification d’analyses incrémentielles pour ajouter de nouvelles partitions. - AWS Glue

Planification d’analyses incrémentielles pour ajouter de nouvelles partitions.

Vous pouvez configurer des analyses incrémentielles d’exécution AWS Glue crawler pour ajouter uniquement de nouvelles partitions au schéma de table. Lorsque le robot s’exécute pour la première fois, il effectue une analyse complète pour traiter l’intégralité de la source de données afin d’enregistrer le schéma complet et toutes les partitions existantes dans l’AWS Glue Data Catalog.

Les analyses qui suivent l’analyse complète initiale seront incrémentielles, le robot identifiant et ajoutant uniquement les nouvelles partitions introduites depuis l’analyse précédente. Cette approche permet d’accélérer les temps d’analyse, car le robot n’a plus besoin de traiter l’intégralité de la source de données à chaque exécution. Il peut alors se concentrer uniquement sur les nouvelles partitions.

Note

Les analyses incrémentielles ne détectent pas les modifications ou les suppressions de partitions existantes. Cette configuration convient parfaitement aux sources de données dotées d’un schéma stable. En cas de modification majeure ponctuelle du schéma, il est conseillé de configurer temporairement le robot pour qu’il effectue une analyse complète afin de capturer le nouveau schéma avec précision, puis de revenir en mode d’analyse incrémentielle.

Le schéma suivant montre que lorsque le paramètre d’analyse incrémentielle est activé, le robot détecte et ajoute uniquement le dossier récemment ajouté, month=March, au catalogue.

Le diagramme suivant montre que les fichiers du mois de mars ont été ajoutés.

Procédez comme suit pour mettre à jour votre robot afin d’effectuer des analyses incrémentielles :

AWS Management Console
  1. Connectez-vous à la AWS Management Console et ouvrez la console AWS Glue à l’adresse https://console.aws.amazon.com/glue/.

  2. Choisissez Robots dans le Catalogue de données.

  3. Choisissez un robot que vous souhaitez configurer pour qu’il effectuer une analyse incrémentielle.

  4. Choisissez Modifier.

  5. Choisissez Étape 2. Choisissez des sources de données et des classifieurs.

  6. Choisissez la source de données que vous souhaitez analyser de manière incrémentielle.

  7. Choisissez Modifier.

  8. Choisissez Analyser les nouveaux sous-dossiers uniquement sous Exécutions ultérieures du robot.

  9. Choisissez Mettre à jour.

Pour créer un calendrier pour un robot, consultez Planification d'un crawler.

AWS CLI
aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_NEW_FOLDERS_ONLY \ --schema-change-policy UpdateBehavior=LOG,DeleteBehavior=LOG
Notes et restrictions

Lorsque cette option est activée, vous ne pouvez pas modifier les magasins de données cibles Amazon S3 lors de la modification de l'crawler. Cette option affecte certains paramètres de configuration de l'crawler. Lorsqu'il est activé, il force le comportement de mise à jour et le comportement de suppression de l'crawler à LOG. Cela signifie que :

  • S'il découvre des objets dont les schémas ne sont pas compatibles, le Crawler n'ajoute pas les objets dans le catalogue de données et ajoute ces informations sous forme de journal dans CloudWatch Logs.

  • Il ne met pas à jour les objets supprimés dans le catalogue de données.