Planification d’analyses incrémentielles pour ajouter de nouvelles partitions.
Vous pouvez configurer des analyses incrémentielles d’exécution AWS Glue crawler pour ajouter uniquement de nouvelles partitions au schéma de table. Lorsque le robot s’exécute pour la première fois, il effectue une analyse complète pour traiter l’intégralité de la source de données afin d’enregistrer le schéma complet et toutes les partitions existantes dans l’AWS Glue Data Catalog.
Les analyses qui suivent l’analyse complète initiale seront incrémentielles, le robot identifiant et ajoutant uniquement les nouvelles partitions introduites depuis l’analyse précédente. Cette approche permet d’accélérer les temps d’analyse, car le robot n’a plus besoin de traiter l’intégralité de la source de données à chaque exécution. Il peut alors se concentrer uniquement sur les nouvelles partitions.
Note
Les analyses incrémentielles ne détectent pas les modifications ou les suppressions de partitions existantes. Cette configuration convient parfaitement aux sources de données dotées d’un schéma stable. En cas de modification majeure ponctuelle du schéma, il est conseillé de configurer temporairement le robot pour qu’il effectue une analyse complète afin de capturer le nouveau schéma avec précision, puis de revenir en mode d’analyse incrémentielle.
Le schéma suivant montre que lorsque le paramètre d’analyse incrémentielle est activé, le robot détecte et ajoute uniquement le dossier récemment ajouté, month=March, au catalogue.
Procédez comme suit pour mettre à jour votre robot afin d’effectuer des analyses incrémentielles :
Notes et restrictions
Lorsque cette option est activée, vous ne pouvez pas modifier les magasins de données cibles Amazon S3 lors de la modification de l'crawler. Cette option affecte certains paramètres de configuration de l'crawler. Lorsqu'il est activé, il force le comportement de mise à jour et le comportement de suppression de l'crawler à LOG. Cela signifie que :
-
S'il découvre des objets dont les schémas ne sont pas compatibles, le Crawler n'ajoute pas les objets dans le catalogue de données et ajoute ces informations sous forme de journal dans CloudWatch Logs.
-
Il ne met pas à jour les objets supprimés dans le catalogue de données.