View a markdown version of this page

Configuration d'une intégration - AWS Glue

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Configuration d'une intégration

Lorsque vous configurez une intégration zéro ETL, vous pouvez configurer différents paramètres pour contrôler la façon dont les données sont synchronisées entre vos systèmes source et cible. Cette section décrit les principales options de configuration qui affectent le processus d'extraction et de chargement des données.

Configuration des instantanés à la demande

Le paramètre On-Demand Snapshot vous permet de choisir de synchroniser en permanence les mises à jour des sources de données avec votre cible de données. Lorsqu'elle est désactivée (valeur par défaut), l'intégration assure une synchronisation continue au fur et à mesure que des modifications se produisent dans les systèmes source. Lorsqu'elle est activée, l'intégration effectue une réplication des données unique sans mises à jour continues.

La capture d'écran montre la configuration des paramètres de capture instantanée à la demande. Lorsqu'elle est activée, l'intégration réplique les données une seule fois sans capture des données de modification, ce qui permet une réplication des données unique sans mises à jour continues. Ce paramètre ne peut pas être modifié après la création de l'intégration.
Note

Le paramètre On-Demand Snapshot ne peut pas être modifié une fois l'intégration créée. Choisissez cette option avec soin en fonction de vos besoins en matière de synchronisation des données.

RefreshInterval réglage

Le RefreshInterval paramètre spécifie la fréquence à laquelle les extractions de capture des données de modification (CDC) ou les chargements incrémentiels seront déclenchés. Ce paramètre offre la flexibilité nécessaire pour aligner le taux CDC sur vos modèles de mise à jour des données spécifiques, les considérations relatives à la charge du système et les objectifs d'optimisation des performances. L'intervalle d'actualisation ne peut pas être modifié une fois l'intégration créée lorsque la cible est Redshift. Pour les autres cibles, l'intervalle d'actualisation peut être modifié après la création de l'intégration. Pour les sources DynamoDB dont les intervalles d'actualisation sont supérieurs ou égaux à 24 heures, Lots quotidiens séquentiels pour les sources DynamoDB voir pour plus de détails sur le traitement par lots quotidien séquentiel.

La capture d'écran montre la configuration du paramètre RefreshInterval dans les paramètres d'intégration Zero-ETL.

L'incrément de temps peut être réglé de 15 minutes à 8 640 minutes (six jours), ce qui vous permet de trouver un équilibre entre la fraîcheur des données et l'utilisation des ressources du système. Actuellement, l'intervalle d'actualisation est personnalisable pour les sources DynamoDB et SaaS :

  • Intervalle minimum : 15 minutes

  • Intervalle maximal : 8640 minutes (6 jours)

  • Valeur par défaut : 15 minutes pour la source DynamoDB et 60 minutes pour la source SaaS

Facteurs à prendre en compte lors du choix d'un intervalle d'actualisation :

  • Volatilité des données : fréquence à laquelle vos données sources changent

  • Besoins commerciaux : dans quelle mesure vos données analytiques doivent être à jour

  • Considérations financières : des mises à jour plus fréquentes peuvent entraîner des coûts de traitement et de stockage plus élevés

Note

RefreshInterval paramètre définit la fréquence de déclenchement du CDC. La fréquence d'actualisation réelle peut être affectée par le volume de modifications apportées à vos données source et par la capacité de traitement du système cible. Surveillez les performances de votre intégration et ajustez l'intervalle d'actualisation selon les besoins afin de l'optimiser en fonction de votre cas d'utilisation spécifique.

Pour modifier l'intervalle d'actualisation par programmation, vous pouvez utiliser l'ModifyIntegration API avec le IntegrationConfig paramètre.

Lots quotidiens séquentiels pour les sources DynamoDB

Pour les intégrations sans ETL avec une source Amazon DynamoDB, lorsque vous configurez un intervalle d'actualisation de 1 440 minutes (24 heures) ou plus, l'intégration utilise un traitement par lots quotidien séquentiel au lieu d'une seule opération d'exportation. Ce comportement est dû à la limitation de la fenêtre d'exportation DynamoDB, dont la durée d'exportation maximale est de 24 heures.

Lorsque l'intervalle d'actualisation dépasse 24 heures, l'intégration fonctionne comme suit :

  1. Le processus CDC attend la durée complète de l'intervalle d'actualisation (par exemple, 6 jours pour un intervalle de 8 640 minutes).

  2. Une fois l'intervalle d'actualisation écoulé, l'intégration effectue plusieurs exportations DynamoDB séquentielles, chacune couvrant une fenêtre de 24 heures maximum.

  3. Les tâches CDC traitent chaque lot de manière séquentielle afin de capturer toutes les modifications survenues pendant la période d'intervalle d'actualisation.

Par exemple, si vous définissez un intervalle d'actualisation de 8 640 minutes (6 jours), l'intégration attendra 6 jours, puis exécutera 6 ou 7 exportations séquentielles (1 exportation finale couvrant le temps supplémentaire consacré aux opérations d'exportation) et des tâches CDC pour synchroniser toutes les modifications effectuées au cours de cette période.