Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Configuration d'une intégration
Lorsque vous configurez une intégration zéro ETL, vous pouvez configurer différents paramètres pour contrôler la façon dont les données sont synchronisées entre vos systèmes source et cible. Cette section décrit les principales options de configuration qui affectent le processus d'extraction et de chargement des données.
Configuration des instantanés à la demande
Le paramètre On-Demand Snapshot vous permet de choisir de synchroniser en permanence les mises à jour des sources de données avec votre cible de données. Lorsqu'elle est désactivée (valeur par défaut), l'intégration assure une synchronisation continue au fur et à mesure que des modifications se produisent dans les systèmes source. Lorsqu'elle est activée, l'intégration effectue une réplication des données unique sans mises à jour continues.
Note
Le paramètre On-Demand Snapshot ne peut pas être modifié une fois l'intégration créée. Choisissez cette option avec soin en fonction de vos besoins en matière de synchronisation des données.
RefreshInterval réglage
Le RefreshInterval paramètre spécifie la fréquence à laquelle les extractions de capture des données de modification (CDC) ou les chargements incrémentiels seront déclenchés. Ce paramètre offre la flexibilité nécessaire pour aligner le taux CDC sur vos modèles de mise à jour des données spécifiques, les considérations relatives à la charge du système et les objectifs d'optimisation des performances. L'intervalle d'actualisation ne peut pas être modifié une fois l'intégration créée lorsque la cible est Redshift. Pour les autres cibles, l'intervalle d'actualisation peut être modifié après la création de l'intégration. Pour les sources DynamoDB dont les intervalles d'actualisation sont supérieurs ou égaux à 24 heures, Lots quotidiens séquentiels pour les sources DynamoDB voir pour plus de détails sur le traitement par lots quotidien séquentiel.
L'incrément de temps peut être réglé de 15 minutes à 8 640 minutes (six jours), ce qui vous permet de trouver un équilibre entre la fraîcheur des données et l'utilisation des ressources du système. Actuellement, l'intervalle d'actualisation est personnalisable pour les sources DynamoDB et SaaS :
Intervalle minimum : 15 minutes
Intervalle maximal : 8640 minutes (6 jours)
Valeur par défaut : 15 minutes pour la source DynamoDB et 60 minutes pour la source SaaS
Facteurs à prendre en compte lors du choix d'un intervalle d'actualisation :
Volatilité des données : fréquence à laquelle vos données sources changent
Besoins commerciaux : dans quelle mesure vos données analytiques doivent être à jour
Considérations financières : des mises à jour plus fréquentes peuvent entraîner des coûts de traitement et de stockage plus élevés
Note
RefreshInterval paramètre définit la fréquence de déclenchement du CDC. La fréquence d'actualisation réelle peut être affectée par le volume de modifications apportées à vos données source et par la capacité de traitement du système cible. Surveillez les performances de votre intégration et ajustez l'intervalle d'actualisation selon les besoins afin de l'optimiser en fonction de votre cas d'utilisation spécifique.
Pour modifier l'intervalle d'actualisation par programmation, vous pouvez utiliser l'ModifyIntegration API avec le IntegrationConfig paramètre.
Lots quotidiens séquentiels pour les sources DynamoDB
Pour les intégrations sans ETL avec une source Amazon DynamoDB, lorsque vous configurez un intervalle d'actualisation de 1 440 minutes (24 heures) ou plus, l'intégration utilise un traitement par lots quotidien séquentiel au lieu d'une seule opération d'exportation. Ce comportement est dû à la limitation de la fenêtre d'exportation DynamoDB, dont la durée d'exportation maximale est de 24 heures.
Lorsque l'intervalle d'actualisation dépasse 24 heures, l'intégration fonctionne comme suit :
Le processus CDC attend la durée complète de l'intervalle d'actualisation (par exemple, 6 jours pour un intervalle de 8 640 minutes).
Une fois l'intervalle d'actualisation écoulé, l'intégration effectue plusieurs exportations DynamoDB séquentielles, chacune couvrant une fenêtre de 24 heures maximum.
Les tâches CDC traitent chaque lot de manière séquentielle afin de capturer toutes les modifications survenues pendant la période d'intervalle d'actualisation.
Par exemple, si vous définissez un intervalle d'actualisation de 8 640 minutes (6 jours), l'intégration attendra 6 jours, puis exécutera 6 ou 7 exportations séquentielles (1 exportation finale couvrant le temps supplémentaire consacré aux opérations d'exportation) et des tâches CDC pour synchroniser toutes les modifications effectuées au cours de cette période.