Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Konfiguration einer Integration
Bei der Einrichtung einer Zero-ETL-Integration können Sie verschiedene Parameter konfigurieren, um zu steuern, wie Daten zwischen Ihren Quell- und Zielsystemen synchronisiert werden. Die folgenden Einstellungen sind derzeit nur für SaaS-Quellen verfügbar.
Aktualisierungsintervall konfigurieren
Sie können das Aktualisierungsintervall für die Integration von SaaS-Quellen zum Zeitpunkt der Integrationserstellung konfigurieren. Der Standardwert lautet 1 Stunde. Sie können die Häufigkeit konfigurieren, mit der CDC-Pulls (Change Data Capture) abgerufen oder inkrementelle Ladevorgänge ausgeführt werden sollen. Dies bietet Flexibilität bei der Anpassung der Aktualisierungsrate an Ihre spezifischen Datenaktualisierungsmuster, Überlegungen zur Systemlast und Ziele zur Leistungsoptimierung. Das Zeitintervall kann zwischen 15 Minuten und 8640 Minuten (sechs Tage) eingestellt werden. Das Aktualisierungsintervall kann nicht geändert werden, nachdem die Integration erstellt wurde, wenn das Ziel Redshift ist. Bei anderen Zielen kann das Aktualisierungsintervall nach der Erstellung der Integration geändert werden. Informationen zur sequentiellen täglichen Stapelverarbeitung von DynamoDB-Quellen mit Aktualisierungsintervallen von 24 Stunden oder mehr finden Sie unterSequentielle tägliche Batches für DynamoDB-Quellen.
Dies kann über die Konsole erfolgen, indem das Aktualisierungsintervall in den Replikationseinstellungen aktualisiert wird.
Das Zeitintervall kann zwischen 15 Minuten und 8640 Minuten (sechs Tage) eingestellt werden, sodass Sie ein Gleichgewicht zwischen Datenaktualität und Systemressourcenauslastung herstellen können. Derzeit ist das Aktualisierungsintervall sowohl für DynamoDB- als auch für SaaS-Quellen anpassbar:
Mindestintervall: 15 Minuten
Maximales Intervall: 8640 Minuten (6 Tage)
Standardwert: 15 Minuten für DynamoDB-Quelle und 60 Minuten für SaaS-Quelle
Bei der Auswahl eines Aktualisierungsintervalls zu berücksichtigende Faktoren:
Datenvolatilität: Wie häufig ändern sich Ihre Quelldaten
Geschäftsanforderungen: Wie aktuell müssen Ihre Analysedaten sein
Überlegungen zu den Kosten: Häufigere Aktualisierungen können zu höheren Verarbeitungs- und Speicherkosten führen
Anmerkung
RefreshInterval Der Parameter definiert die Frequenz des CDC-Triggers. Die tatsächliche Aktualisierungsfrequenz kann vom Umfang der Änderungen in Ihren Quelldaten und der Verarbeitungskapazität des Zielsystems beeinflusst werden. Überwachen Sie Ihre Integrationsleistung und passen Sie das Aktualisierungsintervall nach Bedarf an, um es für Ihren speziellen Anwendungsfall zu optimieren.
Oder über die API, indem Sie das RefreshInterval Within IntegrationConfigals Teil der CreateIntegration Anfrage weitergeben. Um das Aktualisierungsintervall programmgesteuert zu ändern, können Sie die ModifyIntegration API mit dem IntegrationConfig Parameter verwenden.
Sequentielle tägliche Batches für DynamoDB-Quellen
Wenn Sie bei Zero-ETL-Integrationen mit einer Amazon DynamoDB DynamoDB-Quelle ein Aktualisierungsintervall von 1440 Minuten (24 Stunden) oder mehr konfigurieren, verwendet die Integration sequentielle tägliche Batch-Verarbeitung anstelle eines einzelnen Exportvorgangs. Dieses Verhalten ist auf die Beschränkung des DynamoDB-Exportfensters zurückzuführen, die eine maximale Exportdauer von 24 Stunden hat.
Wenn das Aktualisierungsintervall 24 Stunden überschreitet, funktioniert die Integration wie folgt:
Der CDC-Prozess wartet auf die gesamte Dauer des Aktualisierungsintervalls (z. B. 6 Tage für ein 8640-Minuten-Intervall).
Nach Ablauf des Aktualisierungsintervalls führt die Integration mehrere sequentielle DynamoDB-Exporte durch, die jeweils ein Zeitfenster von bis zu 24 Stunden abdecken.
Die CDC-Jobs verarbeiten jeden Stapel nacheinander, um alle Änderungen zu erfassen, die während des Aktualisierungsintervalls vorgenommen wurden.
Wenn Sie beispielsweise ein Aktualisierungsintervall von 8640 Minuten (6 Tage) festlegen, wartet die Integration 6 Tage und führt dann 6 oder 7 sequentielle Exporte (ein abschließender Export deckt den zusätzlichen Zeitaufwand für Exportvorgänge ab) und CDC-Jobs aus, um alle Änderungen aus diesem Zeitraum zu synchronisieren.
Snapshot auf Abruf
Zero-ETL beinhaltet standardmäßig die kontinuierliche Datenerfassung (CDC). Wenn Sie jedoch Anwendungsfälle haben, um vollständige Daten einmal zu replizieren, können Sie dies mithilfe der On-Demand-Snapshot-Funktion tun. Die Funktion, die derzeit nur für SaaS-Quellen unterstützt wird, kann verwendet werden, um Daten einmal ohne kontinuierliche Synchronisation zu replizieren. Diese Option ermöglicht eine einmalige Datenreplikation ohne laufende Updates und erfordert eine manuelle Bereinigung. Sobald die Replikation abgeschlossen ist, empfehlen wir, die Integrationsressource zu löschen, um zu verhindern, dass das Limit für die Kontointegration erreicht wird.
Oder über die API, indem Sie den ContinuousSync Parameter false im IntegrationConfigRahmen von CreateIntegration Request auf within setzen.
Anmerkung
Die Einstellung „On-Demand-Snapshot“ kann nach der Erstellung der Integration nicht geändert werden. Wählen Sie diese Option sorgfältig auf der Grundlage Ihrer Datensynchronisierungsanforderungen aus.
Ändern des Aktualisierungsintervalls
Diese Funktion ist derzeit nur für AWS Glue Ziele verfügbar und ermöglicht es Ihnen, das Aktualisierungsintervall für eine bestehende Integration zu aktualisieren.