View a markdown version of this page

Konfiguration einer Integration - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Konfiguration einer Integration

Bei der Einrichtung einer Zero-ETL-Integration können Sie verschiedene Parameter konfigurieren, um zu steuern, wie Daten zwischen Ihren Quell- und Zielsystemen synchronisiert werden. Die folgenden Einstellungen sind derzeit nur für SaaS-Quellen verfügbar.

Aktualisierungsintervall konfigurieren

Sie können das Aktualisierungsintervall für die Integration von SaaS-Quellen zum Zeitpunkt der Integrationserstellung konfigurieren. Der Standardwert lautet 1 Stunde. Sie können die Häufigkeit konfigurieren, mit der CDC-Pulls (Change Data Capture) abgerufen oder inkrementelle Ladevorgänge ausgeführt werden sollen. Dies bietet Flexibilität bei der Anpassung der Aktualisierungsrate an Ihre spezifischen Datenaktualisierungsmuster, Überlegungen zur Systemlast und Ziele zur Leistungsoptimierung. Das Zeitintervall kann zwischen 15 Minuten und 8640 Minuten (sechs Tage) eingestellt werden. Das Aktualisierungsintervall kann nicht geändert werden, nachdem die Integration erstellt wurde, wenn das Ziel Redshift ist. Bei anderen Zielen kann das Aktualisierungsintervall nach der Erstellung der Integration geändert werden. Informationen zur sequentiellen täglichen Stapelverarbeitung von DynamoDB-Quellen mit Aktualisierungsintervallen von 24 Stunden oder mehr finden Sie unterSequentielle tägliche Batches für DynamoDB-Quellen.

Dies kann über die Konsole erfolgen, indem das Aktualisierungsintervall in den Replikationseinstellungen aktualisiert wird.

Der Screenshot zeigt die Konfiguration des RefreshInterval-Parameters in den Zero-ETL-Integrationseinstellungen.

Das Zeitintervall kann zwischen 15 Minuten und 8640 Minuten (sechs Tage) eingestellt werden, sodass Sie ein Gleichgewicht zwischen Datenaktualität und Systemressourcenauslastung herstellen können. Derzeit ist das Aktualisierungsintervall sowohl für DynamoDB- als auch für SaaS-Quellen anpassbar:

  • Mindestintervall: 15 Minuten

  • Maximales Intervall: 8640 Minuten (6 Tage)

  • Standardwert: 15 Minuten für DynamoDB-Quelle und 60 Minuten für SaaS-Quelle

Bei der Auswahl eines Aktualisierungsintervalls zu berücksichtigende Faktoren:

  • Datenvolatilität: Wie häufig ändern sich Ihre Quelldaten

  • Geschäftsanforderungen: Wie aktuell müssen Ihre Analysedaten sein

  • Überlegungen zu den Kosten: Häufigere Aktualisierungen können zu höheren Verarbeitungs- und Speicherkosten führen

Anmerkung

RefreshInterval Der Parameter definiert die Frequenz des CDC-Triggers. Die tatsächliche Aktualisierungsfrequenz kann vom Umfang der Änderungen in Ihren Quelldaten und der Verarbeitungskapazität des Zielsystems beeinflusst werden. Überwachen Sie Ihre Integrationsleistung und passen Sie das Aktualisierungsintervall nach Bedarf an, um es für Ihren speziellen Anwendungsfall zu optimieren.

Oder über die API, indem Sie das RefreshInterval Within IntegrationConfigals Teil der CreateIntegration Anfrage weitergeben. Um das Aktualisierungsintervall programmgesteuert zu ändern, können Sie die ModifyIntegration API mit dem IntegrationConfig Parameter verwenden.

Sequentielle tägliche Batches für DynamoDB-Quellen

Wenn Sie bei Zero-ETL-Integrationen mit einer Amazon DynamoDB DynamoDB-Quelle ein Aktualisierungsintervall von 1440 Minuten (24 Stunden) oder mehr konfigurieren, verwendet die Integration sequentielle tägliche Batch-Verarbeitung anstelle eines einzelnen Exportvorgangs. Dieses Verhalten ist auf die Beschränkung des DynamoDB-Exportfensters zurückzuführen, die eine maximale Exportdauer von 24 Stunden hat.

Wenn das Aktualisierungsintervall 24 Stunden überschreitet, funktioniert die Integration wie folgt:

  1. Der CDC-Prozess wartet auf die gesamte Dauer des Aktualisierungsintervalls (z. B. 6 Tage für ein 8640-Minuten-Intervall).

  2. Nach Ablauf des Aktualisierungsintervalls führt die Integration mehrere sequentielle DynamoDB-Exporte durch, die jeweils ein Zeitfenster von bis zu 24 Stunden abdecken.

  3. Die CDC-Jobs verarbeiten jeden Stapel nacheinander, um alle Änderungen zu erfassen, die während des Aktualisierungsintervalls vorgenommen wurden.

Wenn Sie beispielsweise ein Aktualisierungsintervall von 8640 Minuten (6 Tage) festlegen, wartet die Integration 6 Tage und führt dann 6 oder 7 sequentielle Exporte (ein abschließender Export deckt den zusätzlichen Zeitaufwand für Exportvorgänge ab) und CDC-Jobs aus, um alle Änderungen aus diesem Zeitraum zu synchronisieren.

Snapshot auf Abruf

Zero-ETL beinhaltet standardmäßig die kontinuierliche Datenerfassung (CDC). Wenn Sie jedoch Anwendungsfälle haben, um vollständige Daten einmal zu replizieren, können Sie dies mithilfe der On-Demand-Snapshot-Funktion tun. Die Funktion, die derzeit nur für SaaS-Quellen unterstützt wird, kann verwendet werden, um Daten einmal ohne kontinuierliche Synchronisation zu replizieren. Diese Option ermöglicht eine einmalige Datenreplikation ohne laufende Updates und erfordert eine manuelle Bereinigung. Sobald die Replikation abgeschlossen ist, empfehlen wir, die Integrationsressource zu löschen, um zu verhindern, dass das Limit für die Kontointegration erreicht wird.

Der Screenshot zeigt die Konfiguration der On-Demand-Snapshot-Einstellung.

Oder über die API, indem Sie den ContinuousSync Parameter false im IntegrationConfigRahmen von CreateIntegration Request auf within setzen.

Anmerkung

Die Einstellung „On-Demand-Snapshot“ kann nach der Erstellung der Integration nicht geändert werden. Wählen Sie diese Option sorgfältig auf der Grundlage Ihrer Datensynchronisierungsanforderungen aus.

Ändern des Aktualisierungsintervalls

Diese Funktion ist derzeit nur für AWS Glue Ziele verfügbar und ermöglicht es Ihnen, das Aktualisierungsintervall für eine bestehende Integration zu aktualisieren.