Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Configurazione di un'integrazione
Quando si configura un'integrazione zero-ETL, è possibile configurare vari parametri per controllare la modalità di sincronizzazione dei dati tra i sistemi di origine e di destinazione. Le seguenti impostazioni sono attualmente disponibili solo per le sorgenti SaaS.
Configurazione dell'intervallo di aggiornamento
È possibile configurare l'intervallo di aggiornamento per l'integrazione per le sorgenti SaaS al momento della creazione dell'integrazione. Il valore predefinito è 1 ora. È possibile configurare la frequenza con cui devono verificarsi le sollecitazioni o i carichi incrementali del CDC (Change Data Capture). Ciò offre la flessibilità necessaria per allineare la frequenza di aggiornamento ai modelli di aggiornamento dei dati specifici, alle considerazioni sul carico del sistema e agli obiettivi di ottimizzazione delle prestazioni. L'incremento di tempo può essere impostato su un valore da 15 minuti a 8640 minuti (sei giorni). L'intervallo di aggiornamento non può essere modificato dopo la creazione dell'integrazione quando la destinazione è Redshift. Per altri target, l'intervallo di aggiornamento può essere modificato dopo la creazione dell'integrazione. Per le sorgenti DynamoDB con intervalli di aggiornamento di 24 ore o più, Batch giornalieri sequenziali per sorgenti DynamoDB vedi per dettagli sull'elaborazione sequenziale giornaliera in batch.
Questa operazione può essere eseguita tramite console, aggiornando l'intervallo di aggiornamento all'interno delle impostazioni di replica.
L'incremento di tempo può essere impostato da 15 minuti a 8640 minuti (sei giorni), in modo da bilanciare l'aggiornamento dei dati e l'utilizzo delle risorse di sistema. Attualmente, l'intervallo di aggiornamento è personalizzabile sia per le fonti DynamoDB che per quelle SaaS:
Intervallo minimo: 15 minuti
Intervallo massimo: 8640 minuti (6 giorni)
Valore predefinito: 15 minuti per il sorgente DynamoDB e 60 minuti per l'origine SaaS
Fattori da considerare nella scelta di un intervallo di aggiornamento:
Volatilità dei dati: con quale frequenza vengono modificati i dati di origine
Requisiti aziendali: quanto devono essere aggiornati i dati di analisi
Considerazioni sui costi: aggiornamenti più frequenti possono comportare costi di elaborazione e archiviazione più elevati
Nota
RefreshInterval il parametro definisce la frequenza di attivazione del CDC. La frequenza di aggiornamento effettiva può essere influenzata dal volume delle modifiche nei dati di origine e dalla capacità di elaborazione del sistema di destinazione. Monitora le prestazioni di integrazione e regola l'intervallo di aggiornamento secondo necessità per ottimizzarlo in base al caso d'uso specifico.
Oppure tramite l'API passando l'RefreshIntervalinterno IntegrationConfigcome parte di CreateIntegration Request. Per modificare l'intervallo di aggiornamento a livello di codice, puoi utilizzare l'ModifyIntegration API con il parametro. IntegrationConfig
Batch giornalieri sequenziali per sorgenti DynamoDB
Per le integrazioni zero-ETL con una fonte Amazon DynamoDB, quando si configura un intervallo di aggiornamento di 1440 minuti (24 ore) o superiore, l'integrazione utilizza l'elaborazione sequenziale giornaliera in batch anziché una singola operazione di esportazione. Questo comportamento è dovuto alla limitazione della finestra di esportazione di DynamoDB, che ha un periodo massimo di esportazione di 24 ore.
Quando l'intervallo di aggiornamento supera le 24 ore, l'integrazione funziona come segue:
Il processo CDC attende la durata completa dell'intervallo di aggiornamento (ad esempio, 6 giorni per un intervallo di 8640 minuti).
Trascorso l'intervallo di aggiornamento, l'integrazione esegue più esportazioni sequenziali di DynamoDB, ciascuna delle quali copre fino a una finestra di 24 ore.
I job CDC elaborano ogni batch in sequenza per acquisire tutte le modifiche avvenute durante il periodo di intervallo di aggiornamento.
Ad esempio, se imposti un intervallo di aggiornamento di 8640 minuti (6 giorni), l'integrazione aspetterà 6 giorni e quindi eseguirà 6 o 7 esportazioni sequenziali (1 esportazione finale che copre il tempo aggiuntivo dedicato alle operazioni di esportazione) e job CDC per sincronizzare tutte le modifiche di quel periodo.
Istantanea su richiesta
Zero-ETL per impostazione predefinita include l'acquisizione continua dei dati (CDC), ma se hai casi d'uso per replicare tutti i dati una volta, puoi farlo utilizzando la funzione On-demand Snapshot. La funzionalità attualmente supportata solo per le fonti SaaS può essere utilizzata per replicare i dati una sola volta senza sincronizzazione continua. Questa opzione offre la replica dei dati una tantum senza aggiornamenti continui e richiede la pulizia manuale. Una volta completata la replica, consigliamo di eliminare la risorsa di integrazione per evitare di raggiungere il limite di integrazione dell'account.
Oppure tramite API impostando il ContinuousSync parametro su false within IntegrationConfigcome parte di Request. CreateIntegration
Nota
L'impostazione On-demand Snapshot non può essere modificata dopo la creazione dell'integrazione. Scegliete attentamente questa opzione in base ai requisiti di sincronizzazione dei dati.
Modifica dell'intervallo di aggiornamento
Questa funzionalità è attualmente disponibile solo per le AWS Glue destinazioni e consente di aggiornare l'intervallo di aggiornamento per un'integrazione esistente.