本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
設定 整合
設定零 ETL 整合時,您可以設定各種參數,以控制來源和目標系統之間的資料同步方式。本節說明會影響資料擷取和載入程序的關鍵組態選項。
隨需快照設定
隨需快照設定可讓您選擇是否持續同步資料來源更新至資料目標。停用時 (預設值),整合會在來源系統中發生變更時提供持續同步。啟用時,整合會執行一次性資料複寫,而不會持續更新。
注意
建立整合後,無法修改隨需快照設定。根據您的資料同步需求,仔細選擇此選項。
RefreshInterval 設定
RefreshInterval 參數會指定觸發變更資料擷取 (CDC) 提取或增量載入的頻率。此參數提供彈性,讓 CDC 速率符合您的特定資料更新模式、系統負載考量和效能最佳化目標。當目標為 Redshift 時,建立整合之後,無法修改重新整理間隔。對於其他目標,可以在整合建立後修改重新整理間隔。如需重新整理間隔為 24 小時或更長時間的 DynamoDB 來源,請參閱 DynamoDB 來源的連續每日批次 以取得循序每日批次處理的詳細資訊。
時間增量可以設定為 15 分鐘到 8640 分鐘 (六天),讓您平衡資料新鮮度和系統資源使用率。目前,DynamoDB 和 SaaS 來源都可以自訂重新整理間隔:
最短間隔:15 分鐘
間隔上限:8640 分鐘 (6 天)
預設值:DynamoDB 來源為 15 分鐘,SaaS 來源為 60 分鐘
選擇重新整理間隔時要考慮的因素:
資料波動:來源資料變更的頻率
業務需求:分析資料的最新狀態
成本考量:更頻繁的更新可能會導致更高的處理和儲存成本
注意
RefreshInterval 參數定義 CDC 觸發的頻率。實際重新整理頻率可能會受到來源資料中的變更量和目標系統的處理容量影響。監控整合效能並視需要調整重新整理間隔,以針對特定使用案例進行最佳化。
若要以程式設計方式修改重新整理間隔,您可以使用 ModifyIntegration API 搭配 IntegrationConfig 參數。
DynamoDB 來源的連續每日批次
對於與 Amazon DynamoDB 來源的零 ETL 整合,當您設定重新整理間隔 1440 分鐘 (24 小時) 或更高時,整合會使用循序每日批次處理,而不是單一匯出操作。此行為是由於 DynamoDB 匯出時段限制,其匯出期間上限為 24 小時。
當重新整理間隔超過 24 小時時,整合的運作方式如下:
CDC 程序會等待完整重新整理間隔持續時間 (例如,間隔 8640 分鐘為 6 天)。
重新整理間隔經過之後,整合會執行多個循序 DynamoDB 匯出,每個匯出最多涵蓋 24 小時的時段。
CDC 任務會依序處理每個批次,以擷取重新整理間隔期間發生的所有變更。
例如,如果您將重新整理間隔設定為 8640 分鐘 (6 天),整合將等待 6 天,然後執行 6 或 7 個循序匯出 (1 個尾部匯出,涵蓋匯出操作所花費的額外時間) 和 CDC 任務,以同步該期間的所有變更。