View a markdown version of this page

配置集成 - AWS Glue

配置集成

在设置零 ETL 集成时,您可以配置各种参数来控制源系统和目标系统之间的数据同步方式。以下设置目前仅适用于 SaaS 源。

配置刷新间隔

您可以在创建集成时为 SaaS 源配置集成的刷新间隔。默认值为 1 小时。您可以指定执行 CDC(更改数据捕获)拉取或增量加载的频率。这样就可以灵活地根据特定数据更新模式、系统负载注意事项和性能优化目标调整刷新率。时间增量可以设置为 15 到 8640 分钟(六天)。当目标为 Redshift 时,创建集成后无法修改刷新间隔。对于其他目标,可以在创建集成后修改刷新间隔。对于刷新间隔为 24 小时或更长时间的 DynamoDB 源,请参阅 DynamoDB 源的每日连续批处理 了解有关每日顺序批处理的详细信息。

要完成此操作,您可以在控制台中的“复制设置”下更新刷新间隔,

屏幕截图显示了零 ETL 集成设置中的 refreshInterval 参数配置。

时间增量可以设置为 15 分钟到 8640 分钟(6 天),从而可以在数据新鲜度和系统资源利用率之间取得平衡。目前,DynamoDB 和 SaaS 源的刷新间隔均可自定义:

  • 最小间隔:15 分钟

  • 最大间隔:8640 分钟(6 天)

  • 默认值:DynamoDB 源为 15 分钟,SaaS 源为 60 分钟

选择刷新间隔时要考虑的因素:

  • 数据波动性:源数据更改的频率

  • 业务要求:分析数据需要保持多新

  • 成本注意事项:更频繁的更新可能会导致处理和存储成本更高

注意

RefreshInterval 参数定义 CDC 的触发频率。实际刷新频率可能会受到源数据更改量和目标系统处理能力的影响。监控集成性能并根据需要调整刷新间隔,以针对特定使用案例进行优化。

也可以通过 API 在 CreateIntegration 请求的 IntegrationConfig 中传递 RefreshInterval 来完成。要以编程方式修改刷新间隔,您可以使用带有 IntegrationConfig 参数的 ModifyIntegration API

DynamoDB 源的每日连续批处理

对于与 Amazon DynamoDB 源的零 ETL 集成,当您将刷新间隔配置为 1440 分钟(24 小时)或更长时,集成将使用每日连续批处理,而不是单个导出操作。此行为是由于 DynamoDB 导出窗口限制造成的,其最长导出时间为 24 小时。

当刷新间隔超过 24 小时时,集成将按以下方式运行:

  1. CDC 进程等待完整刷新间隔持续时间(例如,8640 分钟的间隔为 6 天)。

  2. 刷新间隔结束后,集成执行多次连续 DynamoDB 导出,每次导出最多覆盖 24 小时时间段。

  3. CDC 作业按顺序处理每个批次,以捕获刷新间隔期间发生的所有更改。

例如,如果将刷新间隔设置为 8640 分钟(6 天),则集成将等待 6 天,然后执行 6 或 7 次连续导出(1 次尾部导出涵盖导出操作所花费的额外时间)和 CDC 作业,以同步该期间的所有更改。

按需快照

零 ETL 会默认包含连续数据捕获(CDC),但如果您的使用案例需要一次性复制完整的数据,则可以使用“按需快照”功能进行复制。目前此功能仅支持 SaaS 源,可用于在不持续同步的情况下一次性复制数据。此选项会一次性复制数据,而不会持续更新,并且需要手动清理。复制完成后,我们建议删除集成资源,以免达到账户的集成限制。

屏幕截图显示了按需快照设置配置。

也可以通过 API 在 CreateIntegration 请求的 IntegrationConfig 中将 ContinuousSync 参数设置为 false 来完成。

注意

创建集成后,无法修改按需快照设置。请根据数据同步要求谨慎选择此选项。

修改刷新间隔

此功能目前仅适用于 AWS Glue 目标,让您能够更新现有集成的刷新间隔。