

# 配置集成
<a name="zero-etl-configuring-integration"></a>

在设置零 ETL 集成时，您可以配置各种参数来控制源系统和目标系统之间的数据同步方式。以下设置目前仅适用于 SaaS 源。

## 配置刷新间隔
<a name="zero-etl-config-refresh-interval"></a>

您可以在创建集成时为 SaaS 源配置集成的刷新间隔。默认值为 1 小时。您可以指定执行 CDC（更改数据捕获）拉取或增量加载的频率。这样就可以灵活地根据特定数据更新模式、系统负载注意事项和性能优化目标调整刷新率。时间增量可以设置为 15 到 8640 分钟（六天）。当目标为 Redshift 时，创建集成后无法修改刷新间隔。对于其他目标，可以在创建集成后修改刷新间隔。对于刷新间隔为 24 小时或更长时间的 DynamoDB 源，请参阅 [DynamoDB 源的每日连续批处理](#zero-etl-config-refresh-interval-ddb-batches) 了解有关每日顺序批处理的详细信息。

要完成此操作，您可以在控制台中的“复制设置”下更新刷新间隔，

![屏幕截图显示了零 ETL 集成设置中的 refreshInterval 参数配置。](http://docs.aws.amazon.com/zh_cn/glue/latest/dg/images/refreshinterval.png)


时间增量可以设置为 15 分钟到 8640 分钟（6 天），从而可以在数据新鲜度和系统资源利用率之间取得平衡。目前，DynamoDB 和 SaaS 源的刷新间隔均可自定义：
+ **最小间隔：**15 分钟
+ **最大间隔：**8640 分钟（6 天）
+ **默认值：**DynamoDB 源为 15 分钟，SaaS 源为 60 分钟

选择刷新间隔时要考虑的因素：
+ **数据波动性：**源数据更改的频率
+ **业务要求：**分析数据需要保持多新
+ **成本注意事项：**更频繁的更新可能会导致处理和存储成本更高

**注意**  
RefreshInterval 参数定义 CDC 的触发频率。实际刷新频率可能会受到源数据更改量和目标系统处理能力的影响。监控集成性能并根据需要调整刷新间隔，以针对特定使用案例进行优化。

也可以通过 API 在 CreateIntegration 请求的 [IntegrationConfig](https://docs.aws.amazon.com/glue/latest/webapi/API_IntegrationConfig.html) 中传递 `RefreshInterval` 来完成。要以编程方式修改刷新间隔，您可以使用带有 IntegrationConfig 参数的 [ModifyIntegration API](https://docs.aws.amazon.com/glue/latest/webapi/API_ModifyIntegration.html#API_ModifyIntegration_RequestSyntax)。

### DynamoDB 源的每日连续批处理
<a name="zero-etl-config-refresh-interval-ddb-batches"></a>

对于与 Amazon DynamoDB 源的零 ETL 集成，当您将刷新间隔配置为 1440 分钟（24 小时）或更长时，集成将使用每日连续批处理，而不是单个导出操作。此行为是由于 [DynamoDB 导出窗口限制](https://docs.aws.amazon.com/amazondynamodb/latest/developerguide/ServiceQuotas.html)造成的，其最长导出时间为 24 小时。

当刷新间隔超过 24 小时时，集成将按以下方式运行：

1. CDC 进程等待完整刷新间隔持续时间（例如，8640 分钟的间隔为 6 天）。

1. 刷新间隔结束后，集成执行多次连续 DynamoDB 导出，每次导出最多覆盖 24 小时时间段。

1. CDC 作业按顺序处理每个批次，以捕获刷新间隔期间发生的所有更改。

例如，如果将刷新间隔设置为 8640 分钟（6 天），则集成将等待 6 天，然后执行 6 或 7 次连续导出（1 次尾部导出涵盖导出操作所花费的额外时间）和 CDC 作业，以同步该期间的所有更改。

## 按需快照
<a name="zero-etl-config-continuous-sync"></a>

零 ETL 会默认包含连续数据捕获（CDC），但如果您的使用案例需要一次性复制完整的数据，则可以使用“按需快照”功能进行复制。目前此功能仅支持 SaaS 源，可用于在不持续同步的情况下一次性复制数据。此选项会一次性复制数据，而不会持续更新，并且需要手动清理。复制完成后，我们建议删除集成资源，以免达到账户的集成限制。

![屏幕截图显示了按需快照设置配置。](http://docs.aws.amazon.com/zh_cn/glue/latest/dg/images/ContinuousSync.png)


也可以通过 API 在 CreateIntegration 请求的 [IntegrationConfig](https://docs.aws.amazon.com/glue/latest/webapi/API_IntegrationConfig.html) 中将 `ContinuousSync` 参数设置为 `false` 来完成。

**注意**  
创建集成后，无法修改按需快照设置。请根据数据同步要求谨慎选择此选项。

## 修改刷新间隔
<a name="zero-etl-config-modify-refresh-interval"></a>

此功能目前仅适用于 AWS Glue 目标，让您能够更新现有集成的刷新间隔。