統合の設定 - AWS Glue

統合の設定

ゼロ ETL 統合を設定するときは、ソースシステムとターゲットシステム間のデータの同期方法を制御するために、さまざまなパラメータを設定できます。このセクションでは、データ抽出とロードプロセスに影響する主要な設定オプションについて説明します。

On-demand Snapshot 設定

On-demand Snapshot 設定では、データソースの更新をデータターゲットに継続的に同期するかどうかを選択できます。無効 (デフォルト) の場合、統合はソースシステムで変更が発生したときに継続的な同期を提供します。有効にすると、統合は継続的な更新なしで 1 回限りのデータレプリケーションを実行します。

このスクリーンショットは、On-demand Snapshot の設定を示しています。有効にすると、統合は変更データキャプチャなしでデータを 1 回レプリケートし、継続的な更新なしで 1 回限りのデータレプリケーションを提供します。この設定は、統合の作成後に変更することはできません。
注記

On-demand Snapshot 設定は、統合の作成後に変更することはできません。データ同期の要件に基づいて、このオプションを慎重に選択します。

RefreshInterval 設定

RefreshInterval パラメータは、変更データキャプチャ (CDC) プルまたは増分ロードがトリガーされる頻度を指定します。このパラメータは、CDC レートを特定のデータ更新パターン、システム負荷に関する考慮事項、パフォーマンス最適化の目標に柔軟に合わせることができます。ターゲットが Redshift の場合、統合の作成後に更新間隔を変更することはできません。他のターゲットでは、統合の作成後に更新間隔を変更できます。更新間隔が 24 時間以上の DynamoDB ソースの場合、シーケンシャル日次バッチ処理の詳細については「DynamoDB ソースの連続した日次バッチ」を参照してください。

このスクリーンショットは、ゼロ ETL 統合設定の refreshInterval パラメータ設定を示しています。

時間増分は 15 分から 8640 分 (6 日) まで設定できるため、データの鮮度とシステムリソース使用率のバランスをとることができます。現在、更新間隔は DynamoDB ソースと SaaS ソースの両方でカスタマイズできます。

  • 最小間隔: 15 分

  • 最大間隔: 8640 分 (6 日間)

  • デフォルト値: DynamoDB ソースの場合は 15 分、SaaS ソースの場合は 60 分

更新間隔を選択するときに考慮すべき要素:

  • データの変動性: ソースデータの変更頻度

  • ビジネス要件: 分析データにおいて要求される最新状態

  • コストに関する考慮事項: 更新頻度が高いほど、処理コストとストレージコストが高くなる可能性があります

注記

RefreshInterval パラメータは、CDC のトリガーの頻度を定義します。実際の更新頻度は、ソースデータの変更量とターゲットシステムの処理能力の影響を受ける可能性があります。統合パフォーマンスをモニタリングし、必要に応じて更新間隔を調整して特定のユースケースに合わせて最適化します。

更新間隔をプログラムで変更するには、IntegrationConfig パラメータで ModifyIntegration API を使用できます。

DynamoDB ソースの連続した日次バッチ

Amazon DynamoDB ソースとのゼロ ETL 統合の場合、1440 分 (24 時間) 以上の更新間隔を設定すると、統合は 1 回のエクスポートオペレーションではなく、シーケンシャル日次バッチ処理を使用します。この動作は、最大エクスポート期間が 24 時間である DynamoDB エクスポートウィンドウの制限によるものです。

更新間隔が 24 時間を超えると、統合は次のように動作します。

  1. CDC プロセスは、完全な更新間隔の期間 (例えば、8640 分の間隔は 6 日間) 待機します。

  2. 更新間隔が経過すると、統合は複数のシーケンシャル DynamoDB エクスポートを実行し、それぞれが最大 24 時間のウィンドウをカバーします。

  3. CDC ジョブは各バッチを順番に処理して、更新間隔期間中に発生したすべての変更をキャプチャします。

例えば、更新間隔を 8640 分 (6 日) に設定すると、統合は 6 日間待機し、6 つまたは 7 つのシーケンシャルエクスポート (エクスポートオペレーションに費やされた余分な時間をカバーする 1 つのテールエクスポート) と CDC ジョブを実行して、その期間からのすべての変更を同期します。