統合の作成と管理
統合の作成
このセクションでは、統合を作成するための一般的なステップについて説明します。この例では、Amazon DynamoDB をソースとして使用します。
AWS Glue コンソールのホームページで、[ゼロ ETL 統合] を選択します。
[ゼロ ETL 統合] ホームページにすべての統合を表示できます。新しい統合を作成するには、[ゼロ ETL 統合の作成] を選択します。
[ソースタイプ] を選択するように求められます。ソースを選択し、[次へ] をクリックします。SaaS 統合ソースのソース設定セクションを参照してください。
[ソースとターゲットの設定] ページで、レプリケートするテーブルまたはエンティティを選択します。Amazon DynamoDB の場合は、PITR および RBAC ポリシーが設定されていることを確認します。
統合ターゲットを指定します。
AWS Glue データカタログターゲットの場合は、データをレプリケートする AWS Glue データベースを選択します。
Amazon Redshift データウェアハウスターゲットの場合は、Redshift クラスター名前空間または Redshift Serverless ワークグループ名前空間を選択します。
詳細については、「ターゲットとの統合の設定」を参照してください。
前提条件で作成したターゲット IAM ロールを指定します。
ターゲットに保存されているデータに対して、任意のターゲット KMS キーを設定する場合は、有効な KMS キーを指定します。同様に、ターゲットネットワーク接続を設定する場合は、AWS Glue 接続を選択します。
[ターゲットの固定] ボタンは、このドキュメントの「前提条件」セクションのステップの一部を設定します。つまり、1) カタログ RBAC ポリシーを提供し、2) Amazon S3 URI が指定されていない場合は生成され、それ以外の場合は指定された URI が使用されます。
[ソースとターゲットの設定] ページの [出力設定] セクションで、ターゲット内のデータに使用するスキーマのネスト解除オプションを選択します。データにカスタマーパーティションキーを使用する場合は、[カスタマーパーティションキーの指定] を選択し、最大 10 個のキーを指定します。それ以外の場合は、レプリケートされる DynamoDB テーブルに割り当てられたパーティションキーを使用できます。
[セキュリティとデータの暗号化] セクションでは、データをターゲットにレプリケートする中間プロセスで使用される KMS キーを指定できます。それ以外の場合は、AWS マネージド KMS キーが使用されます。[統合の詳細] にゼロ ETL 統合の名前を入力します。
提供されたすべての詳細が正しいことを確認します。すべてが確認されたら、[統合の作成と起動] をクリックします。
ゼロ ETL ホームページで、作成した統合を選択すると、統合の詳細が表示されます。「ステータス」は、統合の状態を示します。
統合の変更
既存の統合を変更できます。
統合の詳細ページの右上隅にある [編集] を選択します。
[ソースとターゲットの編集] ページで、ターゲット IAM ロールとターゲットネットワーク接続を変更できます。他のフィールドは、統合の作成後に編集できません。[次へ] をクリックします。
統合の名前と説明は、[統合と設定の編集] ページで編集することもできます。[次へ] をクリックします。
編集内容を確認し、確認したら [統合の更新] をクリックします。
統合の削除
削除は統合の使用を終了する状態です。一度削除すると、統合を元に戻すことはできません。統合を削除すると、すべての内部メタデータと保存された中間データが消去されます。
このプロセス中に、ターゲットテーブルにデータを書き込んでいる実行中のタスクはすべて終了します。AWS Glue は、ターゲット AWS Glue データベース (データカタログ内) およびアカウントの Amazon S3 バケット内の関連データを削除またはクリーンアップしません。必要に応じて、明示的にクリーンアップする必要があります。
統合を削除するには:
統合の詳細ページで、[削除] をクリックします。
「削除」と入力し、[削除] をクリックします。注: これは元に戻せないアクションです。
統合の詳細ページで、ステータスに「削除中」と表示されます。統合が実際に削除されると、ゼロ ETL 統合ホームページに表示されなくなります。
統合状態
統合は、作成から削除までさまざまな状態を経ます。
CREATING- これは統合作成の開始時点における最初の状態です。この状態では、AWS Glue は初期化を実行します。設定に不備がない限り、この状態はすぐに CREATED 状態に移行します。ACTIVE- 統合がこの状態になると、AWS Glue はデータ転送 (初回フルロード) を開始します。アクセス許可の問題がない限り、最初のフルロードが完了すると、定期的な変更データキャプチャが実行されます。MODIFYING- 統合に変更を加えると、統合は「変更」状態になります。変更が適用されると、変更後に統合が成功した場合は統合の状態がACTIVEに移行し、問題が発生した場合は統合の状態がNEEDS_ATTENTIONまたはFAILEDになります。NEEDS_ATTENTION- ユーザーエラーまたはシステムエラーが発生した場合、統合はこの状態に移行します。ユーザーエラーとしては、アクセス許可の不備、ソースリソースまたはターゲットリソースの不備、サポートされていないデータエラーなどがあります。システムエラーとしては内部システムエラーなどがあります。どちらのエラータイプの場合も、AWS Glue ゼロ ETL は、データ同期を再試行し続け、7 日間が経過しても問題が解決しない場合は統合を FAILED としてマークします。7 日以内に問題が解決したら、統合は再び ACTIVE になり、データ転送が開始されます。SYNCING- AWS Glue ゼロ ETL がテーブル (1 つ/複数) 内の列の受信スキーマに関するデータ型の変更を検出すると、統合はこの状態に移行します。このような場合、AWS Glue ゼロ ETL は該当するすべてのテーブルに対してスナップショットの新しいセットをリクエストします。この間、統合は SYNCING 状態になり、新たにリクエストされたスナップショットが取り込み可能になると、最終的に ACTIVE 状態に移行します。FAILED- これは回復不能状態です。統合がこの状態になると、復元できなくなります。ソースからターゲットへのデータ転送をやり直すには、その統合を削除して再び作成するしかありません。AWS Glue ゼロ ETL は、ユーザーエラーまたはシステムエラーが修正されないまま 7 日間が経過し、すべての再試行が終了したことを認識すると、AWS Glue Zero ETL が統合を FAILED としてマークします。DELETING- delete-integration API を呼び出すと、AWS Glue はまず統合を DELETING 状態に移行させます。すべてのメタデータがクリアされ、内部処理が終了すると、AWS Glue は統合を DELETED 状態に移行させます。DELETED- これは統合の絶望的状態です。統合をこの状態から別の状態に移行させることはできません。同じソースからターゲットへのデータ転送が必要な場合は、統合を作成し直す必要があります。