Aurora ゼロ ETL 統合 - Amazon Aurora

Aurora ゼロ ETL 統合

Amazon Redshift および Amazon SageMaker AI との Aurora ゼロ ETL 統合では、Aurora からのデータを使用して、ほぼリアルタイムの分析と機械学習 (ML) が可能です。これは、トランザクションデータを Aurora DB クラスターに書き込んだ後に分析送信先で利用できるようにするためのフルマネージドソリューションです。抽出、変換、ロード (ETL) は、複数のソースからのデータを大規模な中央のデータウェアハウスにまとめるプロセスです。

ゼロ ETL 統合では、Aurora DB クラスターのデータが Amazon Redshift または Amazon SageMaker AI Lakehouse でほぼリアルタイムで利用できます。データがターゲットデータウェアハウスまたはデータレイクに格納されると、機械学習、マテリアライズドビュー、データ共有、複数のデータストアやデータレイクへのフェデレーションアクセス、および Amazon SageMaker AI、Quick Suite、その他の AWS のサービスとの統合といった組み込み機能を使用して、分析、ML、AI のワークロードを強化できます。

ゼロ ETL 統合を作成するには、Aurora DB クラスターソースとして指定し、サポートされたデータウェアハウスやレイクハウスをターゲットとして指定します。統合では、ソースデータベースからターゲットデータウェアハウスやレイクハウスにデータがレプリケートされます。

次の図は、Amazon Redshift とのゼロ ETL 統合のこの機能を示しています。

ゼロ ETL 統合

次の図は、Amazon SageMaker AI Lakehouse とのゼロ ETL 統合のこの機能を示しています。

Amazon SageMaker AI Lakehouse とのゼロ ETL 統合

統合では、データパイプラインの状態をモニタリングし、可能な場合は問題から回復します。複数の Aurora DB クラスターから単一のターゲットデータウェアハウスまたはレイクハウスに統合を作成できるため、複数のアプリケーションにわたってインサイトを引き出すことができます。

ゼロ ETL 統合の料金の詳細については、Amazon Aurora の料金および「Amazon Redshift の料金」を参照してください。

利点

Aurora ゼロ ETL 統合には、主に次のような利点があります。

  • 複数のデータソースから総合的なインサイトを引き出すのに役立ちます。

  • 抽出、変換、ロード (ETL) 操作を実行する複雑なデータパイプラインを構築して管理する必要がなくなります。ゼロ ETL 統合は、パイプラインのプロビジョニングと管理を顧客に代わって行うことで、パイプラインの構築と管理に伴う課題を排除します。

  • 運用上の負担とコストを削減し、アプリケーションの改善に集中できます。

  • ターゲット送信先の分析機能と ML 機能を活用して、トランザクションデータやその他のデータからインサイトを引き出し、重要で時間的制約のあるイベントに効果的に対応できます。

主要なコンセプト

ゼロ ETL 統合を始める際には、以下の概念を検討してください。

Integration

Aurora DB クラスターからデータウェアハウスまたはカタログにトランザクションデータとスキーマを自動的に複製する、フルマネージドデータパイプライン。

ソース DB クラスター

データがレプリケートされる Aurora DB クラスタープロビジョニングされた DB インスタンスまたは Aurora Serverless v2 DB インスタンスをソースとして使用する DB クラスターを指定できます。

ターゲット

データがレプリケートされるデータウェアハウスまたはレイクハウス。データウェアハウスには、プロビジョニングされたクラスターデータウェアハウスとサーバーレスデータウェアハウスの 2 種類があります。プロビジョニングされたクラスターデータウェアハウスは、ノードと呼ばれるコンピューティングリソースのコレクションであり、クラスターと呼ばれるグループに編成されています。サーバーレスデータウェアハウスは、コンピューティングリソースを格納するワークグループと、データベースオブジェクトとユーザーを収容する名前空間で構成されています。どちらのデータウェアハウスも分析エンジンを実行し、1 つ以上のデータベースを含んでいます。

ターゲットレイクハウスは、カタログ、データベース、テーブル、ビューで構成されます。レイクハウスアーキテクチャの詳細については、「Amazon SageMaker AI Unified Studio ユーザーガイド」の「SageMaker Lakehouse components」を参照してください。

複数のソースの DB クラスターを同じターゲットに書き込むことができます。

詳細については、「Amazon Redshift デベロッパーガイド」の「データウェアハウスのシステムアーキテクチャ」を参照してください。

制限

Aurora ゼロ ETL 統合には、以下の制限が適用されます。

一般的な制限事項

  • ソースDB クラスターは、ターゲットと同じリージョンにある必要があります。

  • クラスターに既存の統合がある場合、DB クラスターやそのインスタンスの名前を変更することはできません。

  • 同じソースデータベースとターゲットデータベースの間に複数の統合を作成することはできません。

  • 既存の統合がある DB クラスターは削除できません。まず、関連する統合をすべて削除する必要があります。

  • ソースDB クラスターを停止すると、クラスターを再開するまで、最後のいくつかのトランザクションがターゲットにレプリケートされない場合があります。

  • クラスターがブルー/グリーンデプロイのソースである場合、ブルー環境とグリーン環境の切り替え中に既存のゼロ ETL 統合を置くことはできません。最初に統合を削除してから切り替えて、再作成する必要があります。

  • DB クラスターが統合のソースになるには、1 つ以上の DB インスタンスが含まれている必要があります。

  • AWS Resource Access Manager (AWS RAM) を使用して共有されるクローンなど、クロスアカウントクローンであるソース DB クラスターで統合を作成することはできません。

  • ソースクラスターが Aurora グローバルデータベースのプライマリ DB クラスターであり、セカンダリクラスターの 1 つにフェールオーバーすると、統合は非アクティブになります。統合を手動で削除して再作成する必要があります。

  • 統合を作成中のソースデータベースで別の統合を作成することはできません。

  • 初めて統合を作成するとき、またはテーブルを再同期するとき、ソースデータベースのサイズによっては、ソースからターゲットへのデータシードに 20 ~ 25 分以上かかる場合があります。この遅延により、レプリカラグが長くなる可能性があります。

  • 一部のデータ型はサポートされていません。詳細については、「 データベースのデータタイプの違い」を参照してください。

  • システムテーブル、一時テーブル、ビューはターゲットウェアハウスにレプリケートされません。

  • ソーステーブルで DDL コマンド (ALTER TABLE など) を実行すると、テーブルの再同期がトリガーされ、再同期中はテーブルをクエリできなくなる場合があります。詳細については、「1 つ以上の Amazon Redshift テーブルを再同期する必要がある」を参照してください。

Aurora MySQL の制限事項

  • ソース DB クラスターは、サポートされているバージョンの Aurora MySQL を実行している必要があります。サポートされているバージョンのリストについては、「ゼロ ETL 統合でサポートされているリージョンと Aurora DB エンジン」を参照してください。

  • ゼロ ETL 統合では、MySQL バイナリロギング (binlog) を利用して継続的なデータ変更をキャプチャします。バイナリログベースのデータフィルタリングは使用しないでください。ソースとターゲットのデータベース間でデータの不整合が生じる可能性があります。

  • ゼロ ETL 統合は、InnoDB ストレージエンジンを使用するように設定されたデータベースでのみサポートされています。

  • 定義済みのテーブル更新を伴う外部キー参照はサポートされていません。具体的には、ON DELETE および ON UPDATE ルールは、CASCADESET NULL、および SET DEFAULT アクションではサポートされていません。別のテーブルへの参照を含むテーブルを作成または更新しようとすると、テーブルは失敗状態になります。

  • ソース DB クラスターで XA トランザクションを実行すると、統合は Syncing の状態になります。

Aurora PostgreSQL の制限

  • ソース DB クラスターは、サポートされているバージョンの Aurora PostgreSQL を実行している必要があります。サポートされているバージョンのリストについては、「ゼロ ETL 統合でサポートされているリージョンと Aurora DB エンジン」を参照してください。

  • Aurora PostgreSQL ソース DB クラスターを選択する場合は、少なくとも 1 つのデータフィルターパターンを指定する必要があります。このパターンには、ターゲットウェアハウスへのレプリケーション用のデータベース (database-name.*.*) が少なくとも 1 つ含まれている必要があります。詳細については、「Aurora ゼロ ETL 統合でのデータフィルタリング」を参照してください。

  • ソース Aurora PostgreSQL DB クラスター内で作成されるすべてのデータベースは、UTF-8 エンコーディングを使用する必要があります。

  • 宣言型パーティショニングを使用する場合、テーブルパーティションは Amazon Redshift にレプリケートされます。ただし、パーティション分割されたテーブル自体は Amazon Redshift にレプリケートされません。

  • 2 相トランザクションはサポートされていません。

  • 統合のソースである DB クラスターからすべての DB インスタンスを削除し、DB インスタンスを再追加すると、ソースクラスターとターゲットクラスターの間のレプリケーションは中断されます。

  • ソース DB クラスターは Aurora Limitless Database を使用できません。

  • プライマリキーは、データフィルターに存在するすべてのテーブルで必要です。プライマリキーのないテーブルは、失敗状態になります。

Amazon Redshift の制限事項

ゼロ ETL 統合に関連する Amazon Redshift の制限の一覧については、「Amazon Redshift 管理ガイド」の「Amazon Redshift とのゼロ ETL 統合を使用する際の考慮事項」を参照してください。

Amazon SageMaker AI Lakehouse の制限事項

以下は、Amazon SageMaker AI Lakehouse のゼロ ETL 統合の制限です。

  • カタログ名の長さは 19 文字に制限されています。

クォータ

お客様のアカウントには、Aurora ゼロ ETL 統合に関連する以下のクォータが設定されています。特に指定がない限り、各クォータはリージョンあたりです。

名前 デフォルト 説明
統合 100 AWS アカウント 内の統合の総数。
ターゲットあたりの統合 50 1 つのターゲットデータウェアハウスまたはレイクハウスにデータを送信する統合の数。
ソースクラスターごとの統合 5 単一のソース DB クラスターからデータを送信する統合の数。

さらに、ターゲットウェアハウスは、各 DB インスタンスまたはクラスターノードで使用できるテーブルの数に一定の制限を設けています。Amazon Redshift のクォータと制限の詳細については、「Amazon Redshift 管理ガイド」の「Amazon Redshift のクォータと制限」を参照してください。

サポート対象のリージョン

Aurora ゼロ ETL 統合は、AWS リージョンのサブセットで利用できます。サポートされているリージョンのリストについては「ゼロ ETL 統合でサポートされているリージョンと Aurora DB エンジン」を参照してください。