

# データレイクフレームワークを AWS Glue Studio で使用する
<a name="gs-data-lake-formats"></a>

## 概要:
<a name="gs-data-lake-formats-overview"></a>

 オープンソースのデータレイクフレームワークは、Amazon S3 上に構築されたデータレイクに保存されたファイルのインクリメンタルデータ処理を簡素化します。AWS Glue 3.0 以降では、次のオープンソースのデータレイクストレージフレームワークをサポートしています。
+  Apache Hudi 
+  Linux Foundation Delta Lake 
+  Apache Iceberg 

 AWS Glue 4.0 では、AWS Glue はこれらのフレームワークをネイティブにサポートしているため、トランザクションが一貫した方法で、Amazon S3 に保存したデータを読み書きできます。AWS Glue ジョブでこれらのフレームワークを使用する場合でも、別のコネクタをインストールしたり、設定手順を追加で実行したりする必要はありません。

 データレイクフレームワークは、Spark Script Editor ジョブから AWS Glue Studio 内のソースまたはターゲットとして使用できます。Apache Hudi、Apache Iceberg、Delta Lake の使用方法の詳細については、「[AWS Glue ETL ジョブでデータレイクフレームワークを使用する](https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-datalake-native-frameworks.html)」を参照してください。

## AWS Glue ストリーミングソースからのオープンテーブルフォーマットの作成
<a name="gs-data-lake-formats-streaming"></a>

AWS Glue ストリーミング ETL ジョブは、ストリーミングソースからのデータを継続的に消費し、転送中のデータをクリーンアップおよび変換して、数秒で分析できるようにします。

AWS は、お客様のニーズをサポートする幅広いサービスを提供します。AWS Database Migration Service などのデータベースレプリケーションサービスは、ソースシステムから Amazon S3 にデータをレプリケートできます。Amazon S3 は通常、データレイクのストレージレイヤーをホストします。オンラインソースアプリケーションをサポートするリレーショナルデータベース管理システム (RDBMS) に更新を適用するのは簡単ですが、この CDC プロセスをデータレイクに適用するのは困難です。オープンソースのデータ管理フレームワークは、増分データ処理とデータパイプライン開発を簡素化し、この問題を解決するための優れたオプションです。

詳細については、以下を参照してください。
+ [AWS Glue ストリーミングを使用して、Apache Hudi ベースのほぼリアルタイムのトランザクションデータレイクを作成する](https://aws.amazon.com/blogs/big-data/create-an-apache-hudi-based-near-real-time-transactional-data-lake-using-aws-dms-amazon-kinesis-aws-glue-streaming-etl-and-data-visualization-using-amazon-quicksight/)
+ [Build a real-time GDPR-aligned Apache Iceberg data lake](https://aws.amazon.com/blogs/big-data/build-a-real-time-gdpr-aligned-apache-iceberg-data-lake/)