最新のデータレイク

Apache Iceberg の概要

Apache Iceberg は、これまでデータベースまたはデータウェアハウスでのみ使用されていたデータレイクテーブルの機能を提供するオープンソースのテーブル形式です。スケーリングとパフォーマンスのために設計されており、数百ギガバイトを超えるテーブルの管理に適しています。Iceberg テーブルの主な機能は次のとおりです。

削除、更新、マージします。 Iceberg は、データレイクテーブルで使用するデータウェアハウス用の標準 SQL コマンドをサポートしています。
高速スキャン計画と高度なフィルタリング。Iceberg は、クエリの計画と実行を高速化するためにエンジンで使用できるパーティションや列レベルの統計などのメタデータを保存します。
完全なスキーマの進化。Iceberg は、副作用のない列の追加、削除、更新、名前変更をサポートしています。
パーティションの進化。データボリュームまたはクエリパターンの変化に応じて、テーブルのパーティションレイアウトを更新できます。Iceberg は、テーブルがパーティション分割されている列の変更、複合パーティションへの列の追加、複合パーティションからの列の削除をサポートしています。
非表示のパーティショニング。 この機能は、不要なパーティションを自動的に読み取るのを防ぎます。これにより、ユーザーがテーブルのパーティショニングの詳細を理解したり、クエリにフィルターを追加したりする必要がなくなります。
バージョンロールバック。ユーザーは、トランザクション前の状態に戻すことで問題をすばやく修正できます。
タイムトラベル。ユーザーは、特定の以前のバージョンのテーブルをクエリできます。
シリアル化可能な分離。テーブルの変更はアトミックであるため、読者は部分的またはコミットされていない変更を見ることはありません。
同時ライター。Iceberg はオプティミスティック同時実行を使用して、複数のトランザクションを成功させます。競合が発生した場合、ライターの 1 人がトランザクションを再試行する必要があります。
ファイル形式を開きます。Iceberg は、Apache Parquet、Apache Avro、Apache ORC など、複数のオープンソースファイル形式をサポートしています。

要約すると、Iceberg 形式を使用するデータレイクは、トランザクションの一貫性、速度、スケール、スキーマの進化の恩恵を受けます。これらの機能やその他の Iceberg 機能の詳細については、Apache Iceberg のドキュメントを参照してください。

AWS Apache Iceberg のサポート

Apache Iceberg は、Amazon EMR、Amazon Athena、Amazon Redshift、AWS Glue、Amazon SageMaker AWS のサービスなどのでサポートされています。次の図は、Iceberg に基づくデータレイクの簡略化されたリファレンスアーキテクチャを示しています。

Apache Iceberg のトランザクションデータレイクアーキテクチャ AWS。

以下は AWS のサービス、Iceberg のネイティブ統合を提供します。間接的に、または Iceberg ライブラリをパッケージ化することによって、Iceberg とやり取り AWS のサービスできる追加があります。

Amazon S3 は、耐久性、可用性、スケーラビリティ、セキュリティ、コンプライアンス、監査機能を備えているため、データレイクを構築するのに最適な場所です。Iceberg は Amazon S3 とシームレスにやり取りするように設計および構築されており、Iceberg ドキュメントに記載されている多くの Amazon S3 機能をサポートしています。さらに、Amazon S3 Tables は、Iceberg のサポートが組み込まれた最初のクラウドオブジェクトストアを提供し、大規模な表形式データの保存を合理化します。Iceberg の S3 Tables のサポートにより、一般的なクエリエンジン AWS とサードパーティーのクエリエンジンを使用して、表形式のデータを簡単にクエリできます。
次世代の SageMaker は、Amazon S3 データレイク、Amazon Redshift データウェアハウス、サードパーティーおよびフェデレーティッドデータソース間のデータアクセスを統合するオープンレイクハウスアーキテクチャ上に構築されています。これらの機能は、データの 1 つのコピーで強力な分析と AI/ML アプリケーションを構築するのに役立ちます。レイクハウスは Iceberg と完全に互換性があるため、Iceberg REST API を使用してデータにアクセスしてクエリを実行する柔軟性があります。
Amazon EMR は、Apache Spark、Flink、Trino、Hive などのオープンソースフレームワークを使用してペタバイト規模のデータ処理、インタラクティブ分析、機械学習を行うためのビッグデータソリューションです。Amazon EMR は、カスタマイズされた Amazon Elastic Compute Cloud (Amazon EC2) クラスター、Amazon Elastic Kubernetes Service (Amazon EKS)、 AWS Outposts、または Amazon EMR Serverless で実行できます。
Amazon Athena は、オープンソースフレームワーク上に構築されたサーバーレスのインタラクティブな分析サービスです。オープンテーブル形式とファイル形式をサポートし、ペタバイト単位のデータを分析するためのシンプルで柔軟な方法を提供します。Athena は Iceberg の読み取り、タイムトラベル、書き込み、DDL クエリをネイティブにサポートし、Iceberg メタストア AWS Glue Data Catalog にを使用します。
Amazon Redshift は、クラスターベースとサーバーレスの両方のデプロイオプションをサポートするペタバイト規模のクラウドデータウェアハウスです。Amazon Redshift Spectrum は、に登録 AWS Glue Data Catalog されAmazon S3に保存されている外部テーブルをクエリできます。Redshift Spectrum は Iceberg ストレージ形式もサポートしています。
AWS Glue は、分析、機械学習 (ML)、アプリケーション開発のために複数のソースからのデータを簡単に検出、準備、移動、統合できるサーバーレスデータ統合サービスです。Iceberg と完全に統合されています。具体的には、 AWS Glue ジョブを使用して Iceberg テーブルの読み取りおよび書き込みオペレーションを実行し、 AWS Glue Data Catalog (Hive メタストア互換) を使用してテーブルを管理し、 AWS Glue クローラを使用してテーブルを自動的に検出して登録し、 AWS Glue Data Quality 機能を使用して Iceberg テーブルのデータ品質を評価できます。は、列統計の収集、Iceberg テーブルの各列の個別値 (NDVs) の数の計算と更新、およびテーブルの自動最適化 (圧縮、スナップショット保持、孤立ファイル削除) AWS Glue Data Catalog もサポートしています。は、 AWS のサービスおよびサードパーティーアプリケーションのリストから Iceberg テーブルへのゼロ ETL 統合 AWS Glue もサポートしています。
Amazon Data Firehose は、Amazon S3、Amazon Redshift、Amazon OpenSearch Service、Amazon OpenSearch Serverless、Splunk、Apache Iceberg テーブルなどの送信先、および Datadog、Dynatrace、LogicMonitor、MongoDB、New Relic、Coralogix、Elastic など、サポートされているサードパーティーサービスプロバイダーが所有するカスタム HTTP または HTTP エンドポイントにリアルタイムのストリーミングデータを配信するためのフルマネージドサービスです。Firehose では、アプリケーションを記述したり、リソースを管理したりする必要はありません。Firehose にデータを送信するデータプロデューサーを作成すると、それにより、指定した送信先にデータが自動配信されます。データを配信前に変換するように、Firehose を設定することもできます。
Amazon Managed Service for Apache Flink は、Apache Flink アプリケーションを使用してストリーミングデータを処理できるフルマネージド型の Amazon サービスです。Iceberg テーブルとの読み取りと書き込みの両方をサポートし、リアルタイムのデータ処理と分析を可能にします。
Amazon SageMaker AI は、Iceberg 形式を使用して Amazon SageMaker AI Feature Store の機能セットのストレージをサポートします。
AWS Lake Formation は、Athena または Amazon Redshift によって消費される Iceberg テーブルなど、データにアクセスするための粗くきめ細かなアクセスコントロール許可を提供します。Iceberg テーブルのアクセス許可のサポートの詳細については、Lake Formation ドキュメントを参照してください。

AWS には Iceberg をサポートする幅広いサービスがありますが、これらのサービスをすべてカバーすることは、このガイドの範囲外です。以下のセクションでは、Amazon EMR およびの Spark (バッチおよび構造化ストリーミング) AWS Glueと Athena SQL について説明します。次のセクションでは、Athena SQL での Iceberg サポートについて簡単に説明します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

序章

Athena SQL での Iceberg テーブルの開始方法

最新のデータレイク

最新のデータレイクにおける高度なユースケース

Apache Iceberg の概要

AWS Apache Iceberg のサポート