きめ細かなアクセスコントロールを備えた Apache Iceberg - Amazon EMR

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

きめ細かなアクセスコントロールを備えた Apache Iceberg

Amazon EMR リリース 6.15.0 以降には、Spark SQL AWS Lake Formation でデータを読み書きするときの Apache Iceberg による に基づくきめ細かなアクセスコントロールのサポートが含まれています。Amazon EMR は、Apache Iceberg を使用した、テーブル、行、列、セルレベルのアクセスコントロールをサポートしています。この機能を利用してコピーオンライトテーブルに対してスナップショットクエリを実行することで、特定のコミットまたは圧縮の瞬間におけるテーブルの最新のスナップショットをクエリすることができます。

Iceberg 形式を使用する場合は、以下の設定を設定します。を Iceberg テーブルがある Amazon S3 パスDB_LOCATIONに置き換え、リージョンとアカウント ID プレースホルダーを独自の値に置き換えます。

spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION --conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.client.region=AWS_REGION

以前の EMR バージョンで Iceberg 形式を使用する場合は、代わりに次のコマンドを使用します。

spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION --conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.client.assume-role.region=AWS_REGION --conf spark.sql.catalog.spark_catalog.lf.managed=true

以下のサポートマトリックスには、Apache Iceberg と Lake Formation のコア機能の一部がリストされています。

Copy on Write 読み取り時マージ

スナップショットクエリ - Spark SQL

読み取り最適化クエリ - Spark SQL

増分クエリ

タイムトラベルクエリ

メタデータテーブル

DML INSERT コマンド

DDL コマンド

Spark データソースクエリ

Spark データソース書き込み