翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
きめ細かなアクセスコントロールを備えた Apache Iceberg
Amazon EMR リリース 6.15.0 以降には、Spark SQL AWS Lake Formation でデータを読み書きするときの Apache Iceberg による に基づくきめ細かなアクセスコントロールのサポートが含まれています。Amazon EMR は、Apache Iceberg を使用した、テーブル、行、列、セルレベルのアクセスコントロールをサポートしています。この機能を利用してコピーオンライトテーブルに対してスナップショットクエリを実行することで、特定のコミットまたは圧縮の瞬間におけるテーブルの最新のスナップショットをクエリすることができます。
Iceberg 形式を使用する場合は、以下の設定を設定します。を Iceberg テーブルがある Amazon S3 パスに置き換え、リージョンとアカウント ID プレースホルダーを独自の値に置き換えます。DB_LOCATION
spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION--conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.client.region=AWS_REGION
以前の EMR バージョンで Iceberg 形式を使用する場合は、代わりに次のコマンドを使用します。
spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION--conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.client.assume-role.region=AWS_REGION--conf spark.sql.catalog.spark_catalog.lf.managed=true
以下のサポートマトリックスには、Apache Iceberg と Lake Formation のコア機能の一部がリストされています。
| Copy on Write | 読み取り時マージ | |
|---|---|---|
|
スナップショットクエリ - Spark SQL |
✓ |
✓ |
|
読み取り最適化クエリ - Spark SQL |
✓ |
✓ |
|
増分クエリ |
✓ |
✓ |
|
タイムトラベルクエリ |
✓ |
✓ |
|
メタデータテーブル |
✓ |
✓ |
|
DML |
✓ |
✓ |
|
DDL コマンド |
||
|
Spark データソースクエリ |
||
|
Spark データソース書き込み |