Apache Iceberg com controle de acesso refinado - Amazon EMR

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Apache Iceberg com controle de acesso refinado

As versões 6.15.0 e superiores do Amazon EMR incluem suporte para controle de acesso refinado baseado no Apache Iceberg quando você lê e grava dados AWS Lake Formation com o Spark SQL. O Amazon EMR oferece suporte ao controle de acesso no nível de tabela, linha, coluna e célula com o Apache Iceberg. Com esse recurso, você pode executar consultas de instantâneos em copy-on-write tabelas para consultar o instantâneo mais recente da tabela em um determinado instante de confirmação ou compactação.

Se você quiser usar o formato Iceberg, defina as configurações a seguir. DB_LOCATIONSubstitua pelo caminho do Amazon S3 em que suas tabelas Iceberg estão localizadas e substitua os espaços reservados da região e do ID da conta por seus próprios valores.

spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION --conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.client.region=AWS_REGION

Se você quiser usar o formato Iceberg em versões anteriores do EMR, use o seguinte comando em vez disso:

spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION --conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID --conf spark.sql.catalog.spark_catalog.client.assume-role.region=AWS_REGION --conf spark.sql.catalog.spark_catalog.lf.managed=true

A matriz de apoio a seguir lista alguns dos principais recursos do Apache Iceberg com o Lake Formation:

Copiar na gravação mesclar na leitura

Consultas de snapshots: Spark SQL

Consultas otimizadas para leitura: Spark SQL

Consultas incrementais

Consultas de viagem no tempo

Tabelas de metadados

Comandos INSERT de DML

Comandos de DDL

Consultas de fontes de dados do Spark

Gravações na fonte de dados do Spark