As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Apache Iceberg com controle de acesso refinado
As versões 6.15.0 e superiores do Amazon EMR incluem suporte para controle de acesso refinado baseado no Apache Iceberg quando você lê e grava dados AWS Lake Formation com o Spark SQL. O Amazon EMR oferece suporte ao controle de acesso no nível de tabela, linha, coluna e célula com o Apache Iceberg. Com esse recurso, você pode executar consultas de instantâneos em copy-on-write tabelas para consultar o instantâneo mais recente da tabela em um determinado instante de confirmação ou compactação.
Se você quiser usar o formato Iceberg, defina as configurações a seguir. Substitua pelo caminho do Amazon S3 em que suas tabelas Iceberg estão localizadas e substitua os espaços reservados da região e do ID da conta por seus próprios valores.DB_LOCATION
spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION--conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.client.region=AWS_REGION
Se você quiser usar o formato Iceberg em versões anteriores do EMR, use o seguinte comando em vez disso:
spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION--conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.client.assume-role.region=AWS_REGION--conf spark.sql.catalog.spark_catalog.lf.managed=true
A matriz de apoio a seguir lista alguns dos principais recursos do Apache Iceberg com o Lake Formation:
| Copiar na gravação | mesclar na leitura | |
|---|---|---|
|
Consultas de snapshots: Spark SQL |
✓ |
✓ |
|
Consultas otimizadas para leitura: Spark SQL |
✓ |
✓ |
|
Consultas incrementais |
✓ |
✓ |
|
Consultas de viagem no tempo |
✓ |
✓ |
|
Tabelas de metadados |
✓ |
✓ |
|
Comandos |
✓ |
✓ |
|
Comandos de DDL |
||
|
Consultas de fontes de dados do Spark |
||
|
Gravações na fonte de dados do Spark |