Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Apache Iceberg con un control de acceso detallado
Las versiones 6.15.0 y posteriores de Amazon EMR incluyen compatibilidad con un control de acceso detallado basado en Apache Iceberg al leer y AWS Lake Formation escribir datos con Spark SQL. Amazon EMR es compatible con el control de acceso a nivel de tabla, fila, columna y celda con Apache Iceberg. Con esta función, puede ejecutar consultas de instantáneas en copy-on-write las tablas para consultar la última instantánea de la tabla en un instante de confirmación o compactación determinado.
Si desea utilizar el formato Iceberg, defina las siguientes configuraciones. Sustitúyala por la ruta de Amazon S3 en la que se encuentran las tablas de Iceberg y sustituye los marcadores de región e ID de cuenta por tus propios valores.DB_LOCATION
spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION--conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.client.region=AWS_REGION
Si desea utilizar el formato Iceberg en versiones anteriores de EMR, utilice el siguiente comando en su lugar:
spark-sql \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,com.amazonaws.emr.recordserver.connector.spark.sql.RecordServerSQLExtension --conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.spark_catalog.warehouse=s3://DB_LOCATION--conf spark.sql.catalog.spark_catalog.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog --conf spark.sql.catalog.spark_catalog.io-impl=org.apache.iceberg.aws.s3.S3FileIO --conf spark.sql.catalog.spark_catalog.glue.account-id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.glue.id=ACCOUNT_ID--conf spark.sql.catalog.spark_catalog.client.assume-role.region=AWS_REGION--conf spark.sql.catalog.spark_catalog.lf.managed=true
La siguiente matriz de compatibilidad enumera algunas de las características principales de Apache Iceberg con Lake Formation:
| Copiar al escribir | fusionar al leer | |
|---|---|---|
|
Consultas de instantáneas: Spark SQL |
✓ |
✓ |
|
Consultas optimizadas para la lectura: Spark SQL |
✓ |
✓ |
|
Consultas incrementales |
✓ |
✓ |
|
Consultas de viaje en el tiempo |
✓ |
✓ |
|
Tabla de metadatos |
✓ |
✓ |
|
Comandos |
✓ |
✓ |
|
Comandos DDL |
||
|
Consultas de orígenes de datos de Spark |
||
|
Escrituras de orígenes de datos de Spark |