Uso del almacenamiento gestionado (RMS) de Redshift con la integración del catálogo de datos de Iceberg y AWS Glue Uso del almacenamiento gestionado (RMS) de Redshift con la API REST de Iceberg y el catálogo de datos de Glue AWS

Trabajar con la jerarquía de catálogos múltiples de AWS Glue en EMR Serverless

Puede configurar sus aplicaciones EMR Serverless para que funcionen con la jerarquía de catálogos múltiples de AWS Glue. El siguiente ejemplo muestra cómo usar EMR-S Spark con la jerarquía de catálogos múltiples de AWS Glue.

Para obtener más información sobre la jerarquía de varios catálogos, consulta Cómo trabajar con una jerarquía de varios catálogos en AWS Glue Data Catalog with Spark en Amazon EMR.

Uso del almacenamiento gestionado (RMS) de Redshift con Iceberg and Glue Data Catalog AWS

A continuación se muestra cómo configurar Spark para su integración con un catálogo de datos de AWS Glue con Iceberg:


aws emr-serverless start-job-run \
    --application-id application-id \
    --execution-role-arn job-role-arn \
    --job-driver '{
        "sparkSubmit": {
            "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py",
            "sparkSubmitParameters": "--conf spark.sql.catalog.nfgac_rms = org.apache.iceberg.spark.SparkCatalog
             --conf spark.sql.catalog.rms.type=glue 
             --conf spark.sql.catalog.rms.glue.id=Glue RMS catalog ID 
             --conf spark.sql.defaultCatalog=rms
             --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions"
        }
    }'

Un ejemplo de consulta de una tabla del catálogo, tras la integración:


SELECT * FROM my_rms_schema.my_table

Uso del almacenamiento gestionado (RMS) de Redshift con la API REST de Iceberg y el catálogo de datos de Glue AWS

A continuación, se muestra cómo configurar Spark para que funcione con el catálogo REST de Iceberg:


aws emr-serverless start-job-run \
--application-id application-id \
--execution-role-arn job-role-arn \
--job-driver '{
"sparkSubmit": {
"entryPoint": "s3://amzn-s3-demo-bucket/myscript.py",
    "sparkSubmitParameters": "
    --conf spark.sql.catalog.rms=org.apache.iceberg.spark.SparkCatalog
    --conf spark.sql.catalog.rms.type=rest
    --conf spark.sql.catalog.rms.warehouse=Glue RMS catalog ID
    --conf spark.sql.catalog.rms.uri=Glue endpoint URI/iceberg
    --conf spark.sql.catalog.rms.rest.sigv4-enabled=true
    --conf spark.sql.catalog.rms.rest.signing-name=glue
    --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions"
    }
  }'

Un ejemplo de consulta de una tabla del catálogo:


SELECT * FROM my_rms_schema.my_table

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso de un metaalmacén de Hive externo

Consideraciones sobre el uso de un metaalmacén externo