Uso de Apache Iceberg con EMR sin servidor
En esta sección se describe cómo utilizar Apache Iceberg con aplicaciones EMR sin servidor. Apache Iceberg es un formato de tabla que ayuda a trabajar con grandes conjuntos de datos en lagos de datos.
Para usar Apache Iceberg con aplicaciones EMR sin servidor
-
Establezca las propiedades de Spark requeridas en la ejecución de la tarea de Spark correspondiente.
spark.jars=/usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar -
Designe el Catálogo de datos de Glue AWS como metaalmacén o configure un metaalmacén externo. Para obtener más información acerca de cómo configurar su metaalmacén, consulte Configuración de metaalmacenes para EMR sin servidor.
Configure las propiedades del metaalmacén que desee utilizar para Iceberg. Por ejemplo, si desea utilizar el Catálogo de datos de Glue AWS, establezca las siguientes propiedades en la configuración de la aplicación.
spark.sql.catalog.dev.warehouse=s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/ spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions spark.sql.catalog.dev=org.apache.iceberg.spark.SparkCatalog spark.sql.catalog.dev.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactoryCuando utilice el catálogo de datos de AWS Glue como metaalmacén, puede especificar las siguientes propiedades de configuración para tu trabajo de Iceberg.
--conf spark.jars=/usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar, --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions, --conf spark.sql.catalog.dev=org.apache.iceberg.spark.SparkCatalog, --conf spark.sql.catalog.dev.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog, --conf spark.sql.catalog.dev.warehouse=s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/ --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
Para obtener más información sobre las versiones de Apache Iceberg de Amazon EMR, consulte Iceberg release history.