Uso do Apache Iceberg com o EMR Sem Servidor - Amazon EMR

Uso do Apache Iceberg com o EMR Sem Servidor

Esta seção descreve como usar o Apache Iceberg com aplicações do EMR Sem Servidor. O Apache Iceberg é um formato de tabela que ajuda a trabalhar com grandes conjuntos de dados em data lakes.

Para usar o Apache Iceberg com aplicações do EMR Sem Servidor
  1. Defina as propriedades necessárias do Spark na execução do trabalho correspondente do Spark.

    spark.jars=/usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar
  2. Designe o AWS Glue Data Catalog como metastore ou configure uma metastore externa. Para saber mais sobre como configurar a metastore, consulte Configuração da metastore para EMR Sem Servidor.

    Configure as propriedades da metastore que você deseja usar no Iceberg. Por exemplo, se deseja usar o AWS Glue Data Catalog, defina as propriedades a seguir na configuração da aplicação.

    spark.sql.catalog.dev.warehouse=s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/ spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions spark.sql.catalog.dev=org.apache.iceberg.spark.SparkCatalog spark.sql.catalog.dev.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

    Ao usar o AWS Glue Data Catalog como metastore, especifique as propriedades de configuração a seguir para o trabalho no Iceberg.

    --conf spark.jars=/usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar, --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions, --conf spark.sql.catalog.dev=org.apache.iceberg.spark.SparkCatalog, --conf spark.sql.catalog.dev.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog, --conf spark.sql.catalog.dev.warehouse=s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/ --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

Para saber mais sobre as versões do Apache Iceberg para o Amazon EMR, consulte Histórico de lançamentos do Iceberg.