Utilisation d'Apache Iceberg avec EMR sans serveur

Cette section décrit comment utiliser Apache Iceberg avec des applications EMR sans serveur. Apache Iceberg est un format de table qui permet de travailler avec de grands ensembles de données dans des lacs de données.

Pour utiliser Apache Iceberg avec des applications EMR sans serveur

Définissez les propriétés Spark requises lors de l'exécution de la tâche Spark correspondante.
```
spark.jars=/usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar
```

Désignez le AWS Glue Data Catalog comme métastore ou configurez un métastore externe. Pour en savoir plus sur la configuration de votre métastore, reportez-vous à. Configuration du métastore pour EMR sans serveur

Configurez les propriétés du métastore que vous souhaitez utiliser pour Iceberg. Par exemple, si vous souhaitez utiliser le catalogue de données AWS Glue, définissez les propriétés suivantes dans la configuration de l'application.


spark.sql.catalog.dev.warehouse=s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/
spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions
spark.sql.catalog.dev=org.apache.iceberg.spark.SparkCatalog
spark.sql.catalog.dev.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog
spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

Lorsque vous utilisez le catalogue de données AWS Glue comme métastore, spécifiez les propriétés de configuration suivantes pour votre tâche Iceberg.


--conf spark.jars=/usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar,
--conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,
--conf spark.sql.catalog.dev=org.apache.iceberg.spark.SparkCatalog, 
--conf spark.sql.catalog.dev.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog, 
--conf spark.sql.catalog.dev.warehouse=s3://amzn-s3-demo-bucket/EXAMPLE-PREFIX/
--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory

Pour en savoir plus sur les versions d'Apache Iceberg d'Amazon EMR, consultez l'historique des versions d'Iceberg.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utiliser Hudi

Utilisation des bibliothèques Python