Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Utilisation d'Apache Iceberg avec EMR sans serveur
Cette section décrit comment utiliser Apache Iceberg avec des applications EMR sans serveur. Apache Iceberg est un format de table qui permet de travailler avec de grands ensembles de données dans des lacs de données.
Pour utiliser Apache Iceberg avec des applications EMR sans serveur
-
Définissez les propriétés Spark requises lors de l'exécution de la tâche Spark correspondante.
spark.jars=/usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar
-
Désignez le AWS Glue Data Catalog comme métastore ou configurez un métastore externe. Pour en savoir plus sur la configuration de votre métastore, consultez. Configuration du métastore pour EMR Serverless
Configurez les propriétés du métastore que vous souhaitez utiliser pour Iceberg. Par exemple, si vous souhaitez utiliser le catalogue de données AWS Glue, définissez les propriétés suivantes dans la configuration de l'application.
spark.sql.catalog.dev.warehouse=s3://
amzn-s3-demo-bucket
/EXAMPLE-PREFIX
/ spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions spark.sql.catalog.dev=org.apache.iceberg.spark.SparkCatalog spark.sql.catalog.dev.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactoryLorsque vous utilisez le catalogue de données AWS Glue comme métastore, vous pouvez spécifier les propriétés de configuration suivantes pour votre tâche Iceberg.
--conf spark.jars=/usr/share/aws/iceberg/lib/iceberg-spark3-runtime.jar, --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions, --conf spark.sql.catalog.dev=org.apache.iceberg.spark.SparkCatalog, --conf spark.sql.catalog.dev.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog, --conf spark.sql.catalog.dev.warehouse=s3://
amzn-s3-demo-bucket
/EXAMPLE-PREFIX
/ --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
Pour en savoir plus sur les versions Apache Iceberg d'Amazon EMR, consultez l'historique des versions d'Iceberg.