Accès aux tables Amazon S3 avec Amazon EMR - Amazon Simple Storage Service

Accès aux tables Amazon S3 avec Amazon EMR

Amazon EMR (anciennement Amazon Elastic MapReduce) est une plateforme de cluster gérée qui simplifie l’exécution des infrastructures de big data, telles qu’Apache Hadoop et Apache Spark, sur AWS pour traiter et analyser de grandes quantités de données. Grâce à ces infrastructures et des projets open source connexes, vous pouvez traiter des données à des fins d’analyse et pour des charges de travail business intelligence. Amazon EMR vous permet également de transformer et de déplacer de grandes quantités de données vers et à partir d’autres magasins de données et bases de données AWS.

Vous pouvez utiliser des clusters Apache Iceberg dans Amazon EMR pour travailler avec les tables S3 en vous connectant à des compartiments de tables au cours d’une session Spark. Pour vous connecter aux compartiments de table dans Amazon EMR, vous pouvez utiliser l’intégration des services d’analytique AWS via AWS Glue Data Catalog ou utiliser le catalogue client open source du catalogue d’Amazon S3 Tables pour Apache Iceberg.

Note

S3 Tables est pris en charge sur Amazon EMR version 7.5 ou supérieure.

Connexion à des compartiments de tables S3 avec Spark sur un cluster Amazon EMR Iceberg

Dans cette procédure, vous configurez un cluster Amazon EMR configuré pour Apache Iceberg, puis vous lancez une session Spark qui se connecte à vos compartiments de table. Vous pouvez configurer cela à l’aide de l’intégration des services d’analytique AWS via AWS Glue ou vous pouvez utiliser le catalogue client open source du catalogue d’Amazon S3 Tables pour Apache Iceberg. Pour obtenir des informations sur le catalogue client, consultez Accès aux tables à l’aide du point de terminaison Iceberg REST d’Amazon S3 Tables.

Choisissez votre méthode d’utilisation des tables avec Amazon EMR parmi les options suivantes.

Amazon S3 Tables Catalog for Apache Iceberg

Les prérequis suivants sont nécessaires pour interroger des tables avec Spark sur Amazon EMR en utilisant le catalogue d’Amazon S3 Tables pour Apache Iceberg.

Prérequis
  • Attachez la politique AmazonS3TablesFullAccess au rôle IAM que vous utilisez pour Amazon EMR.

Pour configurer un cluster Amazon EMR afin d’interroger les tables avec Spark
  1. Créez un cluster avec la configuration suivante. Pour utiliser cet exemple, remplacez user input placeholders par vos propres informations.

    aws emr create-cluster --release-label emr-7.5.0 \ --applications Name=Spark \ --configurations file://configurations.json \ --region us-east-1 \ --name My_Spark_Iceberg_Cluster \ --log-uri s3://amzn-s3-demo-bucket/ \ --instance-type m5.xlarge \ --instance-count 2 \ --service-role EMR_DefaultRole \ --ec2-attributes \ InstanceProfile=EMR_EC2_DefaultRole,SubnetId=subnet-1234567890abcdef0,KeyName=my-key-pair

    configurations.json:

    [{ "Classification":"iceberg-defaults", "Properties":{"iceberg.enabled":"true"} }]
  2. Connectez-vous au nœud primaire Spark à l’aide de SSH.

  3. Pour initialiser une session Spark pour Iceberg qui se connecte à votre compartiment de tables, entrez la commande suivante. Remplacez les user input placeholders par l’ARN de votre compartiment de table.

    spark-shell \ --packages software.amazon.s3tables:s3-tables-catalog-for-iceberg-runtime:0.1.3 \ --conf spark.sql.catalog.s3tablesbucket=org.apache.iceberg.spark.SparkCatalog \ --conf spark.sql.catalog.s3tablesbucket.catalog-impl=software.amazon.s3tables.iceberg.S3TablesCatalog \ --conf spark.sql.catalog.s3tablesbucket.warehouse=arn:aws:s3tables:us-east-1:111122223333:bucket/amzn-s3-demo-bucket1 \ --conf spark.sql.defaultCatalog=s3tablesbucket \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions
  4. Interrogez vos tables avec Spark SQL. Pour voir des exemples de requêtes, consultez Interrogation des tables S3 avec Spark SQL.

AWS analytics services integration

Les prérequis suivants doivent être remplis pour interroger des tables avec Spark sur Amazon EMR à l’aide de l’intégration des services d’analytique AWS.

Prérequis
Pour configurer un cluster Amazon EMR afin d’interroger les tables avec Spark
  1. Créez un cluster avec la configuration suivante. Pour utiliser cet exemple, remplacez les user input placeholder par vos propres informations.

    aws emr create-cluster --release-label emr-7.5.0 \ --applications Name=Spark \ --configurations file://configurations.json \ --region us-east-1 \ --name My_Spark_Iceberg_Cluster \ --log-uri s3://amzn-s3-demo-bucket/ \ --instance-type m5.xlarge \ --instance-count 2 \ --service-role EMR_DefaultRole \ --ec2-attributes \ InstanceProfile=EMR_EC2_DefaultRole,SubnetId=subnet-1234567890abcdef0,KeyName=my-key-pair

    configurations.json:

    [{ "Classification":"iceberg-defaults", "Properties":{"iceberg.enabled":"true"} }]
  2. Connectez-vous au nœud primaire Spark à l’aide de SSH.

  3. Entrez la commande suivante pour initialiser une session Spark pour Iceberg qui se connecte à vos tables. Remplacez les user input placeholders pour Région, et ID du compte et le nom du compartiment de table par vos propres informations.

    spark-shell \ --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions \ --conf spark.sql.defaultCatalog=s3tables \ --conf spark.sql.catalog.s3tables=org.apache.iceberg.spark.SparkCatalog \ --conf spark.sql.catalog.s3tables.catalog-impl=org.apache.iceberg.aws.glue.GlueCatalog \ --conf spark.sql.catalog.s3tables.client.region=us-east-1 \ --conf spark.sql.catalog.s3tables.glue.id=111122223333:s3tablescatalog/amzn-s3-demo-table-bucket
  4. Interrogez vos tables avec Spark SQL. Pour voir des exemples de requêtes, consultez Interrogation des tables S3 avec Spark SQL.

Note

Si vous utilisez la commande DROP TABLE PURGE avec Amazon EMR :

  • Amazon EMR version 7.5

    Définissez la configuration Spark spark.sql.catalog.your-catalog-name.cache-enabled sur false. Si cette configuration est définie sur true, exécutez la commande dans une nouvelle session ou application pour que le cache de table ne soit pas activé.

  • Amazon EMR versions supérieures à 7.5

    DROP TABLE n’est pas pris en charge. Vous pouvez utiliser l’API REST DeleteTable de S3 Tables pour supprimer une table.