View a markdown version of this page

Usa un cluster Delta Lake con Spark and Glue AWS - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Usa un cluster Delta Lake con Spark and Glue AWS

Per utilizzare AWS Glue Catalog come Metastore per le tabelle Delta Lake, crea un cluster con i seguenti passaggi. Per informazioni su come specificare la classificazione Delta Lake utilizzando AWS Command Line Interface, consulta Fornire una configurazione utilizzando AWS Command Line Interface quando si crea un cluster o Fornire una configurazione utilizzando Java SDK quando si crea un cluster.

Creazione di un cluster Delta Lake
  1. Creare un file, configurations.json, con i seguenti contenuti:

    [{"Classification":"delta-defaults", "Properties":{"delta.enabled":"true"}}, {"Classification":"spark-hive-site", "Properties":{"hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"}}]
  2. Crea un cluster con la seguente configurazione, sostituendo example Amazon S3 bucket path e subnet ID con i tuoi valori.

    aws emr create-cluster --release-label emr-6.9.0 --applications Name=Spark --configurations file://delta_configurations.json --region us-east-1 --name My_Spark_Delta_Cluster --log-uri s3://amzn-s3-demo-bucket/ --instance-type m5.xlarge --instance-count 2 --service-role EMR_DefaultRole_V2 --ec2-attributes InstanceProfile=EMR_EC2_DefaultRole,SubnetId=subnet-1234567890abcdef0