Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Usa un cluster Delta Lake con Spark and Glue AWS
Per utilizzare AWS Glue Catalog come Metastore per le tabelle Delta Lake, crea un cluster con i seguenti passaggi. Per informazioni su come specificare la classificazione Delta Lake utilizzando AWS Command Line Interface, consulta Fornire una configurazione utilizzando AWS Command Line Interface quando si crea un cluster o Fornire una configurazione utilizzando Java SDK quando si crea un cluster.
Creazione di un cluster Delta Lake
-
Creare un file,
configurations.json, con i seguenti contenuti:[{"Classification":"delta-defaults", "Properties":{"delta.enabled":"true"}}, {"Classification":"spark-hive-site", "Properties":{"hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory"}}] -
Crea un cluster con la seguente configurazione, sostituendo
example Amazon S3 bucket pathesubnet IDcon i tuoi valori.aws emr create-cluster --release-label emr-6.9.0 --applications Name=Spark --configurations file://delta_configurations.json --region us-east-1 --name My_Spark_Delta_Cluster --log-uris3://amzn-s3-demo-bucket/--instance-type m5.xlarge --instance-count 2 --service-role EMR_DefaultRole_V2 --ec2-attributes InstanceProfile=EMR_EC2_DefaultRole,SubnetId=subnet-1234567890abcdef0