Utilizzo di Delta Lake con Amazon EMR su EKS - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di Delta Lake con Amazon EMR su EKS

Delta Lake è un framework di storage open source per la creazione di un'architettura Lakehouse. Di seguito viene illustrato come configurarlo per l'uso.

Utilizzo di Delta Lake con Amazon EMR su applicazioni EKS
  1. Quando avvii un'esecuzione di processo per inviare un processo Spark nella configurazione dell'applicazione, includi i file JAR di Delta Lake:

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
    Nota

    Le versioni 7.0.0 e successive di Amazon EMR utilizzano Delta Lake 3.0, che viene rinominato in. delta-core.jar delta-spark.jar Se utilizzi Amazon EMR versione 7.0.0 o successive, assicurati di utilizzare il nome file corretto, come nell'esempio seguente:

    --jars local:///usr/share/aws/delta/lib/delta-spark.jar
  2. Includi la configurazione aggiuntiva di Delta Lake e usa AWS Glue Data Catalog come metastore.

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'